автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов

кандидата технических наук
Новиков, Сергей Владимирович
город
Москва
год
2011
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов»

Автореферат диссертации по теме "Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов"



На правах рукописи

Новиков Сергей Владимирович

Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Автореферат

диссертации на соискание ученой степени кандидата технических наук

2 С ОКТ 2011

Москва-2011

4857368

Работа выполнена в Московском государственном институте электроники и математики (технический университет) на кафедре "Математическое обеспечение систем обработки информации и управления" (МОСОИиУ)

Научный руководитель: кандидат технических наук, доцент

Тюхов Борис Петрович

Официальные оппоненты: доктор технических наук, профессор

Толчеев Владимир Олегович

кандидат технических наук, доцент Желенков Борис Владимирович

Ведущая организация: ОАО «НИЦЭВТ» (Научно-

исследовательский центр электронной вычислительной техники)

Защита состоится «25» октября 2011г. в 14 ч. на заседании диссертационного совета Д 212.133.01 при Московском Государственном Институте Электроники и Математики по адресу 109028, г. Москва, Б.Трехсвятительский пер., 3

С диссертацией можно ознакомиться в библиотеке Московского Государственного Института Электроники и Математики (технический университет).

Автореферат разослан « сентября 2011г Ученый секретарь

диссертационного совета Д 212.133.01

кандидат технических наук, доцент

С.Е. Бузников

Общая характеристика работы

Актуальность работы. В настоящее время, в связи с тенденцией резкого роста числа мультимедиа ресурсов, особенно сетевых, все более острой становится проблема поиска и обработки мультимедиа данных: графических и векторных изображений, аудио и видео данных т.д. Созданные мультимедиа ресурсы требуется повторно применять, объединять, использовать при создании новых ресурсов, обмениваться и т.д. Класс систем, который решает подобные задачи, и рассматривается в данной работе - DAM (Digital Asset Management) системы, или системы управления мультимедиа ресурсами, например IBIS, CatDV, Televista, Final Cut и др. Такие системы применяются в телевидении, печатных изданиях, и других СМИ, в фото и видео банках, архивах, музеях и даже в управлении домашними архивами. Основная функция этих систем - поиск. Без качественного поиска невозможны остальные функции.

Основной прогресс рассматриваемого класса систем в последнее время связывают с появлением и активным развитием инструментов в области Semantic Web (Tim Berners Lee, James Hendler, Rudi Studer и др.). Наиболее значимые практические результаты в области Semantic Web заключаются в создании средств и языков представления данных и знаний, а также мощных методов и механизмов логического вывода на них. Главные из них: OWL (Web Ontology Language), RDF (Resource Description Framework) и SPARQL (язык запросов к RDF базам знаний). С другой стороны, исторически, основные задачи в области распознавания (другими словами описания мультимедиа ресурсов), апеллирующие к использованию средств и методов искусственного интеллекта были поставлены ранее A. R. Hanson, Е. Riseman (в 1978), R.Brooks (в 1983) и Y. Ohta (в 1985). Однако только с появлением технологий Semantic Web стало возможным продвижение в области решения задач DAM систем.

С точки зрения применения указанных научных результатов в прикладной области, отметим такие проекты, как UMBEL, DBpedia, OpenBase, WordNet (RDF представление лексической базы знаний). Эти и ряд других широко поддерживаемых проектов - узлов гетерогенной семантической сети, входящих в инициативу Linked Data, а также такие проекты по представлению данных и знаний в RDF, как Open Government и U.S. Census RDF свидетельствуют о бурном развитии этого направления. Для оценки практических преимуществ описанных выше систем, следует сослаться на заявление компании ВВС (би-би-си), использовавшей Semantic Web, как платформу для создания информационного ресурса World Сир 2010 для чемпионата мира по футболу 2010 года. Предполагается развитие ресурса в рамках проекта Winter Olympics 2012 на олимпиаде в Лондоне в 2012 г. Следует отметить, что несмотря на то, что глубина семантических описаний была существенно ниже, чем предлагает технология, объявлено, что использование Semantic Web позволило увеличить число статей, по меньшей мере от 2-х до 3-х раз при тех же затратах (т.е. повысить эффективность работы редакторов и журналистов) без понижения или с улучшением качества содержимого, а также с получением дополнительной гибкости и широких возможностей более эффективного использования мультимедийных материалов и онтологий без повышения человеческих временных затрат в дальнейшем. Кроме того, данный подход используется в ВВС Programmes и ВВС WildltíeFinder.

Однако, в классе DAM систем, в частности, и в системах поиска мультимедиа ресурсов в Интернет, в общем, недостаточно используются потенциальные возможности технологий Semantic Web. Особенно актуален вопрос повышения качества поиска в случае изображений или других мультимедиа ресурсов, когда их объем превышает

несколько миллионов, а также при поиске специфичного мультимедиа ресурса. DAM системы не могут управлять мультимедиа ресурсами, если они не имеют достаточных метаданных. Для обеспечения качественного улучшения, поиск должен осуществляться на основе аннотаций, содержащих высоко-формализованные «семантически насыщенные» утверждения. При этом переход от синтаксического представления к семантическому не является тривиальным. Актуальной задачей также является повышение уровня автоматизации инженерной деятельности по разработке огромного количества формализованных семантических аннотаций. С другой стороны, возникает проблема создания сложных описаний разнородных мультимедиа ресурсов на уровне интегрированных онтологий с весьма широкой предметной областью. А это обстоятельство влечет за собой актуальность создания и применения баз знаний, включающих в себя знания и факты, покрывающие максимально «широкий» домен абстрактных данных и знаний.

Цель работы. Разработка программно-алгоритмического комплекса эффективного аннотирования для поиска мультимедиа ресурсов, удовлетворяющего требованиям сокращения сроков создания аннотации при условии увеличения степени детализации и объективности описаний гетерогенной онтологизации предметных областей.

Объектом исследования является класс программных систем управления мультимедийными ресурсами, для концептуального описания содержания которых требуется «широкий» домен онтологических знаний, а также сложные интерактивные средства поиска в данном классе систем по аннотациям.

Предметом исследования данной работы являются:

• формальная концептуализация мультимедийных ресурсов;

• отношения между визуальными и/или другими объектами, представленными мультимедиа ресурсами и онтологическими понятиями;

• явные и неявные отношения между классами в онтологических базах знаний и возможности использования этих отношений при создании аннотаций к конкретным мультимедиа ресурсам;

• методы разрешения противоречий между RDF-утверждениями и оценка доверия к ним;

• методы и алгоритмы проецирования низкоуровневых визуальных свойств, получаемых на выходе алгоритмов распознавания, и «вариативной идентификации» визуальных объектов на область высокоуровневых онтологических сущностей для представления формальной семантики описаний. Методы исследования: методы представления данных и знаний для Semantic Web,

методы разработки онтологий, языки запросов к базам знаний и гетерогенных данных, методы оценки доверия, статистический анализ с использованием байесовских сетей. Положения, выносимые на защиту:

• программная система для эффективного поиска мультимедиа ресурсов произвольных сетевых структур в классе систем Semantic Web, основанных на интегрированных знаниях онтологического уровня;

• обучаемая онтологическая рекомендательная система - «Аннотатор», допускающая интерактивные режимы работы и обеспечивающая более высокую скорость и качество аннотирования, и повышение эффективности семантического поиска мультимедиа ресурсов;

• метод захвата и формализации представленного мультимедийного контента с повышенным уровнем детализации концептуальных описаний;

• метод представления визуальных свойств произвольных объектов высокоуровневыми концептами, позволяющий трансформацию низкоуровневых описаний в спецификации онтологии;

• информационная технология объединения разнородных онтологии на основе предложенных методов обработки мультимедийных ресурсов.

Научная новизна работы состоит в следующем:

• предложен подход, определяющий основные способы применения инструментальных средств Semantic Web с их адаптацией к современным задачам повышения эффективности процессов представления и поиска мультимедиа ресурсов;

• разработана архитектура соответствующей программной системы, поддерживающей процедуры формальной концептуализации исходных мультимедийных данных;

• предложен метод «захвата» и формального представления семантики мультимедиа ресурса, позволяющий специфицировать низкоуровневые визуальные свойства высокоуровневыми концептами онтологического уровня, повышающий тем самым «плотность» представляемых знаний и, как следствие, - уровень автоматизации реализуемых процессов аннотирования;

• предложен способ поиска и структурирования выдачи концептов по семантической близости текущего набора ассоциированных (найденных) концептов к анализируемым, на базе неявных онтологических связей и контекстуальных зависимостей;

• разработаны элементы информационной технологии объединения разнородных онтологий (с оценкой степени доверия), использующих распределенные базы знаний для создания аннотаций на «широком» домене;

• Исследованы вопросы расширения концептуального описания в аннотациях, отражающие ответы на вопросы «Кто», «Какой объект», «Какое действие», «Где», «Когда», «Почему» и «Как», при этом описания не ограничиваются набором, представленным фиксированной онтологической схемой, а имеется практическая возможность расширения модели метаданных.

Практическая ценность работы заключается в создании обучаемой онтологической рекомендательной системы «Аннотатор», обеспечивающей высокую скорость и повышенный уровень качества аннотирования, и, как следствие, качества семантического поиска. В процессе тестирования в условиях реального производства система проявила а) повышение уровня детализации семантических концептуальных описаний; б) уменьшение влияния субъективных факторов и другие качества, представленные в акте о внедрении.

Реализация результатов работы. Методы и алгоритмы аннотирования, реализованные в разработанной программной системе, используются в компании ЗАО «Руслан Ком» для создания медиа интернет портала, реализации технологии аннотирования мультимедиа ресурсов, а также для управления мультимедиа объектами для обслуживания нужд телевизионных компаний.

Апробация результатов работы. Научные положения докладывались и обсуждались на 5-и научных конференциях. Основные положения диссертационной работы представлены в 8-и печатных работах, в том числе в 3-х статьях, опубликованых в журналах, рекомендуемых ВАК. Структура работы

Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений, изложенных на 130 страницах машинописного текста, содержит 60 рисунков, список литературы из 41 наименования и приложения.

Содержание работы

Во введении представлено обоснование актуальности научного направления и темы выполненной работы, а также цели и задачи исследования.

В первой главе проведен обзор существующих классов систем управления мультимедиа ресурсами. Определены недостатки и неэффективные элементы, которые характерны для этих систем. В качестве основных проблем существующих систем были выделены следующие:

• Качество популярных методов поиска не удовлетворяет, в полной мере, потребностям систем управления мультимедиа ресурсами. Качество поиска в данной работе определено как степень релевантности находимых мультимедиа ресурсов по запросу пользователя, полученных за время, сопоставимое с современными алгоритмами поиска по текстовым данным.

• Высоки затраты на создание аннотаций, необходимых для поиска мультимедиа ресурсов.

• Создаваемые аннотации неполны, недостаточно точны, использование текстовых меток (тегов) и полнотекстовых описаний приводит к значительной неопределенности и неоднозначности при их машинной интерпретации.

• Аннотации хранятся в разнородных схемах баз данных в разных системах, что резко ограничивает возможности обмена аннотациями при перемещении мультимедиа ресурса между системами (экспорт/импорт мультимедиа ресурсов).

В этой главе представлен обзор информационной технологии Semantic Web и её возможностей как средств повышения качества поиска, в особенности, применительно к классу рассматриваемых систем. Ключевыми положениями, на основании которых было обосновано использование данной технологии, являются.

• Универсальная модель обеспечивает возможность формализовать сложные описания, легко масштабировать модели, существенно увеличивается гибкость в обмене между системами.

• Выразительность OWL (Web Ontology Language - язык описания онтологии), RDFS (RDF Schéma - Схема отношения между RDF ресурсами), SKOS (Simple Knowledge Organization System) онтологических словарей позволяет описывать сложные отношения между классами, свойствами, сущностями, формализованными в соответствии с RDF (Resource Description Framework) моделью.

• Возможность вывода явно не присутствующих знаний. Доступны уже реализованные машины вывода, которые способны осуществлять логический вывод, опираясь на аксиомы общепризнанных словарей.

• Публичная доступность большого количества фактов и знаний, представленных в RDF в рамках концепции Linked Data. Отмечено, что для Semantic Web характерна

6

эффективная модель представления знаний в гетерогенных мультиагентных системах.

• Аннотации, составленные в соответствии со стандартами Semantic Web, одинаково легко понимаются разнородными системами, таким образом, отсутствует необходимость явно связывать разнородные системы управления мультимедиа ресурсами.

Под онтологией понимают формальную концептуализацию предметной области, т.е. декларативное ее представление в терминах понятий и связей между ними. Каждое понятие С имеет универсум UC - множество всех имен объектов, которые могут быть экземплярами понятия С, и экстенсионал ЕС - подмножество UC , состоящее из всех имен возможных экземпляров понятия С. Кроме того, имеется отношение эквивалентности, называемое кореференцией, которое задано на UC.

Поскольку для поиска по мультимедиа ресурсам необходимо наличие аннотаций, то для семантического поиска требуются, соответственно, семантические аннотации. Формализованные аннотации в соответствии с концепцией Semantic Web представляются RDF утверждениями. В данном классе задач решаются такие проблемы систем управления мультимедиа ресурсами, как разрешение неоднозначностей и неопределенностей при машинном поиске, а также значительно упрощается обмен аннотациями, и, что самое важное, повышается качество поиска. В то время, как средства для создания текстовых аннотаций совершенствовались много лет, семантические инструменты решения аналогичной задачи находятся на начальных стадиях развития.

Поэтому ставится задача по созданию программной системы «Аннотатор» для повышения уровня автоматизации и расширения интеллектуальных возможностей при создании семантических аннотаций мультимедиа ресурсов на примере изображений. Алгоритмы и архитектура системы, в соответствии с поставленной задачей могут быть легко масштабируемы на другие типы содержимого. Основным содержанием создаваемых аннотаций определены утверждения, отвечающие на такие вопросы, как: «кто, где, что делает, как». Другими словами, аннотации фокусируются не на технических свойствах ресурса, а на концептуальном содержимом, представленном мультимедиа ресурсом. При разработке системы предполагалось ориентироваться на пользователя с малым опытом аннотирования. Пример формальной аннотации изображения матери с ребенком представлен на рис. 1. Очевидно, что требуется более глубокая, как детализация, так и обобщение приведенных понятий. В качестве обобщения, к примеру, требуется определить, что изображена семья, а в качестве детализации, описать свойства, присущие человеку, например возраст, типаж, изображаемую эмоцию. Это как раз та область, которая раскрывается и автоматизируется в данной работе.

assets:image#12345 foaf:depicts dbpedia:Infant;

foafidepicts dbpediaMother.

Рис. 1. Пример формальной RDF аннотации мультимедиа ресурса

Система работает в следующих режимах: агрегация данных и знаний, классификация (распознавание и именование изображения понятиями, содержащимися в онтологии), интерактивное аннотирование, поиск. Концептуальную схему аннотирующей системы можно представить, как показано на рис.2.

Гетерогенные источники баз данных и знаний, формализованных в ('о1

Мультимедиа ресурсы

Распознавание

, Аннотации для V «Аннотатор» ,'-/ г 1 ' поиска

Пользователь

Рис. 2. Концептуальная схема системы аннотирования

Постановка задачи, включающая создание семантических аннотаций для широкой предметной области, требует обеспечения базы знаний с онтологическими описаниями классов, свойств и сущностей, которая покрывает большую часть концептов из этой области. Создание такой базы знаний с чистого листа является колоссально сложной задачей. Однако, в последнее время были созданы базы знаний и фактов и онтологии, различного масштаба, уровня и детализации, представленные в соответствии со стандартами семантического веба, многие из которых опубликованы в сети. В прошлом были предприняты попытки создания инструмента по объединению таких баз знаний, но в этом процессе всегда требовалось участие человека.

Исходя из этого, в постановку задачи было включено создание инструмента по автоматическому объединению источников знаний. Ключевым элементом этого процесса, который выделяет его среди существующих решений, является применение техник, таких, как вычисленная оценка репутации для оценки уровня доверия к утверждению источника, в том числе, с учетом контекста, к которому относится утверждение. Отмечено, что из-за специфичности задачи важнее ширина домена и скорость объединения источников, нежели качество отдельных утверждений и возможные неточности. Отметим, что в данной работе не ставится задача выбора конкретного набора баз знаний или онтологий, напротив, создается программный инструмент, позволяющий работать с различными по содержанию и качеству источниками фактов и знаний. Также не разрабатывается механизм индексирования и импорта источников, так как эта задача не находится в числе основных решаемых проблем.

Вторая глава посвящена обеспечению достаточной базы знаний. Для обеспечения высококачественных семантических описаний требуется база знаний, содержащая концепты и их свойства из достаточно широкого домена знаний. Таким образом, для решения основной задачи - повышения уровня качества семантических аннотаций, и семантического поиска, во второй главе решается задача построения базы знаний на основе гетерогенных источников. Поскольку использование различных источников с разным уровнем качества описаний приводит к возможным противоречиям в базе знаний, а также поднимает вопрос о том. насколько можно доверять отдельным утверждениям, в работе ставится и решается задача оценки уровня достоверности утверждений и разрешения противоречий, возникших в результате объединения базы знаний из распределенных источников. Гетерогенность источников приводит не всегда к достаточно полной информации о доверии и качестве утверждений источников. В этой главе

8

рассматривается проблема оценки уровня доверия к фактам и знаниям, и предлагается алгоритм для решения этой задачи. Решение о доверии принимается на основе вычисленной репутации источника в определенном контексте (если таковой возможно установить), а также явно заданных политик доверия, определенных в системе. Политики, по своей сути, представляют транзитивное доверие эксперта к оцениваемому объекту. Таким образом, создавалось программное средство для объединения знаний из нескольких источников, оценки доверия к этим знаниям и вывода новых знаний, явно не присутствующих ни в одном из них, на основании имеющихся утверждений.

Стоит отметить, что рассматривались только те источники фактов и знаний, которые публикуют информацию в соответствии со спецификациями Semantic Web. В работе не рассматривается задача выбора конкретного набора баз знаний или онтологий, наоборот, основное внимание сосредоточено на обеспечении возможности динамически, гибко изменять этот набор в зависимости от задачи и/или имеющихся возможностей. Поскольку основная задача диссертации - это обеспечение качественных семантических аннотаций, в ней рассматривалось решение задачи объединения онтологий в рамках рабочего процесса аннотирования, в частности, оценка доверия конечных пользователей к утверждениям выводится из оценки их действия при описании мультимедиа ресурсов.

Формальная модель понятий, лежащая в основе семантических базы знаний, показана на рис. 3.

D (Свойства -значения) J j F (Свойства -объекты)

Рис. 3. Формальная модель понятий семантической ба(ы знаний

Онтология формально определяется, как:

О = {I,C,A,R,D,F,L}, где I - сущности или экземпляры классов, это основные низкоуровневые компоненты онтологии, которые представляют собой физические объекты, значения (числа, слова). С — концепты или классы, абстрактные понятия, описывающие сущности - формальная структура некой сущности. L - атрибуты, свойства, характеристики, параметры классов или сущностей. Например, пол:мужской. R -отношения, определяющие как одни сущности могут относиться друг к другу. D — свойства-значения — это свойства, связывающие объекты и экземпляры, со значениями простых типов, например, с целочисленными или строковыми. F - свойства-объекты — это свойства, связывающие объекты-экземпляры с другими объектами, т.е. свойства, значением которых является объект или экземпляр объекта. А - аксиомы и логические правила вывода (в данной работе определены спецификацией RDFS и OWL) A={Subclass, ComplementOf, DifferentFrom, SisjointWith, EquivalentClass, EquivalentProperty, hasValue, IntersectionOf, InverseOf, maxCardinaliity, MinCardinality,... и т.д.} Онтологии

9

представлены совокупностью отдельных RDF утверждений (s 6 S), где S - набор всех утверждений для конкретной онтологии О. Доверие и противоречия разрешаются на уровне этих утверждений.

Два основных пути для определения доверия, которые на сегодняшний день успешно применяются в области информационных технологий - это применение репутации и политик. Основное отличие политик от репутации - это использование «явного доказательства» в случае с политиками и «предполагаемой достоверности» для репутации. Основное внимание в данной работе было уделено вычисляемой репутации. Такое решение также выбрано потому, что оно наиболее близко к тому, как люди оценивают доверие в условиях неполных знаний в заданной предметной области.

В общем случае, основная задача системы в режиме объединения отнологий состоит в выполнении двух функций:

Запрос

Обновить доверие (добавить опыт) Получить значение доверия

t 6Т

Рис. 4. Задачи системы при объединении онтологии

Обновление доверия - это добавление результата наблюдения - как новый опыт. Опыт возникает при использовании утверждений для аннотаций или отказа от их использования. Получение доверия - это запрос к подсчету предыдущего опыта. Доверие к утверждению может быть смоделировано как функция, которая присваивает каждому утверждению доверие t 6Т

В том случае, если S это набор всех RDF триплетов в базе знаний, то функция доверия для RDF триплета будет выглядеть:

ts:s -» {t [ t Е [-1,1]} U {0} Значение доверия ts(s) для триплета s определяет степень уверенности в информации потребителя N в истинности факта, представленного триплетом s. Значение 1 представляет абсолютную уверенность в том, что утверждение верно, значение -1 представляет абсолютную уверенность в том, что утверждение ложно. О представляет собой отсутствие достаточных фактов о доверии или недоверии, либо эти факты уравновешивают друг друга. Более того, триплеты, для которых невозможно установить истинность, представлены пустым множеством.

Рис. 5. В1вешенный по достоверности RDF граф

В результате вычисления доверия для каждого утверждения формируется взвешенный граф, где для предикатов определяются веса (уровень доверия). Ребра графа представляют предикаты триплетов, в соответствии RDF спецификацией, а также

дополнительной информацией, представляющей значение истинности. Например, указанно, что ресурс ex: Alice - это человек, и это утверждение имеет достоверность 0.8.

Общая функция доверия к источнику определяется как усредняющая функция доверия к каждому утверждению по отдельности. Однако, как было отмечено в этой главе, источник может быть более надежен в одних областях, чем в других, потому задача решалась через определение доверия к утверждениям источника в контексте. Контекст определяется через таксономию Wikipedia. В данной работе такой выбор был основан на том факте, что DBPEDIA, часть знаний, которой использовалась как тестовые данные, является одновременно одним из ключевых и самых популярных звеньев концепции Linked Data. При этом DBPEDIA наследует таксономию категорий Wikipedia в формализованном виде. Например, для концепта «Semantic Web» такими категориями будет «Компьютерные сети, Интернет, Семантическая паутина». В данной работе предлагается решение с использованием этих категорий, для определения контекста, где это возможно. Контекст вычисляется по расстоянию на графе понятий от вершины, описывающей категорию.

Контекст определяется, как набор утверждений sk 6 S, где S это все утверждения в онтологии О, такие, что соответствие утверждения sk утверждению s определяется близостью на графе утверждения s к утверждению sK, которое определяет контекст. Обычно такое RDF утверждение, определяющее контекст (sк), имеет вид: <http://example.org/concepttriplet> rdf:type dbpedia-ont:Category#1234 Для того, чтобы вычислить общее доверие к источнику S, которое задаётся функцией Г для набора утверждений этого источника, число которых п, функцию доверия определим следующим образом:

цде (Т-!.....Гл) - набор утверждений, для которых контекст не определен,

а (7}к1 7}* ) - набор утверждений, для которых определен контекст в>-ой предметной

области. Всего таких утверждений по всем таким областям будет Ы, л М - набор всех утверждений. Таким образом, суммарная функция вычисления доверия, представляет собой среднее значение оценки доверия к утверждению с неизвестным контекстом, объединённое с оценкой доверия утверждений из контекста.

Оценку доверия 7Ут, к утверждению в по совместному появлению этого утверждения в различных источниках ..., 5„ с учетом источников, для которых известно доверие в данном контексте 5к1,... , 5кгп можно записать как:

На утверждение влияет как контекстуальное доверие, так и доверие к источнику в целом, в зависимости от доступности информации об оценке доверия в контексте.

Несмотря на то, что частота появления утверждений позволят на основании этого делать выводы об общей верности этих утверждений, на сегодняшний день именно пользователи являются носителями более полного знания о мире, чем последним располагают компьютерные системы. Конечно, один пользователь может хуже знать

конкретный домен, но в совокупности, при достаточно большой выборке от них можно получить качественную оценку.

В рамках разрабатываемого программного компонента, пользователь, выполняя свою основную задачу по аннотированию мультимедиа ресурса, в тоже время, передает системе определенное количество знаний о мире. Был разработан также программный компонент, который позволяет при подтверждении пользователем конкретного утверждения для аннотируемого мультимедиа ресурса накапливать соответствующую информацию. Эта информация в совокупности позволяет получить оценку, от которой будет зависеть уровень доверия, как к конкретному утверждению, так и к источнику в контексте и в общем случае.

Таким образом, оценка источника с учетом оценки, полученной от пользователей, может быть представлена, как:

"^Ист. ~ ^ ^Ист. контекст. I 7*Ист. полит т "^Утв.пользоват. г ^Ист. доеер

где, оценка ГУтв П0ЛЬз0ват, основанная на действиях пользователей по отношению к конкретному утверждению, представляет собой лишь часть более общей оценки. В общую оценку также включается ТИст контекст. - Доверие к источнику в контексте и/или в общем случае ко всему источнику, ТИст. полит - результат выполнения правил политик, а также ГИст довер - оценка того, насколько часто утверждения данного источника совпадают с другими, «авторитетными» источниками с высокой репутацией, к,1,т,г - весовые коэффициенты задаваемые для системы имперически.

Для определения доверия к источнику на основании пересечения множества утверждений с другим источником применен следующий подход. Пусть So - это множество утверждений, которое является пересечением множества утверждений источника 51( репутация которого выше задаваемого уровня доверия I, и источником S2, который в данный момент оценивается. И пусть множество утверждений Su - это множество всех утверждений, которые не совпадают в этих двух источниках в контексте (если возможно определить утверждение к контексту), либо во всем множестве утверждений, если контекст не определен. Тогда если:

— > к, где к - пороговое значение, заданное для данной системы, то

I Su]

ГИсг довер [высчитывается следующим образом, принимая во внимание что А -коэффициент, задающийся для системы в целом:

^Ист5г ~ ^Ист. контекст+ ' ^Ист. полит St + m ^Утв.пользоватSi)

Таким образом, было определено, как высчитывается доверие к явно заданным утверждениям, полученным из источников. После отбрасывания ненадежных утверждений на базе знаний может быть произведен вывод, в результате которого имеется возможность обнаруживать скрытые противоречия, которые нельзя было выявить ранее.

К сожалению, определение достоверности отдельных утверждений еще не является достаточным для объединения онтологических баз знаний. Особо важными этапами для объединения источников являются: импорт онтологий, поиск сходства, установление (возможных) связей между онтологиями. При проведении оценку распределённых данных и знаний в графе Linked Data, был сделан вывод, что многие онтологии связаны напрямую или через посредников с центральными базами знаний. Для многих понятий это позволяет определить сходство по таким предикатам, как sameAs. Однако, такая информация является доступной не всегда.

Второй подход, предложенный и реализованный в данной работе, основан на совмещении поиска синтаксического сходства в названии совместно с графовым подобием между двумя концептами. Еще одним важным архитектурным решением, предложенным в данной работе, является использование промежуточных репозиториев для хранения графов и выполнения над содержащимися в них утверждениями вывода и оценки доверия. В первый, назовем его «грязный граф», собираются утверждения из всех источников в сыром виде. Во второй, назовем его «промежуточный», помещаются явно определенные утверждения с оценкой доверия, и над ними производится вывод. Третий, или «чистый граф» оптимизирован на скорость выполнения запросов. Поскольку производить логический вывод может потребоваться только для аннотируемых элементов, а это, в сравнении с объединением источников знаний, очень небольшой объем вычислений, в этот репозиторий добавляются только проверенные утверждения из предыдущего графа. Таким образом, этот граф обеспечивает быстрый доступ к результату работы предложенного алгоритма.

Выделим ключевые этапы предлагаемого алгоритма по объединению онтологий:

1. Сопоставление (матчинг) классов и сущностей из разных источников;

2. Первичное объединение и разрешение противоречий, полученных без выполнения вывода;

3. Вывод на онтологии;

4. Разрешение противоречий, обнаруженных в процессе вывода, как для явно заданных утверждений, так и для выведенных.

Под онтологией здесь понимается явная спецификация предметной области.

Для описания доверия и происхождения утверждений была использована такая возможность модели, как RDF Relification. Суть этого подхода заключается в создании RDF-утверждений о других утверждениях. Преимущество этого подхода заключается в том, что нет необходимости использовать отдельные инструменты для хранения такой информации, а также в том, что существует возможность получать информацию о доверии прямо через SPARQL запросы. В диссертации были разработаны и использованы предикаты, для описания различных составляющих доверия, происхождения, оценки пользователя и т.п., которые были сформированы в соответствующую онтологическую схему. На основании этой информации высчитывается уровень доверия к выведенным утверждениям.

Таким образом, в этой главе представлен алгоритм, решающий следующие задачи:

• получение объединенной базы знаний о фактах и онтологической структуре;

• оценка уровня доверия к утверждениям, доступная в SPARQL запросах;

• разрешение всех противоречий в базе знаний, в том числе возникших в результате вывода.

Для решения этих задач:

• производится оценка общего уровня доверия к источникам по отдельности;

• определяются и учитываются контексты утверждений для оценки доверия;

• формируются необходимые описания утверждений в RDF Reification форме, чтобы информация была доступна при выполнении запросов;

• находятся соответствия между концептами, являющими собой одно и то же, но представленными разными сущностями.

В третьей главе рассматриваются алгоритмы, обеспечивающие возможность повысить уровень автоматизации создания аннотации. Основываясь на этих алгоритмах, в данной работе создаётся рекомендательная система, выдающая пользователю предложения по добавлению утверждений. Обеспечив достаточную базу знаний, описывающую необходимый домен, как было отмечено в предыдущей главе, представленные далее алгоритмы могут оперировать большим количеством концептов. В основе предложенных алгоритмов лежат две ключевые идеи:

• Первая заключается в том, что определенную информацию о присутствии на изображении объектов, представленных онтологическими концептами можно извлечь, используя выходной результат современных алгоритмов извлечения визуальных свойств и онтологию высокоуровневых концептов.

• Вторая заключается в том, что онтологические знания и уже имеющийся набор утвержденных концептов мультимедиа ресурса позволяют высказать предположения о присутствии других концептов на изображении. Показано, что подтверждение утверждений вместо их явного введения является процессом, занимающим меньшее количество времени. Кроме того, так как утверждения для одобрения пользователем выводятся на широкой базе знаний, описывающей различные аспекты и возможные интерпретации одних и тех же концептов, аннотации получаются менее субъективными.

Для начала обозначим ключевые положения, использованные в алгоритме расширения набора высокоуровневых концептов из небольшого количества уже имеющихся. Определенный тип новых утверждений может быть автоматически выведен на базе знаний на основании онтологий. Однако возьмем, к примеру, фотографию мамы с ребенком, для которой задано, всего лишь, что на изображении присутствует мать. Машина вывода может вывести утверждение, что на изображении женщина, так как мать -это всегда женщина. Однако, если не было утверждения, говорящего что-то про изображенного ребенка, машина вывода, по крайней мере, работающая в рамках концепции Semantic Web, сама по себе никогда не сможет «обнаружить» соответствующий концепт. Применяя реализованный алгоритм обнаружения потенциально существующих понятий, с использованием онтологических знаний в совокупности со статистическими данными, основанными на уже описанных классах, можно вывести набор предположений, одно из которых будет описывать ребенка.

В данной главе предлагается алгоритм и его реализация, которая позволяет пользователю легко вводить семантические высокоуровневые концепты, а также автоматически получать рекомендации по добавлению утверждений, на основании уже введенного набора. Такой набор является ключевым элементом, позволяющим системе, используя имеющуюся базу знаний, «раскрутить» совокупность отношений между понятиями для определения наиболее вероятных, не присутствующих в данный момент. Рекомендательная часть системы, таким образом, позволяет значительно упростить работу пользователя, избавив его от необходимости вручную присваивать соответствующее описание.

Предлагаемый алгоритм использует следующие положения:

• Близость двух концептов в графе базы знаний, как источник новых утверждений (концепта уже введенного ранее и предполагаемого), в значительной степени влияет на релевантность предлагаемого утверждения. Близость в основном оценивается с помощью использования таксономии классов и предиката

rdfs:subClassOf. Для того, чтобы перейти к более общему понятию, например, чтобы от более детализированного концепта «собор» перейти к более общему понятию «религиозное строение» и потом оценить возможность соответствия другим подклассам более общего понятия, таким как «мечеть» или «синагога». Уверенность в утверждении обратно пропорциональна расстоянию до него в графе. RDF представление этого примера представлено на рис. б.

• Контекстуальная зависимость. Если известно, что имеется один или несколько концептов из определенного домена знаний, то предпочтение среди прочих найденных концептов будет отдаваться тем, которые принадлежат к тому же домену. Например, если известно, что уже задан концепт «христианство», тогда оценка для значения «религиозного строения» концепта «собор» становится выше, чем, к примеру, концепта «мечеть». Реализация этого предположения достигается поиском расстояния между концептами в онтологии.

• Синтаксическая близость, введенной пользователем строки, используется для поиска семантических концептов по меткам rsdf:label и skos:label. В разработанном алгоритме эта возможность используется для разрешения понятий, введенных пользователем явно. Было установлено, что пользователь не может «ввести» в текстовое поле высокоуровневый концепт, потому что семантическое описание концепта является более сложным, представленным несколькими утверждениями и URI идентификаторами. Выбор из списка или просмотр графа - не являются достаточно быстрыми операциями, в то время как полнотекстовый поиск позволяет определить множество возможных концептов, а возможная неточность предложений, в данном случае, не критична.

• Онтология и факты, представленные WordNet, позволяют определять схожие по значению понятия, но разные синтаксически. Используя эту онтологию можно разрешать пользовательские текстовые запросы, дополняя предыдущий пункт.

Для того, чтобы скомбинировать достаточно разные по своим свойствам критерии, использовалась нечеткая оценка релевантности утверждений.

<http://dbpedia.org/resource/church> rdfs:subClassOf <http://example.org/concepts/Cathedral>; dc:title "церковь" @ru-RU. <http://example.org/concepts/Cathedral> rdfs:subClassOf <http://example.org/concepts/ReligeousBuilding>; dc:title "Кафедральный собор" @ru-RU. <http://example.org/concepts/mosque> rdfs:subClassOf <http://example.org/concepts/ReligeousBuilding>; dc:title "мечеть" @ru-RU. <http://example.org/concepts/ReligeousBuilding>; dc:title "Религиозное строение" @ru-RU.

Рис. 6. RDF описание предметной области, исполыуемое для поиска понятий

Таким образом, был создан компонент рекомендательной системы, позволяющий расширять набор введенных утверждений путем предъявления пользователю для утверждения семантически значимых предложений. На вход алгоритма может подаваться

набор текстовых меток - ключевых слов, введенных пользователем, и/или набор уже имеющихся высокоуровневых концептов. Процесс поиска новых «подсказок» для пользователей может выполняться итеративно по мере утверждения имеющегося набора.

Другой важный алгоритм, разработанный и описанный в этой главе, обеспечивает обнаружение высокоуровневых концептов, путем использования результата распознавания визуальных образов. Основное предложение состоит в том, чтобы использовать алгоритмы извлечения низкоуровневых визуальных свойств, преобразовывать их результаты к низкоуровневым семантическим концептам и, произведя вывод, применять статистические методы обнаружения высокоуровневых концептов.

Было выявлено, что для того, чтобы получить описания высокого качества, требуется использование алгоритмов определения областей интереса для сегментирования изображения и уже после этого извлечение набора свойств, описывающих каждый сегмент. Особенно это важно для сложных изображений, содержащих много объектов интереса. Однако решение этой проблемы не лежит в области решаемой задачи.

Качество, количество и разносторонность алгоритмов извлечения визуальных свойств имеет ключевое значение для качества конечного результата. В данной работе не решается вопрос поиска оптимального или достаточного набора алгоритмов поиска визуальных свойств. Напротив, в данной работе предлагается общий подход для использования алгоритмов извлечения визуальных свойств, и использование нескольких основных и простых из них в разработанном программном обеспечении. Данный подход обеспечивает необходимую масштабируемость и возможность расширить использование разработанного программного компонента на другие типы мультимедиа ресурсов. Высокоуровневым концептом может выступать любой класс из онтологии предметной области.

Каждый алгоритм извлечения визуальных свойств выдает на выходе результаты, различные по форме. Поэтому результаты каждого алгоритма приводятся к простым утверждениям. По этим утверждениям, похожим образом, как пациенту по симптомам устанавливают диагноз, будет производиться поиск классов, соответствующих исследуемому образу. Таким образом, для нескольких алгоритмов, описанных в спецификации MPEG7, были созданы онтологии, и разработан программный инструмент преобразования результата в низкоуровневый концепт. Например, цифровое значение зеленого цвета преобразуется в концепт «Светло-зеленый». Каждый алгоритм и выполнение связывания результата с онтологическими понятиями низкоуровневых свойств, в программе производится параллельно. После окончания работы всех алгоритмов формируется общий набор утверждений, который сохраняется для данного ресурса. Таким образом, представленный алгоритм позволяет получить набор низкоуровневых концептов, используя которые, как описано далее, становится возможным находить высокоуровневые концепты, применяя ранее полученные правила и осуществляя вывод на базе знаний.

Определение высокоуровневых концептов из набора низкоуровневых производится путем простого применения ранее определенных правил вывода. Правила вывода, в свою очередь, определяются на наборе уже описанных мультимедиа элементов, которые имеют как низкоуровневые свойства, так и высокоуровневые. Вывод с использованием правил -процесс быстрый, и выполняется часто, в то время как определение правил -ресурсоемкий процесс, который выполняется при накоплении определенного количества описанных изображений.

Для каждого правила имеется установленная оценка его достоверности. Оценка правила лежит в области [-1,1] - от полного недоверия до полного доверия. Правила можно разделить на две группы. Первая группа - это правила следствия, которые устанавливают соответствие набора низкоуровневых концептов с известной оценкой -правила с диапазоном [0,1]. Вторая группа - это правила корректировки - правила, которые устанавливают оценку противоречивости вывода данного высокоуровневого концепта [-1,0]. Таким образом, обеспечивается возможность ранжировать найденные высокоуровневые концепты при предложении пользователю для утверждения. При поиске высокоуровневых концептов для правил произведена оптимизация поиска и использования низкоуровневых концептов, например, 1Ж1 заменены хеш кодами. Также для увеличения скорости применений правил, их значения тоже хешируются.

В результате использования таких правил находится набор высокоуровневых концептов. Этот набор концептов - первое, что увидит пользователь, начав работу по аннотированию нового мультимедиа элемента. После утверждения этих высокоуровневых концептов пользователю будет предложены новые утверждения, полученные описанным ранее алгоритмом расширения набора высокоуровневых концептов.

Последним, но очень важным элементом процесса обнаружения высокоуровневых концептов и частичного решения проблемы семантической пропасти, является поиск правил вывода связей низкоуровневых и высокоуровневых концептов на основании данных уже описанных мультимедиа ресурсов, использование которых было описано ранее. Для этих целей используется байесовская сеть доверия, определяющая статистические зависимости между ними. На основании использования этой сети, определяются сами правила. В качестве исходных данных для построения байесовской сети имеются описанные и утвержденные пользователем мультимедиа ресурсы, для которых также доступны низкоуровневые концепты. Однако, в отличие от классического обучения на байесовской сети, также используются онтологические знания для обнаружения возможных противоречий.

Резюмируя вышесказанное, можно выделить, что в данной главе описан разработанный алгоритм обнаружения высокоуровневых концептов, как из набора обнаруженных низкоуровневых свойств, так и из набора уже имеющихся высокоуровневых концептов. Дополнительной возможностью является предоставление пользователю поиска высокоуровневых концептов по текстовому запросу.

В четвертой главе рассматриваются проектирование, создание, тестирование и апробация предложенных ранее методов, технологий, технических решений и алгоритмов для автоматизации процесса создания формальных семантических аннотаций, равно как и разработка программной системы в целом.

Сначала рассматриваются ключевые архитектурные решения приложения. Программное приложение спроектировано как отдельные модули, наборы которых объединены в этапы.

Основными этапами является:

1. объединение набора онтологических знаний и разрешение противоречий;

2. импорт новых и экспорт аннотированных мультимедиа ресурсов;

3. автоматическое обнаружение высокоуровневых концептов;

4. интерактивная аннотация с использованием рекомендаций приложения;

5. анализ аннотированных ресурсов и выявление статистических связей между утверждениями из формальных аннотаций, содержащих высокоуровневые

концепты и утверждениями о низкоуровневых концептах, полученных из набора визуальных свойств. Основные модули включают в себя:

1. импорт мультимедиа ресурсов и извлечение существующих метаданных;

2. применение алгоритмов распознавания и обнаружения низкоуровневых визуальных свойств, преобразование низкоуровневых визуальных свойств в онтологические понятия и вывод высокоуровневых концептов;

3. поиск высокоуровневых концептов по набору низкоуровневых и поиск концептов по текстовому запросу от пользователя;

4. поиск концептов близких онтологически и контекстуально к набору концептов, уже присутствующему в аннотации;

5. обнаружение правил связи между высокоуровневыми и низкоуровневыми концептами;

6. применение классического вывода на онтологии;

7. сервис сбора и объединения онтологических знаний;

8. разрешение противоречий между утверждениями.

Программное средство было разработано на языке С# с использованием фреймворка .NET 4.0. Для работы с RDF данными была использована библиотека с открытыми исходными кодами dotNetRDF. В качестве семантической базы данных и машины вывода использовался Ontotext BigOWLIM. В качестве установок логического вывода в репозитории, где непосредственно хранятся и обрабатываются утверждения о мультимедиа ресурсах, использовался набор правил owl-max. Этот набор правил включает в себя вывод утверждений в соответствии со спецификациями RDFS и OWL-Lite (включающий вывод на основании аксиом, таких как функциональные и обратно-функциональные свойства, все отличные, подкласс, объединение, перечисление; ограничения минимальности и максимальности и т.д.)

При добавлении каждого утверждения в базу знаний, для каждого RDF утверждения создается дополнительно утверждение об источнике, которое идентифицирует источник по URI. Это утверждение хранится в виде отдельных RDF утверждений в рамках возможности RDFReification (материализацией). Информация о доверии также представляется в виде дополнительных утверждений об утверждении.

Для целей оценки доверия, в рамках работы над программным продуктом, были введены следующие предикаты для описания утверждений, вошедшие в соответствующую схему:

• RepuiationOnt: provenance - описывает происхождение утверждения - URI на адрес источника, откуда было получено это утверждение. Если оно было получено из нескольких источников одновременно, то для утверждения создается несколько таких утверждений;

• RepuiationOnt: CalculatedTrust - описывает вычисленное доверие утверждения или источника в диапазоне для [-1,1];

• RepuiationOnt: CalculatedContextualTrust - описывает высчитанное доверие для контекста в диапазоне для утверждения или источника [-1,1]- Это утверждение используется путем использования пустого узла (blanknode) совместно со свойством RepuiationOnt: Context:

• ReputationOnl: Context - Указывает на URI контекста, к которому относится утверждение, например dbpprop:species. Утверждение используется, чтобы задать контекст для утверждения или для задания уровня доверия к источнику;

• ReputationOnl: CalculatedFromUserFeedback - высчитанный коэффициент доверия на основании обратной связи с пользователем;

• ReputationOnl: PoliticsParametr - коэффициент доверия, устанавливаемый системой для описываемого источника;

Приведем пример формального RDF описания доверия утверждения:

<http://example.org/triplets/123456>

ReputationOnt:provenance <http://dbpedia.org>; ReputationOnt:Context <http://en.wikipedia.org/wiki/Category.RDF >; ReputationOnt:CalculatedFromUserFeedback"0.7"; Reputat¡onOnt:CalculatedContextualTrust "0.6".

Рис. 7. Пример описания доверия к RDF утверждению

Для оценки сделанных пользователем утверждений разработано консольное приложение, которое также можно выполнять по расписанию. Таким образом, утверждения, сделанные пользователем, вносят информацию о доменном знании. Задача этого приложения оценивать сделанные о фотографии утверждения и изменять уровень доверия тех утверждений, которые были использованы при аннотации мультимедиа ресурса. Поскольку процесс импорта итеративен, то после каждого цикла импорта п-ного источника требуется заново пересчитывать оценки, однако это действие можно отложить.

Для целей оптимизации, поскольку идет речь о большом числе утверждений, расчет и объединение доверия и, собственно, рабочая база знаний были разнесены. Таким образом, вычисление слияния и пересчет оценки выполняется отдельно от базы знаний, которая используется для аннотации. После того как был произведен пересчет оценок и разрешены противоречия на рабочей базе знаний, определяются отличия новой базы знаний от опубликованной. На этом этапе определяется, какие утверждения надо добавить, а какие удалить из основной базы знаний, после чего происходит применение изменений. Такой подход позволяет опубликованной базе знаний все время оставаться доступной для выполнения к ней запросов.

Также разработан сервис сбора и объединения онтологических знаний, основная задача которого - разрешение противоречий между утверждениями с использованием алгоритма, описанного во второй главе. В основе этого сервиса лежит использование трех различных репозиториев или хранилищ в системе управления базами знаний OWLIM. Ключевым отличием этих репозиториев являются настройки наборов правил вывода.

После импорта нового мультимедиа ресурса он переводится в стадию извлечения визуальных свойств. На этом этапе выполняются алгоритмы извлечения визуальных свойств. В данной работе в качестве тестового набора алгоритмов использовались такие, как EHD (Edge histogram descriptor) для извлечения свойств текстуры, Contour-SD для определения контура текстур и формы и CSD для получения свойств цвета. Алгоритм Eigenface использовался для распознавания человеческих образов. Также отмечено, что качество повышается, если производить предварительную сегментацию изображения, например, на основании областей интереса (ROI), однако реализация этого функционала не вошла в программную реализацию. На данном этапе важно отметить, что

непосредственно сам вопрос низкоуровневого распознавания образов не рассматривается в данной работе, равно как и не выбирается набор алгоритмов извлечения визуальных свойств.

Результаты работы алгоритмов распознавания изображений преобразуются к низкоуровневым концептам на основании онтологии, разработанной для данного алгоритма, а после этого к низкоуровневым понятиям применяются правила вывода, полученные ранее, устанавливается соответствие между высокоуровневыми концептами и низкоуровневыми. Каждый мультимедиа ресурс может быть представлен как вектор свойств, где каждая размерность представляет конкретное свойство. Значения свойств булевы и означают, представляет ли этот объект такое свойство или нет. Задача применения правил состоит в установлении соответствии этого вектора с вектором рекомендуемых концептов для этого ресурса.

После рекомендаций, полученных автоматически из набора визуальных свойств высокоуровневых концептов, система работает в интерактивном режиме рекомендаций и поиска других высокоуровневых концептов. Поиск высокоуровневых концептов для рекомендаций был реализован в два этапа:

• Во-первых, поскольку требуется установление расстояний между каждыми утверждениями, для выполнения, описанного в третьей главе алгоритма, в рамках сервиса объединения онтологий также вычисляются минимальные расстояния между концептами в графе.

• На втором этапе, после получения набора утверждений и/или текстового запроса выполняется серия SPARQL запросов к семантической базе знаний, результатом которых является набор отсортированных предложений.

Отдельного внимания требует пояснение работы тестового запроса. Несмотря на то, что достаточно эффективным может быть использование регулярных выражений, заложенных в функционал SPARQL запросов, а также возможности полнотекстового поиска, представляемой используемой системой управления базами знания OWLIM-при помощи компонента lucene, в работе была предпринята попытка использовать также отношения между словами в естественном языке. Для этого была использована лексическая база знаний Wordnet, в ее RDF представлении. Таким образом, запрос производился не только по одному текстовому запросу, который ввел пользователь, а сразу по нескольким, расширенным лексическими отношениями. Когда нельзя однозначно установить соответствие пользовательского запроса с понятием в лексической базе знаний, для нахождения понятия использовались такие алгоритмы текстовой близости как редакторское расстояние Лихтеншена и Жаро-Вринклера.

Интерактивная составляющая процесса аннотирования заключается в том, что пользователь получает модифицированный набор рекомендаций по мере изменения информации о мультимедиа ресурсе. Изменением такого состояния может быть добавление/удаление концепта из описания, текстовый поиск, отклонение концепта, предлагаемого системой.

Экспортирование аннотаций является результирующим действием работы «Аннотатора». Экспортирование может производиться в семантическую базу знаний или же непосредственно в секцию метаданных изображений. Если экспортирование семантических утверждений в базу знаний сводится к выполнению ряда запросов, то экспортирование метаданных в содержимом заголовочных секций файлов заслуживает отдельного внимания После аннотации элементов была применена возможность

сохранения RDF данных в заголовочной секции файлов. В соответствии со спецификацией JPEG стандарта и общепринятым соглашениям для хранения формализованных RDF данных существует секция в области АРР2 заголовка JPEG и TIFF файлов, имеющая следующий вид:

Header <?xpacket begin="..."

id="W5M0MpCehiHzreSzNTczkc9d" ...?> Content ... содержимоепакета Trailer <?xpacket end="w"?>

Рис. 8. Содержимое гаголо&ка раиела метаданных JPEG файла

В содержимом этого пакета располагаются RDF описания об элементе, представленные в RDF/XML форме записи.

<x:xmpmetaxmlns:x='adobe:ns:meta/' ,.opt.attributes..> <rdf.RDFxmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"> <rdf:Description ..>.... </rdf:Description> <rdf:Description ...>.... </rdf:Descrïption>

<rdf:Description ...>.... </rdf:Description>

</rdf:RDF>

</x:xmpmeta>

Рис. 9. Пакет RDF данных

Таким образом, наряду с уже существующими секциями <rdf:Description>, добавляется еще одна секция, содержащая все утверждения, полученные в результате работы приложения при аннотировании мультимедиа элемента. Аналогичным способом осуществляется импорт метаданных.

После того, как в систему помещены аннотации мультимедиа ресурса, могут быть выведены новые утверждения о нем. Например, эквивалентные классы. Данный вывод осуществляется в соответствии со спецификацией OWL, и в приведенной конфигурации за него отвечает машина вывода системы управления базой знаний. Ключевое отличие определяемых концептов от искомых при интерактивном создании аннотации заключается в том, что на данном этапе производится явный формальный логический вывод, тогда как во время взаимодействия с пользователем ищутся неявные связи. В последнем случае, пользователь выполняет функцию подтверждения, тогда как для классического вывода на OWL действий от пользователя не требуется.

Последним компонентом является консольное приложение поиска правил вывода. Это приложение выполняется периодически по мере роста числа аннотированных мультимедиа ресурсов. На выходе получается набор простых правил, уверенность в которых наиболее высока. Такие правила представляют собой набор низкоуровневых концептов, при взаимном появлении которых для мультимедиа ресурса сопоставляется высокоуровневый концепт, который в свою очередь, будет рекомендован пользователю для добавления в описание.

Интерактивная часть приложения выполнена с использованием платформы .NET WPF что позволило более эффективно подойди к интерфейсным решениям. Типичное представление интерфейса показано на рис.10.

Интерфейс позволяет пользователю легко добавлять новые предложенные утверждения и управлять существующими, уже добавленными утверждениями о мультимедиа ресурсе. Текстовый поиск онтологических понятий позволяет находить и просматривать свойства классов и сущностей из базы знаний. Добавление рекомендуемых утверждений происходит в один щелчок мыши на соответствующем концепте в области предлагаемых концептов. Также существует базовая возможность работы с классическими типами метаданных, такими, как название и описание. Так как это требуется для обратной совместимости системы и аннотаций.

Рис. V0. Интерфейс программной системы

В завершающей части четвертой главы рассмотрено тестирование и апробация приложения. Для тестирования использовался поднабор русской части DBPedia 3.5.1, в частности наборы данных, включающих в себя DBpediaOntology. OntologylnfoboxTypes, OntologylnfoboxProperties, Titles, ArticlesCategories ExternalLinks (всего более 18 млн. утверждений о фактах и классах), а так же UMBEL v 1.00 (около 28,000 утверждений о классах и их отношениях, составленных экспертами) как источники онтологических знаний. В качестве набора изображений было описано 150 изображений, преимущественно, людей, для начального извлечения связей между визуальными свойствами и высокоуровневыми концептами. Было показано, что уже на таком наборе данных можно было создать достаточно подробные семантические формальные аннотации.

Тестирование производилось на виртуальной машине с 4гб выделенной оперативной памяти для размещения семантической базы знаний и консольных приложений и с четырех ядерным процессором хост машины 2.80 GHz, хост машина с 8гб оперативной памяти, с операционной системой Windows Server 2008 на виртуальной машине и Windows 7 на клиентской, для запуска клиентского приложения «Аннотатор».

В заключении приводятся основные научные и практические результаты и выводы, полученные по ним.

В приложение вынесены: акт о внедрении, примеры формализованных описаний мультимедиа ресурсов, полученных с помощью разработанной системы.

Основные результаты. В ходе выполнения работы получены следующие основные результаты и сделаны выводы: 1 Проведен аналитический обзор состояния современного Semantic Web, позволивший выделить проблему поиска и онтологического анализа мультимедийного сетевого ресурса. Сформулирована цель исследований онтологического подхода и разработки программной системы, поддерживающей процессы формальной концептуализации

предметной области с учетом специфических особенностей указанного ресурса и эффективизации процедур семантического поиска, привлекающего структурные и логические описания онтологий.

2. Разработана и исследована обучаемая онтологическая рекомендательная система «Аннотатор», обеспечивающая высокую скорость и повышение качества аннотирования, допускающая интерактивные режимы работы. Система обеспечивает сокращение сроков создания аннотации за счет автоматического обнаружения концептуализируемых элементов мультимедийного ресурса и повышение качества получаемых аннотаций на основе максимально широкого привлечения доменов и структурно-логических описаний онтологического уровня.

3. Разработана программная система эффективного семантического поиска мультимедиа ресурсов. Показана роль аннотаций при извлечении глубинных знаний, соответствующих адекватной детализации получаемой медиа информации с сохранением релевантности результата запросу в классе DAM систем.

4. Разработана информационная технология автоматического объединения онтологических знаний, полученных из распределенных источников с учетом доверия к источнику и разрешающая противоречия между формализованными RDF утверждениями, возникающими при объединении знаний из гетерогенных источников.

5. Исследованы типы неопределенностей, получаемые в результате аннотирования, и их учет в процедурах поиска: пересечение классов, неполнота запроса, различная степень достоверности утверждений в онтологической базе знаний и др.

6. Фактически исследованы языки представления данных и знаний для Semantic Web и выявлены ограничения современного инструментария, что позволило сделать выводы о перспективности развития инструментальных средств и их эволюции, в частности к бинарным моделям данных и знаний.

По результатам разработки и исследования программной системы в режимах

интерактивного автоаннотирования и поиска сделаны выводы относительно:

• принципиального значения качества аннотаций в зависимости от полноты, мультиаспектности и непротиворечивости онтологий, настраиваемых на специализируемые классы, отношения и атрибуты обрабатываемых объектов предметной области;

• существенной зависимости эффективности поисковых процедур от реализованных инференциальных возможностей системы для извлечения «глубинной» семантики мультимедийных ресурсов;

• перспектив развития разработанного класса систем, связанных с бинарным представлением данных и знаний, интеграции в нечеткую логику, развитием методов и языков представления знаний, наконец, управлением стратегиями их применения к проблемной области обработки мультимедиа ресурсов Semantic Web.

Основные публикации no reste диссертации

1. Тюхов Б.П., Новиков C.B. Полуавтоматическое семантическое аннотирование мультимедиаресурсов. // Программные продукты и системы; ISSN 0236-235Х. -M.: Издательство ЗАО «Научно-исследовательский институт

«Центрпрограммсистем»», 2010 № 2(90), с. 76-79.

2. Новиков C.B. Семантические средства управления мультимедиа. // Открытые системы; ISSN 1028-7493. - M.: Издательство «Открытые системы», 2010, №8 с. 48-51.

3. Новиков C.B. Расширение базы знаний с учетом доверия к новому знанию // Программные продукты и системы; ISSN 0236-235Х. - M.: издательство ЗАО «Научно-исследовательский институт «Центрпрограммсистем»», 2010 № 3(91), с. 39-41.

4. Новиков C.B. Проблемы описания метаданных в RDF и использование онтологий. // XVII Международная студенческая школа-семинар "Новые информационные технологии. Тезисы докладов. -М.: МИЭМ, 2009. с. 311-312.

5. Новиков C.B. Методы применения Semantic Web в системах управления медиа ресурсами // Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. - М.:МИЭМ, 2010.

6. Новиков C.B. Проблемы использования технологий Semantic Web для описания данных и использования онтологий. // Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. - М.: МИЭМ, 2009.

7. Новиков C.B. Выразительность современных средств спецификации и дедукция в Semantic Web. // Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. - М.: МИЭМ, 2008.

8. Новиков C.B. Бинарные модели, вывод на них, Semantic Web, XML, проблема поиска. // Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. - М.: МИЭМ, 2008.

9. Новиков C.B. Semantic Web, поиск на основе бинарных моделей, проблемы современных поисковых агентов. // XV Международная студенческая школа-семинар «Новые информационные технологии». Тезисы докладов. - М.: МИЭМ, 2007. с. 395-396.

Подписано в печать: 22.09.11

Объем: 1,5 усл.п.л. Тираж: 100 экз. Заказ № 503 Отпечатано в типографии «Реглет» 119526, г. Москва, ул.Рождественка, 5/7,стр.1 (495)978-43-34; www.reglei.ru

Оглавление автор диссертации — кандидата технических наук Новиков, Сергей Владимирович

Введение.

Глава 1. Анализ класса рассматриваемых систем, методов поиска, и возможностей Semantic Web для автоматического обнаружения знаний о мультимедиа ресурсах.

1.1 Анализ рассматриваемого класса систем и выделение решаемых задач.

1.2 Обзор и обоснование использования Semantic Web для систем управления мультимедиа ресурсами.

1.3 Постановка задачи.

1.4 Выводы по первой главе.

Глава 2. Разработка методов объединения онтологических баз знаний Semantic Web для описания предметной области мультимедиа ресурсов.

2.1 Использование репутации и явно определенных политик для оценки уровня доверия к конкретному утверждению.

2.2 Методы объединения онтологий.

2.3 Разработка алгоритма объединения двух и более источников знаний.

2.4 Выводы по второй главе.

Глава 3. Разработка алгоритмов автоматизации семантических аннотаций высокоуровневыми концептами.

3.1 Поиск новых утверждений на основе имеющегося небольшого набора.

3.2 Реализация и представление результатов алгоритмов обнаружения низкоуровневых свойств для их использования в поиске концептов высокого уровня.

3.3 Вывод на основе правил связи низкоуровневых концептов с высокоуровневыми.

3.4 Выводы третьей главе.

Глава 4. Разработка программного инструмента, автоматизирующего процесс аннотации

4.1 Архитектура приложения.

4.2 Реализация предложенных алгоритмов и решений.

4.3 Тестирование и апробация разработанного программного решения.

4.4 Выводы по четвертой главе.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Новиков, Сергей Владимирович

В настоящее время, в связи с тенденцией резкого роста числа мультимедиа ресурсов, особенно сетевых, все более острой становится проблема поиска и обработки мультимедиа данных: графических и векторных изображений, аудио и видео данных т.д. Созданные мультимедиа ресурсы требуется повторно применять, объединять, использовать при создании новых ресурсов, обмениваться и т.д. Класс систем, который решает подобные задачи, и рассматривается в данной работе - DAM (Digital Asset Management) системы, или системы управления мультимедиа ресурсами, например IBIS, CatDV, Televista, Final Cut и др. Такие системы применяются при обработке видеоматериалов на телевидении, подготовке статей и иллюстраций в печатных изданиях и в других СМИ, для управления и продажи мультимедийных данных в фото и видео банках, каталогизации в архивах и музеях и даже в управлении домашними коллекциями, размеры которых стали существенными в связи с доступностью записывающих устройств. Мультимедиа ресурс - ото один или несколько файлов мультимедиа, связанных между собой по смыслу, в совокупности с информацией их описывающей. Авторам, издателям и потребителям требуется эффективный инструмент управления мультимедийными данными. Однако, для того чтобы выполнить любую операцию с находящимся в системе ресурсом, его требуется сначала найти.

Таким образом, основная функция этого классам систем - поиск. Без качественного поиска невозможны остальные функции Сегодня в классе DAM систем, в основном, используется синтаксический поиск, чуть реже поиск по визуальному сходству, а также применяются некоторые другие варианты нахождения данных. Наиболее успешный подход к поиску в данном классе систем, из внедряемых в последнее время, - это подход, применяющий собственные словари для уточнения искомых термов. Поиск по визуальному сходству может быть эффективен для мультимедиа, однако главные вопросы при поиске содержимого - это «что изображено», «какое действие происходит», «кем производится действие», «где», «как» и т.д., а для этого надо либо предоставить похожий мультимедиа ресурс, либо система должна осуществить связь низкоуровневых аудиовизуальных свойств с высокоуровневым понятием. Такая проблема носит название «семантическая пропасть», и полностью не решена па данный момент, несмотря на то, что достигнуты определенные успехи в этом направлении. Под качеством поиска подразумевается нахождение релевантных результатов за временной промежуток, требующийся для выдачи результата современным поисковым системам, основанным на синтаксическом поиске. Ключевое отличие семантического поиска от подхода в

В третьей главе данной работы предлагается алгоритм обнаружения высокоуровневых концептов путем распознавания визуальных образов. Автор показывает, что определенные аннотации могут быть получены автоматически, при совместном использовании современных алгоритмов извлечения визуальных свойств и базы знаний о предметной области. Другие утверждения для аннотации могут быть получены исходя из OWL онтологий и RDFS (Resource Description Framework Schéma - схема для описания RDF) схем. Кроме того, использование онтологического подхода позволяет проверить аннотацию на непротиворечивость. Также, в этой главе предложен алгоритм для обнаружения новых концептов из ограниченного набора уже существующих, определяющий утверждения, основываясь на известных фактах из базы знаний, онтологиях, и разрешающий контекстуальную зависимость одних концептов от других.

Четвертая глава содержит описание разработанного программного продукта, особенности технических решений, спроектированной архитектуры, применения разработанных алгоритмов, и описание работы созданного прикладного программного обеспечения. Также проводятся испытания и тестирование разработанного инструмента для аннотирования мультимедиа ресурсов.

Заключение диссертация на тему "Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов"

4.4 Выводы

В этой главе была рассмотрена архитектура разработанного приложения и представлены основные моменты реализации предложенных в предыдущих главах алгоритмов, методов, технологий и решений. Результатом проделанной работы стала программная система «Аннотатор», представляющая собой законченный прототип системы автоматизации аннотирования.

Данная глава демонстрирует применимость и обоснованность предложенного в предыдущих главах подхода, а также представляет набор технологий и "платформу для решения задач' автоматизированного создания формализованной аннотации. Глава затрагивает такие вопросы« применения, как интеграция формализованных- аннотаций в уже существующие форматы и спецификации метаданных. Это позволяет не только хранить и искать мультимедиа ресурсы в рамках одной системы, но и масштабировать поиск и распространение метаданных на существенно более широкую область.

В данной части диссертации детализированы основные этапы рабочего процесса аннотации, а также подробно рассмотрены самостоятельные программные компоненты. Представлена архитектура, включающая базы знаний, веб сервис, периодически выполняющиеся локальные службы, а также непосредственно приложение с интерактивным интерфейсом для взаимодействия с пользователем. Затронуты

Заключение

В ходе выполнения работы получены следующие основные результаты:

1. Проведен' аналитический обзор состояния? современного Semantic Web, позволивший выделить проблему» поиска , и онтологического анализа мультимедийного сетевого ресурса. Сформулирована цель исследований, онтологического í подхода/ и разработки программной: системы, поддерживающей процессы формальной концептуализации предметной области; с учетом специфических! особенностей' указанного; ресурса и повышения . эффективности; процедур семантического \ поиска; привлекающего структурные и логические описания 0НТ0Л0ГИЙ:

2. Разработана и исследована обучаемая онтологическая; рекомендательная. . система «Аннотатор», обеспечивающая высокую скорость и, повышение: качества аннотирования,5 допускающая? интерактивные режимы«'.работы. Система обеспечивает сокращение сроков создания аннотации за; счет автоматического обнаружения концептуализируемых элементов мультимедийного ресурса, и повышение качества получаемых аннотаций на основе максимально широкого привлечения доменов и структурно-логических описаний, онтологического уровня.

3. Разработана программная; система эффективного семантического; поиска мультимедиа ресурсов,- Показана роль аннотаций при извлечении глубинных; знаний,5 соответствующих адекватной, детализации^ получаемой медиа информации ^ с сохранением ; релевантности = результата запросу в классе DAM систем.

4. Разработана информационная технология- автоматического^ объединения • онтологических; знаний, , полученных из распределенных; источников; с учетом; доверия к; источнику и; разрешающая противоречия между формализованными RDF утверждениями, возникающими при, объединении знаний из гетерогенных источников: •

5: Исследованы типы- неопределенностей; получаемые в результате аннотированиями их учет в процедурах поиска:; пересечение классов, неполнота запроса, различная степень достоверности утверждений- в онтологической базе знаний и др. , ,

6. Фактически исследованы языки представления данных; и знаний; для Semantic Web и выявлены ограничения современного инструментария,, что

34. Stan Devitt, Jos De Roo, Helen Chen. Desirable Features of Rule Based Systems for Medical Knowledge // W3C Workshop on Rule Languages for Interoperability, W3C consortium, 2005.

35. Tim Berners-Lee, Hendler James. Publishing on the Semantic Web // Nature, April 26 2001 p. 1023-1025.

36. Tim Berners-Lee, Hendler, James, Lassila, Ora. The Semantic Web // Scientific American, May 2001, p. 29-37.

37. Tim Berners-Lee. Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web // Harper; ISBN:' 006251587X, 1999.

38. Tim-Berners Lee, Wendy Hall, James A. Hendler, Kieron O'Hara, Nigel Shadbolt, Daniel J. Weitzner. A Framework for Web Science // Foundations and Trends in Web Science; ISBN: 1-933019-33-6 №1, Vol. 1, 2006, pp. 144.

39. Th. Papadopoulos, Ph. Mylonas, V. Mezaris, Y. Avrithis and I. Kompatsiaris. Knowledge-Assisted Image Analysis Based on Context and Spatial Optimization // International Journal on Semantic Web and Information Systems, 2006, vol. 2, no. 3, pp. 17-36.

40. Vasileios Mezaris, Ioannis Kompatsiaris, and Michael G. Strintz. Region-based image retrieval using an object ontology and relevance feedback // EURASIP JASP, 2004, №. l,pp. 886-901.

41. Yuichi Ohta, Knowledge-based Interpretation of outdoor natural color scenes // Pitman publishing inc; ISBN 0-273-08673-1, 1985.

123