автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка и исследование модели представления и методов обработки информации о сложных слабоформализуемых объектах для фотоландшафтной базы данных

кандидата технических наук
Шалаумова, Юлия Валерьевна
город
Екатеринбург
год
2013
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование модели представления и методов обработки информации о сложных слабоформализуемых объектах для фотоландшафтной базы данных»

Автореферат диссертации по теме "Разработка и исследование модели представления и методов обработки информации о сложных слабоформализуемых объектах для фотоландшафтной базы данных"

На правах рукописи

Шалаумова Юлия Валерьевна

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МОДЕЛИ ПРЕДСТАВЛЕНИЯ И МЕТОДОВ ОБРАБОТКИ ИНФОРМАЦИИ О СЛОЖНЫХ СЛАБОФОРМАЛИЗУЕМЫХ ОБЪЕКТАХ ДЛЯ ФОТОЛАНДШАФТНОЙ БАЗЫ ДАННЫХ

05.13.01 - Системный анализ, управление и обработка информации (в науке и технике)

13 пДП ¿013

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Екатеринбург 2013

005060110

Работа выполнена в ФГБОУ ВПО «Уральский государственный лесотехнический университет»

Научный руководитель кандидат технических наук, доцент

Монтиле Андрей Йосипович

Официальные оппоненты: Шишов Владимир Валерьевич

доктор технических наук, доцент, ГОУ ВПО «Красноярский государственный торгово-экономический институт», заведующий кафедрой

Мурынов Андрей Ильич

доктор технических наук, старший научный сотрудник, ФГБОУ ВПО «Ижевский государственный технический университет имени М.Т. Калашникова», профессор

Ведущая организация

ФГБУН Институт математики и механики им. H.H. Красовского Уральского отделения Российской академии наук

Защита состоится «6» июня 2013 г. в 1400 часов на заседании диссертационного совета Д 212.065.06 при ФГБОУ ВПО «Ижевский государственный технический университет имени М.Т. Калашникова» по адресу: 426069, г. Ижевск, ул. Студенческая, 7.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Ижевский государственный технический университет имени М.Т. Калашникова».

Отзывы на автореферат в двух экземплярах, заверенные печатью организации, просим выслать по адресу: 426069, г. Ижевск, ул. Студенческая, 7, ученому секретарю диссертационного совета Сяюгереву В.Н. E-mail: dissovet@istu.ru. Факс: (3412) 59-05-49.

Автореферат разослан «4 » мая 2013 г.

Ученый секретарь

диссертационного совета, кандидат технических наук, доцент

Сяктерев Виктор Никонович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. Одной из важнейших проблем, связанных с разработкой информационных систем (ИС) коллективного доступа, является обеспечение их надежного и полноценного функционирования при работе с пользователями различных специальностей и квалификаций (инге-рентности ИС), рассматриваемое в двух аспектах: обеспечение достоверности (семантической целостности) данных и эффективность поиска данных, при многоцелевом использовании ИС. Традиционными критериями эффективности поиска являются быстродействие и неизбыточность результатов. Актуальность проблемы в настоящее время связана, в первую очередь, с разработкой Интернет-ориентированных ИС, в значительной степени усиливающих влияние факторов разнообразия пользователей и задач, поскольку любое сокращение количества потенциальных пользователей и решаемых с помощью ИС задач рассматривается как нежелательное с практической и коммерческой точек зрения. Опыт разработки Интернет-ориентированных систем последних лет выявил значительное смещение представлений пользователей об эффективности поиска с быстродействия на неизбыточность и достаточность получаемых результатов, характеризуемую точностью и полнотой. Вторым существенным моментом является возможность пополнения баз данных Интернет-ориентированных ИС со стороны значительно большего, чем в обычных ИС, круга пользователей, поскольку во многих случаях только расширение прав доступа может обеспечить достижение минимальной полноты данных для эффективного решения практических задач. Отсюда критическое обострение проблемы достоверности. Третьей отличительной чертой работы с Интернет-ориентированными ИС, содержащими описания визуальных объектов, в частности фотоснимков, является принципиальная невозможность узнать, какие и в какой терминологии описания фотоснимков были введены другими пользователями, что затрудняет формирование эффективных, в вышеуказанном смысле, поисковых образов, причем ситуация усложняется несовпадением представлений различных пользователей о содержании фотоснимков (мультимодельностью) и, как следствие, возникновением различий в описаниях фотоснимка и объектов на нем, ложных синонимии и омонимии. Основная причина возникающих расхождений заключается в том, что фотоснимок является сложной системой - по количеству типов элементов и типов связей, а выделение этих типов, необходимое для отображения в формальном виде описаний и их структур, определяется различными целями пользователей. Помимо различия целей, обусловленных конкретными прикладными задачами, учет которых в процессе системного анализа позволяет выявить типы элементов и связей, фиксирующих семантику контекстов использования ИС, существенным представляется несовпадение лексиконов (наборов лексических единиц и устойчивых словосочетаний), применяемых различными пользователями для определения эквивалентных семантических единиц.

Таким образом, представляется актуальной разработка модели хранения описаний визуальных объектов и связанных с нею методов пополнения, обеспечения формальной и смысловой правильности и, собственно, доступа (извле-

чения необходимых для решения конкретной задачи пользователя данных), в совокупности учитывающих указанные особенности Интернет-ориентированных ИС. Самостоятельный интерес представляет вьивление, формализация и способ реализации системы атрибутов и соответствующего лексикона для описания фотоснимков определенной предметной направленности, которая не только обеспечит унификацию процесса описания, но и создаст необходимые предпосылки для применения методов распознавания образов и автоматизации атрибутирования фотоснимков.

Актуальность предметной области исследования связана с возрастающим интересом к изучению динамики высокогорных растительных сообществ, в том числе, Полярного и Южного Урала, поскольку они наиболее чутко реагируют на долговременные изменения факторов внешней среды и могут рассматриваться в качестве индикаторов таких изменений. Одним из перспективных методов, применяемых для решения указанных задач, является сопоставление повторных ландшафтных фотоснимков, поскольку визуально фиксируемые изменения выступают таким же объективным свидетельством, которое непосредственно позволяет подтвердить или опровергнуть гипотезу (теорию) о происходивших процессах, т.е. динамике растительных сообществ, как и измеряемые числовые данные. В настоящее время благодаря развитию информационных технологий, в первую очередь сетевых, появилась возможность использовать накопленные, но разобщенные и малодоступные для всего научного сообщества архивы ландшафтных фотоснимков.

Степень разработанности проблемы. Существующие на сегодняшний день Интернет-ориентированные ИС, позволяющие осуществлять доступ к коллекциям глобального и регионального масштаба, содержащим фотоснимки растительности и их описания, Digital photo series, Biolmages, Botanicka fotogalerie, Horti Plex Plant database, Native plant database, Plant database, Plant UConn database в лучшем случае предоставляют возможность просмотра материалов с помощью каталогов, а также поисковых модулей, выявляющих совпадения поискового образа с ограниченным перечнем ключевых слов, соответствующих тематической направленности ресурса. Вышеперечисленные проблемы в указанных системах не решены.

Цель работы - разработка модели представления и методов обработки информации о визуальных объектах в Интернет-ориентированной ИС, а также формирование онтологии описаний фотоснимков, включающей тезаурус, и ее использование при построении системы атрибутов - признаков, обеспечивающей эффективный, в первую очередь неизбыточный и полный поиск фотоизображений, необходимых пользователям для решения различных прикладных задач.

Задачи исследования включают:

1. Построение многоцелевой модели представления описаний визуальных объектов, включающих атрибуты, их значения и семантические связи между ними. Определение в рамках этой модели алгоритмов поиска необходимых пользователю фотоснимков по их описаниям и обеспечения смысловой непротиворечивости как отдельных описаний конкретных фотоснимков, так и набора описаний в целом.

2. Проведение семантического анализа проблемной и предметной областей, включающего разработку онтологии и построение тезауруса.

' 3. Создание базы данных исторических и современных ландшафтных фотоснимков Полярного и Южного Урала и их описаний.

4. Разработку Интернет-ориентированного приложения, обеспечивающего удобный и быстрый доступ к базе данных ландшафтных фотоснимков широкому кругу пользователей различных специализаций посредством функции семантического поиска.

5. Решение на базе разработанной ИС прикладной задачи определения интервалов времени для оценки различных групп параметров, характеризующих климатически обусловленные изменения лесотундровых сообществ, при использовании повторных ландшафтных фотоснимков.

Объектом исследования является Интернет-ориентированная ИС, обеспечивающая хранение и доступ к коллекциям повторных ландшафтных фотоснимков.

Предметом исследования являются методы представления и обработки описаний визуальных объектов и их наборов в ИС.

Научная новизна.

1. Разработана новая формальная модель представления и обработки информации о сложных слабоформализуемых объектах, обеспечивающая пополнение и использование базы данных ландшафтных фотоснимков. Созданная модель учитывает специфику описаний визуальных объектов, в частности ландшафтных фотоснимков, и обобщает в рамках единого формализма два уровня моделирования (описание отдельного объекта, набор описаний объектов).

2. Предложен метод, предполагающий совмещение в рамках одной процедуры обработки поступающих от пользователя данных процессов, которые традиционно рассматриваются как автономные: пополнения, поиска-идентификации, поддержания семантической целостности отдельных описаний и базы данных в целом, что обеспечивает появление у ИС нового эмерджентно-го свойства и, как следствие, повышает эффективность пополнения и поиска.

3. Построена онтология, отображающая иерархическую структуру понятий, используемых при описании ландшафтных фотоснимков, включающая тезаурус и лексикон пользователя.

4. Проведена классификация параметров описания климатически обусловленной динамики лесотундровых сообществ на Полярном Урале по времени определения и оценки данных изменений на повторных ландшафтных фотоснимках.

Теоретическая значимость. В работе описана новая модель представления и обработки данных о сложных слабоформализуемых объектах, в частности, визуальных, отображающая в формальном виде отдельные аспекты проблемы, традиционно относимой к тематике «семантической обработки информации», обеспечивающая появление нового эмерджентного свойства и усиливающая степень ингерентности ИС относительно среды пользователей, а также предложен новый методический подход к формированию и анализу наборов сложных и многоплановых ландшафтных фотоизображений, хранящихся в ИС, вклю-

чающий следующие этапы: анализ предметной и проблемной областей; выявление семантической и терминологической структуры описаний ландшафтных фотоснимков; отображение выявленной структуры в разработанную модель представления данных; реализация на основе модели представления и методов обработки данных ИС, позволяющей решать конкретные прикладные задачи.

Практическая значимость результатов. Разработанные модель представления и методы обработки данных, в частности, вся технология поиска-идентификации, не предполагающая полноту и безошибочность внутрисистемного описания, могут быть применены в любых предметных областях при реализации интеллектуальных систем обработки данных о сложных слабоформа-лизуемых объектах или с различными по составу и структуре моделями описания объектов. Одно из наиболее востребованных в последнее время практических применений разработанного метода - автоматизация процесса слияния баз данных, содержащих описания различных подмножеств множества однотипных объектов с частично перекрывающимися (по смыслу) множествами атрибутов.

Разработана методология, в рамках которой осуществляется представление и обработка описаний слабоформализуемых визуальных объектов и их наборов, позволяющая решать конкретные прикладные задачи.

Разработана многоцелевая Интернет-ориентированная ИС «Фотоландшафтная база данных», обеспечивающая хранение и доступ к архиву ландшафтных фотоснимков Полярного и Южного Урала, включающему уникальные исторические фотоматериалы, ценность которых в перспективе будет возрастать. При этом одной из основных целей ИС является формирование, подтверждение и опровержение научных гипотез пользователями различных специализаций, в первую очередь, экологами.

Создан классификатор атрибутов описаний ландшафтных фотоснимков, представленный системой справочников с указанием областей допустимых значений для числовых данных и наборов возможных значений для нечисловых, имеющий широкое практическое применение, в частности, для формирования описаний ландшафтных фотоснимков и их поиска.

Важной работой для целей анализа динамики высокогорной растительности по ландшафтным фотоснимкам и планирования наблюдений является установление периодов времени между повторными фотосъемками для определения и оценки различных групп параметров, характеризующих климатогенные изменения лесотундровых сообществ Полярного Урала.

Внедрение результатов. ИС «Фотоландшафтная база данных», разработанная для хранения и обеспечения доступа к коллекции ландшафтных фотоснимков, размещена на сайте Института экологии растений и животных Уральского отделения Российской академии наук (ИЭРиЖ УрО РАН) по адресу: http://ulp.ipae.uran.ru. В настоящее время ИС является частью системы дендро-экологического мониторинга состояния древесной и кустарниковой растительности высокогорий Урала. Полученные в рамках диссертационного исследования результаты также применяются в Уральском государственном лесотехническом университете при чтении курсов по информатике и информационным технологиям. Работа выполнена при поддержке грантов: РФФИ (№ 06-04-

49359, 08-04-00208, 09-04-01004, 09-04-07080, 09-04-13850, 11-04-00623, 12-0431014) Human Capital Foundation (Великобритания) (HCF № 145), СТАРТ (государственный контракт № 5881p/8299), CRDF (США) (№ 108849).

Методология и методы исследования. В ходе диссертационного исследования применялась методология системного анализа, включая методы структурного, функционально-целевого, онтологического моделирования и тезау-русный анализ; методы теории множеств и математической логики (исчисление предикатов первого порядка), статистические методы обработки данных, методы объектно-ориентированного проектирования и программирования, методы дешифрирования повторных ландшафтных фотоснимков.

Положения, выносимые на защиту:

1. Модель представления описаний сложных слабоформализуемых объектов (изображений), обеспечивающая непротиворечивость как отдельных описаний, так и их наборов, и основанные на ней методы и алгоритмы пополнения и поиска-идентификации данных.

2. Онтология понятий, включающая тезаурус и лексикон пользователя, которая сформирована по результатам анализа смысловой и терминологической структуры описаний ландшафтных фотоснимков, используемой в задачах изучения динамики лесотундровых сообществ.

3. Программно-алгоритмическое обеспечение ИС «Фотоландшафтная база данных», осуществляющей долговременное и систематизированное хранение ландшафтных фотоснимков и их описаний, а также поиск в соответствии с задачами пользователей.

4. Классификация параметров описания климатически обусловленной динамики лесотундровых сообществ на Полярном Урале по времени определения и оценки данных изменений на повторных ландшафтных фотоснимках.

Достоверность научных положений и выводов обеспечивается корректным использованием как формальных преобразований в рамках математических моделей, так и математико-статистических методов, отсутствием противоречий с известными теоретическими положениями, а также подтверждается успешным решением конкретных прикладных задач на основе полученных результатов.

Апробация результатов работы. Полученные результаты докладывались и обсуждались на III и IV Всероссийских науч.-техн. конф. «Научное творчество молодежи - лесному комплексу России» - Екатеринбург, 2007 и 2008; VIII междунар. симпозиуме «Проблемы экоинформатики» - Москва, 2008; VII меж-дунар. науч.-техн. конф. «Социально-экономические и экологические проблемы лесного комплекса в рамках концепции 2020» - Екатеринбург, 2009 (доклад занял третье место); II Всероссийской науч.-практ. конф. «Научные проблемы использования и охраны природных ресурсов» - Самара, 2010; 4 Всероссийских конф. молодых ученых в ИЭРиЖ УрО РАН - Екатеринбург, 2006, 2007, 2008, 2010 (по итогам последней докладу присудили первое место); II Всероссийской науч.-техн. конф. «Измерения, контроль и диагностика - 2012» -Ижевск, 2012 (доклад занял третье место); VI Всероссийской науч. школе-семинаре «Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке доку-

ментов в электронных архивах и библиотеках» - Таганрог, 2012; IV междунар. конф. «Математическая биология и биоинформатика» - Пущино, 2012.

Личный вклад автора. Автором лично осуществлялась разработка: модели представления и методов обработки описаний визуальных объектов; онтологии для пересечения рассматриваемых проблемной и предметных областей; ИС «Фотоландшафтная база данных». Разработка отдельных элементов картографического модуля проводилось при содействии И.В. Шелепова.

Благодарности. Автор выражает глубокую признательность д.б.н., профессору С.Г. Шиятову за постановку практической задачи, предоставление архива ландшафтных фотоснимков и помощь в разработке системы атрибутов.

Публикации. По теме диссертации опубликовано 20 печатных работ, в том числе 6 статей - в журналах, рекомендованных ВАК РФ.

Структура и объем диссертации. Рукопись состоит из введения, 4 глав, заключения, списка сокращений и условных обозначений, списка литературы и 2 приложений. Объем диссертации составляет 148 страниц, работа содержит 21 рисунок. Список литературы насчитывает 159 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

В первой главе рассматривается современное состояние проблемы организации хранения и доступа к коллекциям ландшафтных фотоснимков. Описаны особенности метода повторных ландшафтных фотоснимков для оценки состояния и пространственно-временной динамики растительности, применение которого отражено в работах таких авторов, как ШиятовС.Г., Cooper W.S., Kullman L., Hall F., Hastings J., Turner R„ Skovlin J., Thomas J., Munroe J.S. Приведены характеристики архива разновременных ландшафтных фотоснимков высокогорий Полярного и Южного Урала, который включает более 4 тысяч фотоизображений, сделанных за период с начала XX века до настоящего времени. Представлен обзор отдельных аспектов решения проблемы организации доступа к коллекциям фотоснимков, в том числе рассмотрены основные методы поиска изображений, а также приведены примеры баз данных изображений растительности и информационно-поисковых систем, обеспечивающих доступ к ним. На основании анализа современного состояния предметной и проблемной областей выявлена необходимость разработки специализированной ИС, осуществляющей хранение и поиск ландшафтных фотоснимков и их описаний с качественно новым уровнем ингерентности относительно среды, определяемой разнообразием задач пользователей различных специальностей. При этом идеальным решением проблемы доступа к данным представляется извлечение интересующего пользователя набора ландшафтных фотоснимков непосредственно по формулировке задачи, формируемой на предметно- и проблемно-ограниченном естественном языке. В терминах информатики такого рода поиск определяют как семантический, и его реализация в настоящее время является одной из актуальных проблем при разработке интеллектуальных ИС.

Во второй главе изложены результаты сравнительного анализа основных моделей представления знаний и методов семантической обработки данных, а также рассмотрена разработанная формальная модель представления описаний

сложных слабоформализуемых объектов и определенные в ее рамках методы и алгоритмы обработки данных.

Использование распространенных на сегодняшний день в области инженерии знаний моделей представления и определенных в их рамках методов организации хранения, поиска и идентификации данных не обеспечивает учет следующих существенных особенностей работы с сетевыми ИС, имеющими распределенный характер работы [Монтиле А.И., Попов В.А., 1991]: априорная неопределенность по отношению принадлежности каждого значения каждого атрибута к поисковому образу или пополняющей информации; необязательное наличие простых или составных ключей или необязательность задания их значений со стороны пользователя; необязательная семантическая целостность баз данных и негарантированная правильность поступающих данных. Поэтому в качестве базовой была выбрана двухуровневая формальная модель представления и обработки наборов описаний слабоструктурированных объектов А.И. Монтиле, разработанная с учетом приведенных выше особенностей. Модель была доработана с точки зрения отображения специфики визуальных объектов и обобщена путем объединения двух формальных моделей (уровня наборов и уровня конкретных описаний), что обеспечило совмещение процессов пополнения и поиска-идентификации с поддержанием семантической целостности базы данных и, как следствие, повышение скорости поиска, а также уменьшение избыточности его результатов.

Формальная модель обладает следующими особенностями на каждом из

уровней обработки данных.

Первый уровень - обработка описаний отдельных объектов. Под описанием ландшафтного фотоснимка понимается совокупность, в общем случае -структурированная, значений данных различных типов, в том числе кортеж значений атрибутов объекта в реляционном представлении. Типовой структурой данных для отношения с именем п является пара <5Х", V71), где БХп - множество атрибутивных пар отношения п, V" - множество внутренних обусловленностей отношения с именем п. Конечное множество 5п атрибутов отношения п задается перечислением элементов 5" = {я/1}. Каждому атрибуту з? соответствует множество допустимых значений данного атрибута X", задаваемое в общем виде описанием характеристических свойств элементов. Атрибутивной парой 5Х-1 будем называть пару ^".Х"), БХп — {БХ™}.

Пусть и 52 атрибуты отношения п, 5! 6 5П, <г2 е 5П. Отображение взаимосвязи между множествами допустимых значений переменных любого кортежа <7 отношения п можно представить набором формул-условий, которые имеют вид либо импликации, либо эквиваленции между подмножествами множеств допустимых значений переменных. Каждая из формул имеет значение истина, если соответствующее условие совместимости выполняется. Совокупность формул-условий совместной допустимости значений для одних и тех же пар атрибутов называется обусловленностью. В обусловленности формулы одного вида, соответствующие различным условиям, различаются подмножествами значений атрибутов, входящих в антецеденты и консеквенты импликаций

и аргументы эквиваленций. Для каждого отношення п задается конечное множество обусловленностей Vn = {У/1}- Каждая обусловленность состоит из индикаторной формулы и множества Фь = {<?;(<?)) формул-условий. Выполнение или невыполнение обусловленности f" трактуется как истинностное значение конъюнкции всех входящих в нее формул-условий. Базируясь на свойствах обусловленностей, в модели выводится ряд утверждений, в частности, утверждение о сужении, позволяющее получить алгоритм динамического формирования областей допустимых значений одних переменных при означивании других, связанных с ними обусловленностями, из которого вытекает условие проверки обусловленности на непротиворечивость относительно некоторого атрибута s2, которое выполняется, если множество его допустимых значений не становится пустым при любом означивании связанного с ним атрибута st.

Второй уровень - операции с наборами описаний. Модель включает формальное определение операций, выполняемых на множестве значений атрибутов описаний объектов, хранящихся в базе данных, при их сопоставлении с поступающими от пользователями описаниями на момент времени. Множество означенных атрибутов в описании конкретного m -го объекта qm определяется как Sm = {s|s eSn & (Z(qm,s) Ф NULL)}, где Sn - множество атрибутов описания, Z(qm,s) - значение атрибута S в описании qm, NULL - значение не задано. Определим через Q имеющееся на момент времени множество описаний. Обозначим множество имен атрибутов, входящих в некоторое текущее описание (например, введенное пользователем, - поисковый образ), как S. Тогда /:5 -» X -функция, заданная множеством пар атрибут-значение в текущем описании.

Базовыми операциями являются: 1) выделение подмножества описаний в базе данных, для которых имеется хотя бы одно совпадение в значениях атрибутов с описанием, сформированным пользователем, при этом значения остальных атрибутов могут не совпадать: FD(q,S) = 3s|s (z(q,s) - /(s)); 2) выделение подмножества описаний в базе данных, таких, что значения всех означенных атрибутов совпадают с введенными пользователем (в частности, описаний, для которых все атрибуты из S не имеют значений, но определено значение по крайней мере одного не принадлежащего S атрибута): FK(q,S) = Vs|s (z(q,s) = f{s)) V (z(q,s) = NULL). Остальные операции позволяют выделить: 1) подмножество кандидатов на идентификацию с текущим описанием, таких, что значения некоторых (по крайней мере, одного) атрибутов из S совпадают со значениями текущего описания, а остальные атрибуты не означены: U(Q, 5) = Pu(Q.S) = D(Q,S) П K(Q,S)-, 2) подмножество описаний, которые потенциально могут содержать ошибки, таких, что значение по крайней мере одного атрибута из 5 совпадает с заданным и по крайней мере одного не совпадает: C(Q,S) = PC(Q,S) = D(Q,S)\K(Q,S); 3) подмножество не противоречащих текущему описаний, но и не совпадающих с ним по любым означенным атрибутам, для которых все атрибуты из S не имеют значений, но хотя бы один атрибут означен:

Обобщение формальной модели связано с совмещением двух, в исходной модели процедурно несвязанных, уровней обработки данных (уровня описаний

и

и уровня наборов описаний), а именно обеспечено использование системы обусловленностей, позволяющей выводить значения отсутствующих признаков или сужать области их возможных значений (на уровне описаний), в процедурах поиска-идентификации (на уровне наборов описаний), что позволяет повысить точность и сократить время поиска.

В модели учитывается априорная неопределенность по отношению поступившей порции данных к поисковому образу или пополняющей информации, что обеспечивается при реализации методов обработки данных одной и той же последовательностью инициируемых процедур (поскольку при пополнении данных необходимо проверить, не были ли они введены ранее, также и процесс поиска может показать необходимость корректирования имеющихся данных). На первом этапе при поступлении текущего описания осуществляется, с одной стороны, проверка введенных данных (поискового образа) на непротиворечивость, и, с другой стороны, расширение поискового образа, в рамках единой процедуры. Возникающие несоответствия между поступившими значениями атрибутов и динамически суженной областью допустимых значений устраняются в ходе контекстно-управляемого диалога с пользователем.

Пусть обусловленность У" будет считаться активизированной для кортежа д при появлении хотя бы одного значения в атрибутах индикаторных формул. Формула-условие (рр будет называться активизированной, если имеет значение истина один из аргументов эквиваленции (р £ /2) или антецедент импликации (р е или р £ /3), где р - номер активизированной формулы-условия в обусловленности «Р£п; 1и /2, 73 - идентификаторы типов формул-условий импликации, эквиваленции и обратной импликации соответственно. Если означены только консеквенты импликации, р будем полагать равным нулю, поскольку формулы-условия не активизированы.

Введем алгоритм сужения области допустимых значений некоторого атрибута для формируемого описания, базирующийся на утверждении о сужении. Если атрибут связанный обусловленностью с атрибутом з2, имеет значение, то область допустимых значений ? атрибута 52 определяется формулой

, {У,если/ П (^ и /2) = 0 у = У"\ и ,с„ , „ , К, где У = I V ; У - множество допус-

' ' \ и;е(/2и/3)\у ']• А ( У^, в противном случае'

тимых значений атрибута <г2, / = {¿|2((?,5г) £ Х^, а 1 определяется одноэлементным множеством {(,}, {/,} = 7 П (/х и /2).

Подмножество значений атрибута я,-, не противоречащих остальным значениям атрибутов кортежа, обозначим через М. Тогда М= П^'Ч , где Мх -

подмножество допустимых значений, сформированное при использовании обусловленности V™ согласно утверждению о сужении; Ь - множество номеров обусловленностей, активизированных для кортежа ц, до занесения значения атрибута 1Б - множество обусловленностей, индикаторные формулы которых содержат атрибут . Множество М формируется при последовательном применении активизированных обусловленностей

М(к) = м(к-1) п м(о) = Ур где к = 1,2,..., т, т = П У/ - исходная область определения атрибута 5].

Для каждого М(/<) справедливо

П Гр, ¡г'. (О

= -

М№"г> П (Гр\ У р 6

¡е/2иу3\у)

у У(, Р = 0-

1е/2и(/3\Л

Пусть 5т - множество имен атрибутов, имеющих значения в конкретном описании; 5 - множество имен означенных атрибутов текущего описания (поискового образа); 5" - все множество имен атрибутов описания фотоснимка. В существующих системах при поиске используется Бт П 5. В базовой модели при сопоставлении текущего описания с конкретным описанием из набора, которое обеспечивает отбор кандидатов на идентификацию, отсев противоречащих текущему описанию кортежей и пополнение идентифицированных описаний значениями атрибутов из 5\5Ш, используется 5, при этом вне сопоставления в целом остаются атрибуты 5т\5, а при отборе кандидатов на идентификацию-5\5т.

Нами предложено использовать описанную выше процедуру сужения подмножеств допустимых значений атрибутов не только для обеспечения непротиворечивости отдельных описаний, но и для повышения эффективности процедуры поиска-идентификации за счет расширения множества имен атрибутов, используемых при сопоставлении текущего описания и очередного описания из базы данных. Расширение обеспечивается за счет использования процедуры сужения для поискового образа и описаний из набора, что позволяет включать в операции процедуры поиска-идентификации не только множества имен атрибутов, имеющих значение одновременно в текущем и обрабатываемом описаниях, но и множества имен атрибутов, связанных с ними активизированными обусловленностями. В обобщенной модели при поиске-идентификации используется все множество 5", при этом в области (5т и 5)\(5т П 5) вместо проверки равенства значений проверяется принадлежность значения атрибута суженному, благодаря обусловленностям, множеству допустимых значений, а в области 5п\(5т и 5) проверяется совпадение суженных множеств допустимых значений. Подход обеспечивает повышение эффективности процесса поиска-идентификации за счет увеличения количества не удовлетворяющих и уменьшения количества не противоречащих поисковому образу описаний из базы данных.

Приведем формальное описание процесса поиска-идентификации. На расширенном с помощью системы обусловленностей и непротиворечивом наборе означенных атрибутов инициируется процедура поиска-идентификации. Обозначим через 5/ множество атрибутов, сформированное по результатам использования утверждения о сужении, обрабатываемое в момент 1,1 = 1,2,..., т. В качестве названия подмножества кандидатов на идентификацию на момент г с

расширенным описанием, будем использовать с (?■

Алгоритм формирования подмножества имеет следующий вид:

(2'и11) = и(<г,51'). ^

Признаком, который может быть использован для досрочного прерывания

процедуры поиска-идентификации, является выполнение условия ()к = 0, так

п. (О г- п-(О как (?у £ (}к .

Дальнейшая обработка данных для случая, предполагающего наличие ключевых атрибутов в наборе 5£', но не требующего обязательного их означивания (предположение справедливо для наборов ландшафтных фотоснимков), при обработке результатов, получаемых по завершению работы алгоритма поиска-идентификации, реализуется следующим образом. Выразим множество

ключевых атрибутов через Ац, тогда (¡и = П Аи).

1. Для (5 П Аи = 0)&((?и = 0) необходимо уточнить в диалоге с пользователем, является ли текущая запись продолжением предыдущей.

2. При (5' Л Аи = 0)&«?и 0) выявлены кандидаты на идентификацию, при необходимости сужения перечня кортежей в диалоге с пользователем запрашиваются значения ключевых атрибутов.

3. В случае (5'пЛу Ф 0)&(Ои = 0)&(^и ^ -О инициируется введение нового описания в базу данных.

4. Если (5'пЛу Ф Ф)Нйи = 0)&('4ц £ 5') осуществляется пополнение набора описаний сформированным кортежем, при этом выход в диалог с пользователем обеспечит уточнение других ключевых атрибутов 5 I £ Аи\Б .

5. Для случая

Ф 0)& (&,' Ф 0) & = 1) подтверждается

существование в наборе аналогичного описания.

6. Когда (5пЛу Ф 0)&(Ои Ф 0)&(|<2и | * 1), возможно существование нескольких описаний для одного объекта (ложная синонимия). Для разрешения ситуации необходимо осуществить слияние описаний, в том числе текущего, с контролем совместимости значений атрибутов.

Процедура по обнаружению и устранению потенциальных ошибок в текущем описании и наборах описаний проводится однократно по окончанию процесса поиска-идентификации или пополнения данных. Итак, для (?с = 0 процесс обработки данных считается завершенным, иначе необходимо выявление возможного противоречия в данных и его разрешение посредством уточнения в диалоге с пользователем значений некоторых атрибутов. Противоречием будем считать существование среди значений уникальных свойств объектов Аи поискового образа несовпадений или частичных несовпадений с соответствующими значениями атрибутов множества <2С • В данном случае для кортежей <7 £ (?с

справедливо (BsJ^ (z(qW) = Д^лЖЭ^лД^',^) * /(s2))&(z(q',s2) * NULL)).

Предусмотрено 4 варианта сценария корректировки ошибок: 1) замена значения f(s2) на z(q',s2) в сформированном описании позволит включить кортежи из Qc в множество Qu ; 2) изменение значения /(А) в сформированном описании предполагает перенос кортежа из Qc в множество Q\(K(Q,AU) и D(Q,Au))- 3) при обнаружении ошибки в наборе описаний возможна замена значения z(q',s2) на /(s2), позволяющая также перенести кортежи из Qc в

множество Qu; 4) разрешение противоречия в наборе описаний для z(q,Sj) предполагает инициирование создания нового описания, отдельно предыдущего (свидетельствующего об ошибках ложной омонимии). После проверки всех кортежей множества Qc требуется повторное его выделение, что способствует

распознаванию новых ошибок.

Отсутствие ошибок в самой системе обусловленностей обеспечивается посредством инициирования в момент ввода новой обусловленности процедуры проверки выполнения условий утверждения о непротиворечивости и его следствий, определяемого в исходной формальной модели.

В третьей главе приведен анализ смысловой и терминологической структуры описаний ландшафтных фотоснимков, используемой в задачах изучения динамики растительных сообществ, по результатам которого сформирована онтология для проблемной (поиск и идентификация наборов описании, соответствующих формулировке задачи) и предметной (использование повторных ландшафтных фотоснимков для изучения динамики высокогорной растительности) областей, одним из этапов построения которой была разработка тезауруса.

Разработка онтологии включала в себя выявление системы семантических единиц и связей между ними, которые могут быть использованы при формулировке задач (в простейшем случае, для поиска фотоснимков, соответствующих определенным требованиям) пользователями рассматриваемой предметной специализации в ИС. Совместно с определением системы семантических единиц осуществлялся тезаурусный анализ, необходимый для установления отношений между отдельными компонентами онтологии (от элементов и связей до подструктур) и потенциально употребляемыми пользователями для их обозначения лексическими единицами и их последовательностями, в общем случае подразумевающий формализацию синтаксиса.

Анализ структуры описаний ландшафтных фотоснимков проводился с учетом слабой формализуемости и сложности объектов и базировался на двух подходах. Во-первых, были проведены сбор, систематизация и анализ терминов, выделенных экспертами в предметной области, а также приведенных в словарях, глоссариях и литературе по данной тематике. По результатам этой работы был сформирован словарь базовых терминов, характеризующих объекты на ландшафтных фотоснимках. На следующем этапе были выделены основные понятия предметной и проблемной областей и установлена иерархия отношений между ними, представленная в виде модели концептуальных связей дан-

пых, фрагмент которой изображен на рисунке 1. Во-вторых, на основе синтаксического анализа был осуществлен структурный разбор (до уровня предложений) описаний повторных ландшафтных фотоснимков, приведенных в монографиях и статьях С.Г. Шиятова и его учеников, фиксирующих изменения растительных сообществ за определенный интервал времени, для выявления ключевых структурных единиц описаний (именных и глагольных групп, дополненных предложно-именными группами).

Рисунок 1 -Концептуальные связи данных на примере понятия «характеристика фотоизображения»

Полученные результаты были приведены к единому виду и представлены структурированной системой справочников (с максимальным количеством уровней конкретизации, равным 3), на нижних уровнях отображаемой наборами атрибутов и их значений, включающих часть выявленных терминов, которые, на наш взгляд, являются ключевыми для представления описаний ландшафтных фотоснимков в рамках решаемых задач.

Разработанный классификатор параметров описаний ландшафтных фотоснимков (приведенный в приложении диссертации), состоящий в настоящее время из 107 справочников, включает на верхнем уровне разделы:

- характеристика ландшафтного фотоснимка (24 справочника);

- географическое положение точки фотосъемки (9 справочников);

- условия фотосъемки (5 справочников);

- характеристика фотоизображения (45 справочников);

- пространственно-временная динамика лесотундровых, лесолуговых и лесных сообществ (24 справочника).

Полученная структура описаний ландшафтных фотоснимков, фиксирующих состояние и динамику высокогорной растительности в районе исследования, была отображена в разработанную модель представления данных, что обеспечивает многоцелевое использование результатов, в частности, репрезентацию и поиск фотоснимков в ИС.

Четвертая глава посвяшена разработке Интернет-ориентированной ИС «Фотоландшафтная база данных», в том числе отображению структуры тезауруса, характеризующей ландшафтные фотоснимки, и реализации алгоритмов и методов формальной модели.

В первом разделе изложены основные требования к ИС, включающие, в общем случае использование фотоснимков из базы данных пользователями различных специальностей и квалификаций для решения разнообразных задач.

Во втором разделе приведено описание структуры базы данных в реляционном представлении, позволившем естественным образом интерпретировать формальную модель, определенную в рамках реляционной алгебры и прикладного исчисления предикатов первого порядка. Атомарным объектом в базе данных является ландшафтный фотоснимок. Повторные фотоснимки объединены в соответствующие группы. Описание фотоснимков представлено совокупностью вербальных характеристик, числовых и псевдочисловых (шкалированных) данных. Фотоснимкам и их группам сопоставляется структурированный набор атрибутов с заданными областями допустимых значений, при этом вербальным и псевдочисловым признакам соответствуют таблицы-справочники с перечнем их значений, а переменным числового типа - таблицы диапазонов областей допустимых и недопустимых значений. Совокупности таблиц атрибутов соответствует общая таблица, фиксирующая обусловленности.

В третьем разделе главы подробно описаны функции, предусмотренные проектом ИС: поиск ландшафтных фотоснимков и предоставление результатов, пополнение и модификация базы данных с учетом различных представлений пользователей, а также устранение возникающих противоречий в данных, посредством организации концептуально-управляемого диалога с пользователем.

Организация поиска базируется на сопоставлении, с одной стороны, набора признаков и их значений, сформированного пользователем на основе лексикона, работа с которым осуществляется посредством навигации по иерархически упорядоченным справочникам, с другой - наборов описаний фотоснимков, хранящихся в базе данных. При этом во внутрисистемной конфигурации, во-первых, наборы обусловленностей между признаками расширяют поисковый запрос, соответственно сужая область поиска, и повышают степень содержательности, а, во-вторых, помимо прямой идентификации по набору означенных признаков, в результирующую совокупность включаются фотоснимки, описания которых не противоречат поисковому образу, но и не совпадают с ним по всему набору признаков. Результатом обработки поискового запроса является шлейф фотоснимков, сгруппированных как по точкам фотосъемки (которые позиционируются на карте), так и направлениям фотосъемки.

Одной из проблем, затрудняющих обработку описаний визуальных объектов, является принципиальное несовпадение понимания содержания изображения на фотоснимках у разных пользователей. По мере возникновения рассогласований в описании, задаваемом пользователем, и внутрисистемным представлением набора описаний, разрешение противоречий предложено осуществлять в идеологии концептуально-управляемого диалога.

Практическая реализация Интернет-ориентированной ИС «Фотоландшафтная база данных» на данный момент обеспечивает работу основных функций системы, а именно: долговременного и систематизированного хранения ландшафтных фотоснимков и их описаний, удобного и быстрого доступа к данным посредством семантического поиска, возможности их широкого использо-

вания пользователями различных специальностей и квалификаций, а также улучшения значений показателей качества обработки информации (повышения точности и сокращения времени поиска).

Оценка эффективности работы поискового модуля ИС по основным критериям точности (отношение количества релевантных задаче объектов в составе выборки к объему выборки), полноты (отношение релевантных в составе выборки к общему количеству релевантных) и быстродействия проводилась на тестовых выборках, соответствующих примерно 5 % фотоснимков коллекции (около 200 изображений), по 40 запросам, отражающим возможные информационные потребности различных групп пользователей, с макроусреднением оценок показателей. Оценка эффективности поиска при формировании поискового запроса с использованием предложенных алгоритмов и терминов тезауруса по критерию точности составила 0,75, что на 56,7 % улучшает значение точности поиска без использования поискового модуля (0,32), при полноте 0,97-1. Оценка быстродействия поиска-идентификации фотоснимков в ИС (включающая в себя время формирования запроса, его обработку и просмотр результатов), по сравнению с предыдущим уровнем применения технологий поиска фотоснимков в коллекции, хранящейся в систематизированных каталогах, показала увеличение показателя на 59,6 %, что соответствует изменению времени, затрачиваемому на отбор и просмотр наборов фотоснимков - 2,3 и 5,6 минут.

В четвертом разделе главы приведено решение с помощью разработанной ИС конкретной прикладной задачи выявления временных интервалов между фотосъемками, обеспечивающих адекватность определения значений наборов параметров, характеризующих изменения лесотундровой растительности на Полярном Урале при использовании метода повторных ландшафтных фотоснимков. Для решения данной задачи выбрана территория юго-восточного склона массива Рай-Из со средними для района исследования условиями и наибольшим разнообразием частоты проведения повторной фотосъемки. С помощью ИС «Фотоландшафтная база данных» были отобраны пары разновременных фотоснимков (рис. 2) для 178 точек съемки. Параметры оценки изменений определяли согласно классификатору атрибутов и их значений, являющемуся

Рисунок 2 -Повторные ландшафтные фотоснимки, хранящиеся в ИС «Фотоландшафтная база данных»

Оценка информативности повторных фотоснимков позволила выделить группы параметров изменений растительных сообществ, для которых можно определять значения за указанные интервалы времени.

1. Интервалу времени не более 10 лет соответствуют морфологические изменения древостоев и отдельных особей растительности. Для отдельных осо-

частью разработанного тезауруса.

1991 г. 2004 г.

- * -- ~ к а - * .г/** ~ ЯНН**.Г V-' ''¿яВ^І іШшгШШ І ЩЇЙІ

бей древесной растительности можно зафиксировать изменения высоты, диаметра, жизненности, протяженности крон, соотношения форм роста, флагооб-разности крон и зоны отсутствия ветвей в области метелевого переноса снега. У древостоев, помимо изменения средних значений приведенных выше параметров, может отличаться сомкнутость крон, а также количество сухостоя и вале-жа. Для кустарниковой растительности можно отметить изменения в сомкнутости полога кустарникового яруса, высоте, жизненности, наличии сухостойных ветвей и особей.

2. Сопоставление повторных фотоснимков с интервалами между съемками от 11 до 30 лет, помимо приведенных выше параметров, позволяет оценить изменения древесной растительности, связанные с пространственными характеристиками: трансформацию одних типов растительных сообществ в другие под влиянием естественных факторов, смещение верхних границ древесной растительности, изменение пространственного распределения древесной растительности в экотоне верхней границы древесной растительности, густоте и возрастной структуре древостоя, степени облесенности территории.

3. Выделение периода между съемками от 31 до 45 лет обусловлено длительностью процессов лесовозобновления, для которых примерно 30-40-летнему периоду соответствует формирование второго поколения деревьев, т.е. появившиеся за этот период особи могут достигнуть возраста плодоношения, а вокруг них образоваться молодое поколение. Кроме того, за этот период отмечены наиболее значительные изменения по всем приведенным выше параметрам.

Эксплуатация разработанной ИС продемонстрировала, что она позволяет удобно и эффективно формулировать запросы к данным и получать достаточные и неизбыточные шлейфы фотоснимков (определяемые смыслом задачи), обеспечивающие решение прикладных задач.

Одним из важных результатов решения ряда прикладных задач является следующий. Многочисленные факты, выявленные с помощью ИС, показывают улучшение условий для лесовозобновления в районе исследования благодаря фиксируемым в последние десятилетия тенденциям повышения средней годовой температуры приземного воздуха, увеличения продолжительности вегетационного периода и смягчения климатических условий в зимний период. Климатические факторы обуславливают существенную динамику лесотундровых сообществ Полярного Урала, отображаемую на повторных ландшафтных фотоснимках, выраженную, главным образом, в активном продвижении древесной и кустарниковой растительности в горную тундру и изменении структуры древостоев, расположенных в экотоне верхней границы древесной растительности.

ЗАКЛЮЧЕНИЕ

Основные научные и практические результаты диссертационной работы состоят в следующем.

1. Созданы формальная модель представления описаний сложных слабо-формализуемых визуальных объектов, в частности ландшафтных фотоснимков, и методы их обработки, обеспечивающие непротиворечивость как отдельных описаний, так и их наборов, что особенно важно при совместной работе с дан-

ными пользователей различных специальностей и квалификаций.

2. Разработаны метод и алгоритмы, объединяющие в рамках одной процедуры процессы поиска-идентификации объектов по их описаниям и динамического формирования областей допустимых значений взаимосвязанных атрибутов отдельного описания объекта, что обеспечило повышение эффективности поиска с точки зрения быстродействия, неизбыточности и достаточности результатов.

3. Сформирована онтология, отображающая систематизированный набор понятий, используемых для описания ландшафтных фотоснимков, а также их поиска и идентификации в соответствии с формулировками конкретных задач пользователей различных специальностей. Выявленные понятия и семантические связи между ними вошли в состав предметно- и проблемно-ориентированного тезауруса, позволяющего конкретизировать формальную модель представления описаний ландшафтных фотоснимков, обеспечивая при этом многоцелевое использование полученных результатов. На §снове тезауруса определен лексикон, в рамках которого пользователи фотоландшафтной базы данных могут давать описания фотоснимков и формировать поисковые образы.

4. Спроектирована и реализована ИС «Фотоландшафтяая база данных», размещенная на сайте ИЭРиЖ УрО РАН по адресу: http://ulp.ipae.uran.ru, которая позволила осуществлять долговременное и систематизированное хранение ландшафтных фотоснимков и их описаний, а также клиенто-ориентированный доступ к ним различных пользователей.

5. Анализ повторных ландшафтных фотоснимков высокогорий Полярного Урала показал интенсивную экспансию древесной и кустарниковой растительности, произрастающей на пределе распространения, в горную тундру, а также значительные изменения в структуре лесотундровых сообществ, обусловленные современными изменениями климата. Параметры описания климатически обусловленной динамики лесотундровых сообществ на Полярном Урале классифицированы по времени определения и оценки данных изменений на повторных ландшафтных фотоснимках.

Разработанные модель представления и методы обработки данных, в частности вся технология поиска-идентификации, не предполагающая полноту и безошибочность внутрисистемного описания, использованные в Интернет-ориентированной ИС «Фотоландшафтная база данных» для обеспечения работы с ландшафтными фотоснимками, могут быть применены к другим предметным областям при реализации интеллектуальных систем обработки данных о сложных слабоформализуемых объектах или с различными по составу и структуре моделями описания объектов.

СПИСОК ОСНОВНЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи в научных изданиях, рекомендованных ВАК РФ:

1. Фомин, В.В. Метрологические аспекты анализа изображений / В.В. Фомин, А.П. Михайлович, А.С. Попов, Н.Ф. Низаметдинов, Ю.В. Шалаумова // Измерительная техника. -2008,-№2.-С. 25-28.

2. Шалаумова, Ю.В. Семантический анализ описаний ландшафтных фотоснимков для мониторинга древесной и кустарниковой растительности высокогорий Урала / Ю.В. Шалаумова // Известия Самарского научного центра Российской академии наук. - 2010. - Т. 12

(33). № 1 (4). - С. 1177-1182.

3. Шалаумова, Ю.В. Пространственно-временная динамика климата на Урале во второй половине XX века / Ю.В. Шалаумова, В.В.Фомин, Д.С. Капралов // Метеорология и

гидрология. - 2010. - № 2. - С. 44-54.

Публикации в других изданиях:

4 Шалаумова, Ю.В. Анализ изменения растительности с использованием фотоландшафтной базы данных / Ю.В. Шалаумова, В.В. Фомин И Экология в меняющемся мире: Материалы конф. молодых ученых, 24-28 апреля 2006 г. // ИЭРиЖ УрО РАН. - Екатеринбург: Изд-во «Академкнига». - 2006. - С. 287-288.

5. Шалаумова, Ю.В. Методы поиска в фотоландшафтной базе данных / Ю.В. Шалаумова, В.В. Фомин // Научное творчество молодежи - лесному комплексу России. Материалы Ш Всероссийской научн.-техн. конф. // Урал. гос. лесотехн. ун-т. - Екатеринбург. -

2007.-Ч. 2.-С. 189-191.

6 Низаметдинов, Н.Ф. Экспресс-метод оценки состояния древостоев с использованием системы анализа изображений / Н.Ф. Низаметдинов, Ю.В. Шалаумова, В.В. Фомин, 3-Я. Нахимов // Научное творчество молодежи - лесному комплексу России. Материалы

-Ш Всероссийской научн.-техн. конф. // Урал. гос. лесотехн. ун-т. - Екатеринбург. - 2007. - Ч. 2.-С. 116-120.

7 Низаметдинов, Н.Ф. Система анализа цифровых изображений как инструмент для определения состояния насаждений / Н.Ф. Низаметдинов, Ю.В. Шалаумова // Научное творчество молодежи - лесному комплексу России. Материалы IV Всероссийской научн.-техн. конф. // Урал. гос. лесотехн. ун-т. - Екатеринбург. - 2008. - С. 171-174.

8. Шалаумова, Ю.В. Семантический поиск ландшафтных фотоснимков и их позиционирование на карте / ЮЛ. Шалаумова, И.В. Шелепов // Материалы УШ Международного симпозиума «Проблемы экоинформашки». - М.: МНТОРЭС им. АХЛопова. - 2008. - С. 104-108.

9 Шалаумова, Ю.В. Семантическая обработка ландшафтных фотоснимков / Ю.В. Шалаумова, А.П. Михайлович, А.И. Монтиле, В.В. Фомин // Социально-экономические и экологические проблемы лесного комплекса в рамках концепции 2020: матер. VII междунар. науч.-техн. конф. // Урал. гос. лесотехн. ун-т. - Екатеринбург. - 2009. - Ч. 2. - С. 212-214.

10. Шалаумова, Ю.В. Семантический анализ описаний ландшафтных фотоснимков высокогорий Урала для определения состояния и динамики растительности / Ю.В. Шалаумова, И.В. Шелепов // Экология от южных гор до северных морей. Материалы конф. молодых ученых, 1923 апреля 2010 г. / ИЭРиЖ УрО РАН. - Екатеринбург Гощицкий. - 2010. - С. 206-210.

11. Шалаумова Ю.В. Модель представления и обработай описаний ландшафтных фотоснимков и их наборов / Ю.В. Шалаумова // Измерения, контроль и диагностика - 2012: сб. материалов П Всероссийской науч.-техн. конф. студентов, аспирантов и молодых ученых, с междунар. участием, посвященной 60-леппо Ижевского государственного технического университета имени М.Т. Калашникова (Ижевск, 14-16 мая 2012 года). - Ижевск А4. - 2012. - С. 263-268.

12. Шалаумова Ю.В. Метод семантического поиска в коллекции ландшафтных фотоснимков / Ю.В. Шалаумова // Сборник трудов VI Всероссийской научной школы-семинара молодых ученых, аспирантов и студентов «Семантическая интерпретация и интеллектуальная обрабопса текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках». - Таганрог: Изд-во ТГИ ЮФУ. - 2012. - С. 5-9.

13. Шалаумова Ю.В. Модель представления и методы обработки данных в фотоланд-шафгаой базе данных, используемой для изучения динамики лесотундровых сообществ Полярного Урала / Ю.В. Шалаумова // Математическая биология и биоинформатика: IV Международная конф., г. Пущино, 14-19 октября 2012 г.: Доклады. - М.: МАКС Пресс. - 2012. - С. 196-198.

Подписано в печать 25.04.2013. Формат 60x84 1/16. Усл. печ. л. 1,2. Тираж 100 экз. Заказ -М УГЛТУ. Отдел оперативной полиграфии. 620100, г. Екатеринбург, Сибирский тракт, 37.

Текст работы Шалаумова, Юлия Валерьевна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

ФГБОУ ВПО «УРАЛЬСКИЙ ГОСУДАРСТВЕННЫЙ ЛЕСОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

04201360549

На правах рукописи

Шалаумова Юлия Валерьевна

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МОДЕЛИ ПРЕДСТАВЛЕНИЯ И МЕТОДОВ ОБРАБОТКИ ИНФОРМАЦИИ О СЛОЖНЫХ СЛАБОФОРМАЛИЗУЕМЫХ ОБЪЕКТАХ

ДЛЯ ФОТОЛАНДШАФТНОЙ БАЗЫ ДАННЫХ

05.13.01 - Системный анализ, управление и обработка информации (в науке и технике)

ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук

Научный руководитель: к.т.н., доц. Монтиле А. И.

Екатеринбург 2013

ОГЛАВЛЕНИЕ

Введение...................................................................................................................................................4

1. Современное состояние проблемы анализа, хранения и поиска изображений..........................10

1.1. Обзор баз данных изображений растительности и информационно-поисковых систем, обеспечивающих доступ к ним........................................................................................................10

1.2. Обзор подходов к анализу ландшафтных фотоснимков........................................................17

1.3. Характеристика материалов коллекции ландшафтных фотоснимков..................................23

2. Модель представления и семантической обработки описаний сложных слабоформализуемых объектов для многоцелевой информационной системы «Фотоландшафтная база данных»........28

2.1. Обзор основных моделей и методов семантической обработки и представления данных 28

2.2. Формальная модель представления и методы обработки описаний визуальных объектов и их наборов..........................................................................................................................................33

2.3. Обобщенная формальная модель и методы обработки описаний визуальных объектов и их наборов..........................................................................................................................................42

3. Анализ смысловой и терминологической структуры описаний ландшафтных фотоснимков..49

3.1. Анализ описаний ландшафтных фотоснимков.......................................................................49

3.1.1. Выявление перечня ключевых терминов предметной области и иерархии отношений между ними....................................................................................................................................51

3.1.2. Анализ изменений, зафиксированных при сопоставлении повторных фотоснимков .52

3.1.3. Структура описаний ландшафтных фотоснимков...........................................................54

3.2. Особенности отображения смысловой и терминологической структуры описаний ландшафтных фотоснимков в выбранную модель представления данных................................56

4. Организация хранения, поиска и предъявления пользователям ландшафтных фотоснимков и их описаний...........................................................................................................................................62

4.1. Основные требования к фотоландшафтной базе данных......................................................62

4.2. Представление фотоснимков и их описаний в базе данных..................................................63

4.2.1. Характеристика переменных, используемых при описании ландшафтных фотоснимков..................................................................................................................................63

4.2.2. Структура данных и ее реализация в реляционной модели...........................................64

4.3. Информационная система «Фотоландшафтная база данных»..............................................68

4.3.1. Функции информационной системы.................................................................................72

4.3.2. Реализация интернет-ориентированного приложения информационной системы......79

4.3.3. Оценка эффективности работы информационной системы...............................................83

4.4. Пример. Решение на базе информационной системы «Фотоландшафтная база данных» задачи классификации параметров описания климатически обусловленной динамики лесотундровых сообществ на Полярном Урале по повторным ландшафтным фотоснимкам..84

Заключение..........................................................................................................................................100

Список сокращений и условных обозначений.................................................................................102

Список литературы.............................................................................................................................102

Приложение А. Семантическая классификация атрибутов и их значений, используемых при

описании ландшафтных фотоснимков на примере высокогорий Полярного Урала...................116

Приложение Б. Акт о внедрении результатов диссертационной работы......................................146

ВВЕДЕНИЕ

Актуальность темы исследования. Одной из важнейших проблем, связанных с разработкой информационных систем (ИС) коллективного доступа, является обеспечение их надежного и полноценного функционирования при работе с пользователями различных специальностей и квалификаций (ингерентности ИС), рассматриваемое в двух аспектах: обеспечение достоверности (семантической целостности) данных и эффективность поиска данных, при многоцелевом использовании ИС. Традиционными критериями эффективности поиска являются быстродействие и неизбыточность результатов. Актуальность проблемы в настоящее время связана, в первую очередь, с разработкой Интернет-ориентированных ИС, в значительной степени усиливающих влияние факторов разнообразия пользователей и задач, поскольку любое сокращение количества потенциальных пользователей и решаемых с помощью ИС задач рассматривается как нежелательное с практической и коммерческой точек зрения. Опыт разработки Интернет-ориентированных систем последних лет выявил значительное смещение представлений пользователей об эффективности поиска с быстродействия на неизбыточность и достаточность получаемых результатов, характеризуемую точностью и полнотой. Вторым существенным моментом является возможность пополнения баз данных Интернет-ориентированных ИС со стороны значительно большего, чем в обычных ИС, круга пользователей, поскольку во многих случаях только расширение прав доступа может обеспечить достижение минимальной полноты данных для эффективного решения практических задач. Отсюда критическое обострение проблемы достоверности. Третьей отличительной чертой работы с Интернет-ориентированными ИС, содержащими описания визуальных объектов, в частности фотоснимков, является принципиальная невозможность узнать, какие и в какой терминологии описания фотоснимков были введены другими пользователями, что затрудняет формирование эффективных, в вышеуказанном смысле, поисковых образов, причем ситуация усложняется несовпадением представлений различных пользователей о содержании фотоснимков (мультимодельностью) и, как следствие, возникновением различий в описаниях фотоснимка и объектов на нем, ложных синонимии и омонимии. Основная причина возникающих расхождений заключается в том, что фотоснимок является сложной системой - по количеству типов элементов и типов связей, а выделение этих типов, необходимое для отображения в формальном виде описаний и их структур, определяется

различными целями пользователей. Помимо различия целей, обусловленных конкретными прикладными задачами, учет которых в процессе системного анализа позволяет выявить типы элементов и связей, фиксирующих семантику контекстов использования ИС, существенным представляется несовпадение лексиконов (наборов лексических единиц и устойчивых словосочетаний), применяемых различными пользователями для определения эквивалентных семантических единиц.

Таким образом, представляется актуальной разработка модели хранения описаний визуальных объектов и связанных с нею методов пополнения, обеспечения формальной и смысловой правильности и, собственно, доступа (извлечения необходимых для решения конкретной задачи пользователя данных), в совокупности учитывающих указанные особенности Интернет-ориентированных ИС. Самостоятельный интерес представляет выявление, формализация и способ реализации системы атрибутов и соответствующего лексикона для описания фотоснимков определенной предметной направленности, которая не только обеспечит унификацию процесса описания, но и создаст необходимые предпосылки для применения методов распознавания образов и автоматизации атрибутирования фотоснимков.

Актуальность предметной области исследования связана с возрастающим интересом к изучению динамики высокогорных растительных сообществ, в том числе, Полярного и Южного Урала, поскольку они наиболее чутко реагируют на долговременные изменения факторов внешней среды и могут рассматриваться в качестве индикаторов таких изменений. Одним из перспективных методов, применяемых для решения указанных задач, является сопоставление повторных ландшафтных фотоснимков, поскольку визуально фиксируемые изменения выступают таким же объективным свидетельством, которое непосредственно позволяет подтвердить или опровергнуть гипотезу (теорию) о происходивших процессах, т. е. динамике растительных сообществ, как и измеряемые числовые данные. В настоящее время благодаря развитию информационных технологий, в первую очередь сетевых, появилась возможность использовать накопленные, но разобщенные и малодоступные для всего научного сообщества архивы ландшафтных фотоснимков.

Степень разработанности проблемы. Существующие на сегодняшний день Интернет-ориентированные ИС, позволяющие осуществлять доступ к коллекциям глобального и регионального масштаба, содержащим фотоснимки растительности и их описания, Digital photo series, Biolmages, Botanicka fotogalerie, Horti Plex Plant database, Native plant database, Plant database, Plant UConn database в лучшем случае предоставляют возможность просмотра материалов с помощью каталогов, а также поисковых модулей, выявляющих совпадения поискового образа с ограниченным перечнем ключевых слов, соответствующих тематической направленности ресурса. Вышеперечисленные проблемы в указанных системах не решены.

Цель работы - разработка модели представления и методов обработки информации о визуальных объектах в Интернет-ориентированной ИС, а также формирование онтологии описаний фотоснимков, включающей тезаурус, и ее использование при построении системы атрибутов - признаков, обеспечивающей эффективный, в первую очередь неизбыточный и полный поиск фотоизображений, необходимых пользователям для решения различных прикладных задач.

Задачи исследования включают:

1. Построение многоцелевой модели представления описаний визуальных объектов, включающих атрибуты, их значения и семантические связи между ними. Определение в рамках этой модели алгоритмов поиска необходимых пользователю фотоснимков по их описаниям и обеспечения смысловой непротиворечивости как отдельных описаний конкретных фотоснимков, так и набора описаний в целом.

2. Проведение семантического анализа проблемной и предметной областей, включающего разработку онтологии и построение тезауруса.

3. Создание базы данных исторических и современных ландшафтных фотоснимков Полярного и Южного Урала и их описаний.

4. Разработку Интернет-ориентированного приложения, обеспечивающего удобный и быстрый доступ к базе данных ландшафтных фотоснимков широкому кругу пользователей различных специализаций посредством функции семантического поиска.

5. Решение на базе разработанной ИС прикладной задачи определения интервалов времени для оценки различных групп параметров, характеризующих климатически обусловленные изменения лесотундровых сообществ, при использовании повторных ландшафтных фотоснимков.

Объектом исследования является Интернет-ориентированная ИС, обеспечивающая хранение и доступ к коллекциям повторных ландшафтных фотоснимков.

Предметом исследования являются методы представления и обработки описаний визуальных объектов и их наборов в ИС.

Научная новизна.

1. Разработана новая формальная модель представления и обработки информации о сложных слабоформализуемых объектах, обеспечивающая пополнение и использование базы данных ландшафтных фотоснимков. Созданная модель учитывает специфику описаний визуальных объектов, в частности ландшафтных фотоснимков, и обобщает в рамках единого формализма два уровня моделирования (описание отдельного объекта, набор описаний объектов).

2. Предложен метод, предполагающий совмещение в рамках одной процедуры обработки поступающих от пользователя данных процессов, которые традиционно рассматриваются как автономные: пополнения, поиска-идентификации, поддержания семантической целостности отдельных описаний и базы данных в целом, что обеспечивает появление у ИС нового эмерд-

жентного свойства и, как следствие, повышает эффективность пополнения и поиска.

3. Построена онтология, отображающая иерархическую структуру понятий, используемых при описании ландшафтных фотоснимков, включающая тезаурус и лексикон пользователя.

4. Проведена классификация параметров описания климатически обусловленной динамики лесотундровых сообществ на Полярном Урале по времени определения и оценки данных изменений на повторных ландшафтных фотоснимках.

Теоретическая значимость. В работе описана новая модель представления и обработки данных о сложных слабоформализуемых объектах, в частности, визуальных, отображающая в формальном виде отдельные аспекты проблемы, традиционно относимой к тематике «семантической обработки информации», обеспечивающая появление нового эмерджентного свойства и усиливающая степень ингерентности ИС относительно среды пользователей, а также предложен новый методический подход к формированию и анализу наборов сложных и многоплановых ландшафтных фотоизображений, хранящихся в ИС, включающий следующие этапы: анализ предметной и проблемной областей; выявление семантической и терминологической структуры описаний ландшафтных фотоснимков; отображение выявленной структуры в разработанную модель представления данных; реализация на основе модели представления и методов обработки данных ИС, позволяющей решать конкретные прикладные задачи.

Практическая значимость результатов. Разработанные модель представления и методы обработки данных, в частности, вся технология поиска-идентификации, не предполагающая полноту и безошибочность внутрисистемного описания, могут быть применены в любых предметных областях при реализации интеллектуальных систем обработки данных о сложных слабоформализуемых объектах или с различными по составу и структуре моделями описания объектов. Одно из наиболее востребованных в последнее время практических применений разработанного метода - автоматизация процесса слияния баз данных, содержащих описания различных подмножеств множества однотипных объектов с частично перекрывающимися (по смыслу) множествами атрибутов.

Разработана методология, в рамках которой осуществляется представление и обработка описаний слабоформализуемых визуальных объектов и их наборов, позволяющая решать конкретные прикладные задачи.

Разработана многоцелевая Интернет-ориентированная ИС «Фотоландшафтная база данных», обеспечивающая хранение и доступ к архиву ландшафтных фотоснимков Полярного и Южного Урала, включающему уникальные исторические фотоматериалы, ценность которых в перспективе будет возрастать. При этом одной из основных целей ИС является формирование, подтверждение и опровержение научных гипотез пользователями различных специализаций, в первую очередь, экологами.

Создан классификатор атрибутов описаний ландшафтных фотоснимков, представленный системой справочников с указанием областей допустимых значений для числовых данных и наборов возможных значений для нечисловых, имеющий широкое практическое применение, в частности, для формирования описаний ландшафтных фотоснимков и их поиска.

Важной работой для целей анализа динамики высокогорной растительности по ландшафтным фотоснимкам и планирования наблюдений является установление периодов времени между повторными фотосъемками для определения и оценки различных групп параметров, характеризующих климатогенные изменения лесотундровых сообществ Полярного Урала.

Внедрение результатов. ИС «Фотоландшафтная база данных», разработанная для хранения и обеспечения доступа к коллекции ландшафтных фотоснимков, размещена на сайте Института экологии растений и животных Уральского отделения Российской академии наук (ИЭРиЖ УрО РАН) по адресу: http://ulp.ipae.uran.ru. В настоящее время ИС является частью системы дендроэкологического мониторинга состояния древесной и кустарниковой растительности высокогорий Урала. Полученные в рамках диссертационного исследования результаты также применяются в Уральском государственном лесотехническом университете при чтении курсов по информатике и информационным технологиям. Работа выполнена при поддержке грантов: РФФИ (№ 06-04-49359, 08-04-00208, 09-04-01004, 09-04-07080, 09-04-13850, 11-0400623, 12-04-31014), Human Capital Foundation (Великобритания) (HCF № 145), СТАРТ (государственный контракт № 5881р/8299), CRDF (США) (№ 108849).

Методология и методы исследования. В ходе диссертационного исследования применялась методология системного анализа, включая методы структурного, функционально-целевого, онтологического