автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Распределенная информационно-аналитическая система для поддержки исследований в науках о Земле

кандидата технических наук
Шогин, Алексей Николаевич
город
Москва
год
2008
специальность ВАК РФ
05.25.05
Диссертация по документальной информации на тему «Распределенная информационно-аналитическая система для поддержки исследований в науках о Земле»

Автореферат диссертации по теме "Распределенная информационно-аналитическая система для поддержки исследований в науках о Земле"

На правах рукописи

Шогин Алексей Николаевич

РАСПРЕДЕЛЕННАЯ ИНФОРМАЦИОННО - АНАЛИТИЧЕСКАЯ СИСТЕМА ДЛЯ ПОДДЕРЖКИ ИССЛЕДОВАНИЙ В НАУКАХ О ЗЕМЛЕ

Специальность 05 25 05 - Информационные системы и процессы, правовые аспекты информатики

Автореферат диссертации на соискание ученой степени кандидата технических наук

□ Ü34A г и-'

Москва 2008

003447091

Работа выполнена во Всероссийском институте научной и технической информации (ВИНИТИ) РАН

Научный руководитель доктор технических наук Гитис Валерий Григорьевич

Официальные оппоненты

доктор технических наук, профессор Черный Аркадий Иванович доктор физико-математических наук Сметанин Юрий Геннадиевич

Ведущая организация Институт системного анализа РАН

Защита состоится «22» октября 2008 г в 11 часов на заседании диссертационного совета Д 002 026 01 во Всероссийском институте научной и технической информации РАН по адресу 125190, Москва, ул Усиевича, д 20

С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации РАН

Автореферат разостан 15 сентября 2008 г

Ученый секретарь диссертационного совета Д 002 026 01

доктор технических наук, профессор

Цветкова Валентина Алексеевна

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В настоящее время информационная составляющая в науках о Земле представляет собой громадный, распределенный в сети Интернет, массив данных самого разнообразного характера и формы представления - метаданные, базы и банки данных, картографические слои разного типа, геоинформационные системы, аналитические и расчетные методы В связи с этим при выполнении исследований специалист вынужден использовать не только те данные, которые имеются у него, но и элементы всей накопленной информации Однако реальная разнородность всех указанных данных приводит к тому, что значительную часть времени при исследованиях занимает работа, не связанная с предметной областью - как правило, это поиск информации, методов ее обработки и преобразования данных Это фактически является задачей в области информационных технологий и ведет к значительному росту трудовых и экономических затрат В результате в последние годы наблюдается бурный рост систем, позволяющих с помощью сети Интернет частично решить эту задачу К сожалению, эти системы в настоящее время позволяют исследователю работать либо с визуальным представлением распределенной в сети Интернет глобальной картохрафической информацией, либо с отдельными комплексными геоинформационными системам регионов (по большей части в США, Канаде и Австралии), либо с поисковыми системами метаданных При этом, даже наиболее мощные системы не позволяют а) производить аналитические преобразования геоданных и б) использовать персональные данные и методы пользователя без предварительного размещения их в сети Интернет Таким образом, любая аналитическая обработка распределенных (в том числе личных) данных, как с помощью геоинформационных систем, так и в ГРИД (вКШ - англ. сетка) системах, остаются вне поля действия существующих систем в науках о Земле

Известно, что для крупных информационных систем характерен явно недостаточный уровень вторичной аналитической обработки данных В связи с этим актуальным является создание систем, обеспечивающих интеграцию и аналитическую онлайновую обработку информацию из сети Интернет и имеющихся материалов пользователя

Целью настоящей работы является развитие методов и средств, обеспечивающих максимально эффективное использование информации в сети Интернет, имеющуюся у конкретных разработчиков, ведущих исследования в области наук о Земле Создаваемая распределенная геоинформационная система должна формировать персонифицированное информационное пространство пользователя, поддерживать интеграцию локальных и распределенных в сети Интернет ресурсов, включая возможность работы с ГРИД системами, а

также обеспечивать использование наиболее распространенных форматов данных и существующих геоинформационных систем Для достижения этой цели были поставлены следующие задачи

Задачи исследования:

1 Разработка способов унификации представления данных и протоколов обмена метаинформацией о различных типах геоданных

2 Разработка универсальной настраиваемой системы сбора, анализа, преобразования и поиска документальных данных в распределенной среде

3 Разработка методов и алгоритмов интеграции геоданных с последующей их аналитической обработкой в геоинформационных и ГРИД системах

4 Экспериментальная апробация системы на примерах поддержки решения различных геологических и геофизических задач

Научная новизна работы

В результате проведенных исследований предложена информационно-аналитическая система, обеспечивающая специалистам в области наук о Земле онлайновую компьютерную поддержку решения фундаментальных и прикладных задач

Система использует новую двухуровневую схему метаданных, которая позволяет осуществлять гибкую настройку на задачи пользователя и использовать личные данные пользователя без передачи их в сеть Интернет

Произведенная систематизация, мониторинг и преобразование геоданных позволили создать представительное хранилище глобальной бесплатной информации по наукам о Земле, доступное через одну точку входа в сети Интернет

Научно-практическое значение

Созданная распределенная информационно-аналитическая система была опробована для решения ряда экспериментальных задач прогноз золоторудных месторождений на Камчатке, кластерный анализ геохимических данных на Камчатке с целью выявления возможных аномалий, региональный прогноз нефтегазовых месторождений в Западной Сибири, пространственный прогноз геофизических данных в Центральной Европе, анализ зон возможных очагов землетрясений и оценки ущерба от землетрясений на Северном Кавказе

При личном участии диссертанта разработаны архитектура распределенной информационно-аналитической системы, структуры представления и протоколы обмена геометаданными в системе, универсальная настраиваемая система преобразования

документальных данных, базовая информационно-поисковая система, методы и алгоритмы преобразования, интеграции и анализа геоданных при решении прикладных и фундаментальных задач. По результатам систематизации и мониторинга мировых геоданных в ВИНИТИ РАН и ряде других институтов РАН создано хранилище глобальной географической, геологической и геофизической информации Реализованы сложные методы аналитической обработки геоданных в специализированной ГИС «Геопроцессор» Созданы методы и алгоритмы взаимодействия распределенной информационно-аналитической системы и ГРИД

Апробация работы. Основные положения работы опубликованы в [7,8] и докладывались и обсуждались на крупных международных конференциях

«Смирновские чтения -2007», МГУ, Геологический факультет, Москва, Россия, «International Union for Geophysics and Geodesy (IUGG) XXIV General Assembly», July 213, 2007,Pemgia, ITALY, Network geoinformation environment for the analysis of spatial and spatiotemporal data //Gitis Valen, Yuri Arsky, Alexei Shogin, Arkady Wemstock

«50-летие Международного геофизического года и Электронный Геофизический год», 16-19 сентября 2007, Суздаль, Россия,

«Математические методы распознавания образов — 13», 30 сентября — 6 октября 2007, Ленинградская обл, Россия,

«Геоинформационные системы в геологии и науках о Земле», Queretaro, Mexico 2007, «7-я Международная конференция НТИ-2007 Информационное общество Интеллектуальная обработка информации Информационные технологии», ВИНИТИ, 23-26 октября 2007, Москва, Россия,

а также на заседаниях секций РАН и заседаниях Рабочей группы по проекту «Электронная Земля научные информационные ресурсы и информационно-коммуникационные технологии»

По материалам диссертации опубликовано 14 работ, включая 1 монографию

Структура и объем работы. Диссертация состоит из введения, шести глав, заключения, списка литературы, содержащего 5 В источников, 6 приложений Работа изложена на 150 страницах машинописного текста, иллюстрированного 32 рисунками и 3 таблицами

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, определены цель и задачи работы, сформулированы полученные в ходе работы результаты, оценена новизна исследования и его практическая значимость

Глава 1 Анализ существующих распределенных геоинформационных систем и стандартов геоданных.

В первой части главы приводится краткая история развития геоинформационных систем, стандартов и протоколов передачи данных в области наук о Земле

Далее анализируются существующие стандарты хранения и передачи картографических геоданных Показано, что в настоящее время малодоступность такой информации глобального характера является одной из проблем, сдерживающих развитие геоинформационной поддержки наук о Земле

Производится сравнительный анализ существующих отечественных и зарубежных распределенных геоинформационных систем разного типа, как регионального, так и глобального характера На основе анализа дается их классификация по степени доступности, распространенности и по возможностям аналитической обработки геоданных

В заключение формулируется вывод об актуальности создания распределенной информационно-аналитической системы в области наук о Земле для поддержки прикладных и фундаментальных исследований в этой области

Глава 2. Исследование и разработка структур представления метаданных и протоколов обмена информацией в распределенной информационно-аналитической системе

Подробно рассмотрены основные существующие стандарты метаданных в геоинформатике

- FGDC - федеральный стандарт США,

- CEN - европейский стандарт,

- ISO 19115 и 10139-международные стандарты

Показана история возникновения стандартов, юс эволюция и текущее состояние Рассмотрены возможности использования данных стандартов в задаче построения распределенной информационно-аналитической системы

Рассмотрены вопросы создания такой структуры представления метаданных, которая бы позволила использовать ее для создания узлов распределенной системы в самых разных организациях и институтах РАН с наименьшими затратами времени и ресурсов Предложенная в диссертации структура позволяет обрабатывать в рамках распределенной системы две разновидности метаданных - описательные и фактографические

К описательным, содержащим преимущественно текстуальную информацию, относятся следующие типы метаданных

- публикации,

- организации,

- персоналии,

- ресурсы

К фактографическим, содержащим строго цифровые данные, относятся следующие типы метаданных

- картографические (сеточные, векторные, растровые),

- некартографические (базы данных, таблицы и т п )

Кроме того, эта структура может быть использована для формирования ГИС-проектов и запуска аналитических задач в ГРИД-системах

Показано, что предлагаемая структура метаданных должна быть расширением базового стандарта метаданных Dublin Core и представлять из себя два уровня При этом, тот элемент Dublin Core (в стандарте это Identifier), который описывает URI ресурса, ссылается на настоящий URI в случаях, когда метаданные описывают публикации, организации, персоналии итп

Часть элементов данных представляют собой «словарные» данные, которые либо соответствуют международным или национальным стандартам (языки, коды стран, специальности по ВАК, классификаторы ГРНГИ, ВИНИТИ), либо предназначены для жесткой типизации метаданных Последние абсолютно необходимы для задачи интеграции геоданных, рассмотренной ниже

В случае, когда метаданные описывают реальные геоданные или отдельные аналитические задачи, указанная ссылка приводит к XML файлу, который содержит в себе две составляющие а) детальное описание геоданных, включая координатную и временную информацию, формат картографического представления и тп и б) параметризационную составляющую Не секрет, что подавляющее число геоданных, доступных через сеть Интернет, требуют задания иногда очень большого числа параметров для получения их фрагмента Более того, отказ от ввода этих параметров приводит либо к отказу выдачи данных вообще, либо к выводу громадного объема информации (сотни мегабайт или даже гигабайты) Очевидно, что прямое использование таких данных без параметров невозможно

С другой стороны, в распределенной системе с единым интерфейсом пользователя очень важно формализовать способы задания параметров различных информационных ресурсов Вот эту задачу и решает параметризационная составляющая вторичного XML файла.

В работе приведено детальное описание вторичного XML файла, обеих его составляющих и возможности использования для различных геоданных Показано, что данный файл может с успехом быть использован для описания аналитических задач, связанных с

обработкой геоданных Приведены перспективы расширения структуры вторичного XML файла для генерации ГИС-проектов в различных геоинформационных системах

Приводятся спецификации протокола обмена в создаваемой распределенной системе, который обеспечивает относительно быструю реализацию даже в условиях слабых серверных систем с минимальной программной поддержкой Протокол обеспечивает как прямой доступ к группам метаданных, так и их выборку по запросу Структура запроса в протоколе такова, что она в большинстве случаев дает возможность его трансляции либо в обычный SQL запрос, либо в полноценный контекстный поиск

Рассмотрены вопросы отображения абстрактных XML спецификаций создаваемых структур представления метаданных на реальные реляционные и нереляционные структуры существующих СУБД

Для облегчения подготовки к вводу метаданных в систему были разработаны специализированные средства двух типов - рабочее место с использованием MS Access и рабочее место с использованием Web - технологий В первом случае для ввода данных требуется применение ряда последовательных XSLT преобразований, а во втором случае обеспечивается прямой ввод и редактирование (хотя и отложенное по времени) информации в базе метаданных

Проведенный анализ типовых структур метаданных и протоколов обмена позволяет сделать следующие выводы

а) полнофункциональная обработка используемых в системе сильно разнородных метаданных требует наличия универсальной настраиваемой системы, которая поддерживает декодирование и преобразование всех наиболее распространенных форматов документальных данных (в том числе метаданных),

б) для обеспечения возможности отбора необходимых метаданных нужна базовая информационно-поисковая система с развитыми возможностями контекстного поиска

Глава 3 Система преобразования данных и информационно-поисковая система.

В последнее время задаче преобразования документальных данных описательного характера в литературе уделяется крайне мало внимания Во многом это связано с тем, что на современном этапе развития информационных технологий практически все данные генерируются в формате XML, для которого разработан универсальный язык преобразований XSLT (сейчас в версии 2 0) Наличие этого языка снимает все синтаксические проблемы преобразования, но проблема содержательного преобразования данных остается Кроме того, фактом является наличие громадных массивов документальных данных в самых разнообразных форматах, от широко известных и распространенных типа MARC до самых экзотических

корпоративных. Данные в этих форматах генерируются до сих пор, поскольку используются программные средства, созданные 20-30 лет назад Таким образом, задача создания универсальной настраиваемой системы преобразования данных является весьма актуальной Под универсальностью в данном случае понимается возможность использования системы для преобразования как большинства из существующих форматов, так и для генерации специальных новых, а под настраиваемостью - возможность тонкой настройки этих преобразований

Построена абстрактная двухуровневая модель документальных данных, которая представляет существующий формат, как логическую и физическую компоненты Рассматриваются ее достоинства и недостатки Показано, что данная модель может быть с успехом использована для построения оптимизирующего самонастраивающегося алгоритма преобразования Для формирования этого алгоритма привлекаются методы динамического программирования, поскольку в контексте модели система преобразования данных представляет собой граф, в узлах которого находятся логические компоненты форматов, а ребра описываются таблицами преобразования данных

Таблицы преобразования данных представляют собой семантихо-синтаксические структуры, определяющие, как наиболее общие операции преобразования (объединение полей и отдельных лексем, выборка поля по его наполнению, контроль длин полей, разбиение полей и т п), так и вполне конкретные правила преобразования конкретных данных Приводится ряд нетривиальных правил для обработки данных наиболее общих типов - дат, ключевых слов, словарных и т п

Известно, что описательная документальная информация очень часто содержит такое количество разнообразных символов, которое не может быть представлено никакими кодировками стандартов ANSI или ISO В настоящее время такая информация представляется в кодировке UNICODE, однако большое количество ранее разработанных форматов данных используют другие, зачастую корпоративные способы кодирования специальных символов Одним из таких форматов является формат представления символов, разработанный в ВИНИТИ РАН На его примере рассматриваются вопросы сопоставления различных символьных алфавитов

Одним из наиболее важных аспектов при информационном поиске, напрямую влияющим на его точность, является отображение документов на инверсный или индексный файл Поскольку именно система преобразования данных используется, как предварительный этап в генерации инверсного файла, то исследуются вопросы построения данного отображения или «раздевания» слов

Описанные выше компоненты системы преобразования данных обеспечивают ее базовую функциональность - без них она просто не смогла бы работать В то же время в системе присутствуют компоненты, которые значительно повышают ее функциональность -сбор статистики и фильтрация данных

Первая компонента глубоко интегрирована в каждый шаг преобразования и дает возможность очень детально проанализировать входные и выходные данные с точки зрения размеров полей Таким образом, исследователю предоставляется мощный инструмент статистического анализа документальной информации Например, можно выявить такие характеристики массива, как гистограмма распределения количества семантически значимых слов в любом поле, процент ошибочных данных для полей с фиксированной структурой и так далее В качестве примера приводится детальная статистическая информация по одному из массивов документальной информации банка данных ВИНИТИ

Отдельной и очень важной компонентой системы преобразования данных является возможность фильтрации данных Эта возможность обеспечена простым встроенным языком обработки фильтров Безусловно, этот язык не обеспечивает полный контекстный поиск, однако он дает возможность отбора документов по довольно сложным запросам и реально используется для решения ряда задач оффлайновой обработки данных Заметим, что фильтры могут встраиваться на этапах чтения данных, их преобразования и записи раздельно

Общая внутренняя архитектура СПД состоит из ряда внешних конфигурационных и настроечных файлов, основного модуля преобразования данных и ряда модулей генерации баз данных

Одним из основных предназначений созданной системы преобразования данных является генерация баз данных для информационно-поисковой системы (ИПС)

Рассматривается структура и основные особенности разработанной ИПС Обобщенная архитектура ИПС приведена на рисунке 3 1

Показаны основные модули и взаимосвязи, определяющие в общих чертах реальную архитектуру ИПС Ряд модулей и взаимосвязей на рисунке не отображены, в частности, это модули, управляющие загрузкой, модификацией и удалением данных и т п

Описываются все составные компоненты информационно-поисковой системы В частности, большое внимание уделяется подходам к структуризации данных, оцениваются потенциальные скоростные и объемные характеристики баз данных

Представлена методика внутреннего преобразования данных, позволившая использовать возможности ИПС для построения современных распределенных систем

Рассматриваются различные модели взаимодействия созданной ИПС с разными языковыми средами, что дает возможность интеграции ее с программными комплексами всех уровней

Отдельное внимание уделено лексической компоненте ИПС, позволяющей учитывать морфологию русского языка при поиске, анализе запросов и иных ситуациях

ONLINE БОЪ Perl, PHP СБ КОМ

поиск поиск Оболочка

t t 1 t

Модуль поиска Модуль словаря Модуль доступа к данным

1 1 ' * - к

Ядро ИПС

к - 1' к - к

Доступ К хит-листам Доступ К словарю Доступ К данным

Статический словарь

Динамический словарь

АР1 ИПС

Модуль связи с СУБД

Рис 3 1 Общая архитектура информационно-поисковой системы

Оценивая в целом разработанную систему преобразования данных (СПД) и ИПС, можно сделать следующие выводы

а) созданная СПД позволяет обрабатывать большие объемы разнообразных документальных данных (в том числе и геоинформационных) для целей их использования в

ИПС и статистического анализа, эффективность СПД проверена при унификации представления архива БД ВИНИТИ (более 26 млн документов с 1981 года), представленных в различных физических и логических форматах,

б) созданная полнофункциональная ИПС может быть использована для работы с большими (до нескольких терабайт) массивами документальной информации Она является основной системой, обеспечивающей функционирование банка данных ВИНИТИ и используется, как базовая система хранения и поиска метаданных в науках о Земле в распределенной системе

Глава 4. Систематизация и мониторинг глобальных геоданных и создание универсального хранилища.

С помощью описанных в предыдущих главах ИПС, системы преобразования данных, протоколов передачи метаинформации можно создать сеть взаимодействующих порталов, предлагающих пользователю доступ к богатой документальной и иллюстративной информации Многие существующие в сети Интернет системы этим и ограничиваются Однако для специалистов в области наук о Земле существенную ценностью представляет информация, которую можно обрабатывать с помощью современных аналитических систем Эта информация включает в себя цифровые данные и знания о свойствах природной среды и об инфраструктуре Эта глава посвящена исследованию методов наполнения геоданными создаваемой распределенной информационно-аналитической системы

Рассматриваются основные мировые хранилища геоданных, отдельные порталы и сайты в сети Интернет Приводится их классификация по степени доступности и возможности их использования через специализированные прокси-сервисы в распределенной информационно-аналитической системе

Наиболее крупным хранилищем разнородных геоданных глобального характера является база данных и файловые хранилища американского геологического общества (U S Geological Survey, USGS, www uses gov ) Несмотря на свое название, эта база содержит не только геологическую информацию (она, как раз, касается в основном территории США), но и геофизическую, географическую и геохимическую информацию Кроме того, портал содержит в себе громадное количество ссылочных данных, позволяющих хоть как-то ориентироваться в море разнородных геоданных К сожалению, подавляющая часть информации в базе имеет описательный характер (статьи, отчеты) и, даже если в записи указано наличие картографических данных, то они имеют растровый характер (т е просто цифровые рисунки) Тем не менее, небольшая часть данных содержит точные сеточные и векторные слои геоданных, которые могут быть использованы в ГИС-системах

Вторым по значимости хранилищем геоданных можно считать мировую сеть центров данных в науках о Земле - WDCB (МЦЦ) Данные центры функционируют под эгидой Международного Совета по науке (МСН www icsu org ) и призваны обеспечивать ученых и специалистов всего мира общедоступной научной информации в различных областях знаний Несмотря на то, что они отчасти выполняют свое предназначение, форма предоставления данных меняется от центра к центру и, чаще всего, имеет либо растровый характер, либо слабо структурированное текстовое представление Последнее означает, что преобразование таких данных в формат, пригодный для использования в ГИС-системах аналитического типа, либо для любых других аналитических расчетов невозможно Тем не менее, некоторая часть данных предоставляется в исходном структурированном виде Так, МЦЦ по физике твердой Земли в Москве предоставляет доступ к оперативной сейсмологической информации, МЦЦ по геологии я геофязшсе моря в Боулдере, США, предоставляет доступ к самой разнообразной профильной информации

Нассматриваются вопросы разработки разнообразных методов использования конкретных существующих глобальных и локальных геоданных для создания универсального хранилища в рамках распределенной информационно-аналитической системы Общим для всех этих методов является то, что они предназначены для выборки данных по параметрам, задаваемым пользователем, и унификации их форматов

Первым методом является «регионализация» глобальных данных, что позволяет резко ограничить объем передаваемой в сети информации Причем, если для сеточных данных это делается просто «вырезанием» блока данных из бинарного файла, то для векторных данных с атрибутивной информацией алгоритм гораздо сложнее и требует привлечения методов вычислительной геометрии Далее рассмотрены вопросы хранения и доступа к следующим геоданным

а) глобальная модель топографии Земли,

б) глобальная карта гравитационных аномалий в свободном воздухе,

в) карта магнитных аномалий на территории бывшего СССР,

г) глобальная карта сейсмической опасности (пиковых ускорений),

д) мощность осадочного чехла Земли,

е) глобальная карта геологических разломов,

ж) векторная гидрография Европы и Азии (водные потоки и бассейны)

Поскольку все указанные данные являются относительно статичными и слабо параметризованными, то для хранения первичной информации по ним может использоваться любой узел (портал) распределенной системы

Второй метод обработки используется для геостатистической, географической и геологической информации Эта информация параметризована значительно больше Приведем несколько примеров глобальные данные о населенных пунктах (world gazetteer), каталог географических наименований и объектов, глобальный каталог полезных ископаемых По сути дела такие данные представляют собой не только и не столько картографическую информацию, но базы данных с большим количеством элементов данных и несколькими таблицами с установленными реляционными связями Для использования этих данных в распределенной системе предложено загружать их в СУБД какого-либо узла (портала) Для генерации региональной картографической информации на основе задаваемых пользователем параметров для использования в ГНС-системах и аналитических расчетах созданы алгоритмы генерации векторных данных с атрибутивной информацией по результатам выполнения SQL запросов В отдельных случаях требуется создание дополнительных таблиц для адаптации данных к использованию их российскими учеными и специалистами Последнее связано с тем, что подавляющее число указанных данных не содержат никакой кириллической информации, поскольку генерируется, как правило, в США В настоящий момент хранилище распределенной системы содержит следующие базы данных

а) зеркальную копию глобального каталога минеральных ресурсов (MRDS, Mineral Resources On-Line Spatial Data, http //mrdata uses gov ),

б) выдержку из глобального каталога географических наименований объектов Земли (Geographic Names Data Base, www nga nul )

в) базу данных по населенным пунктам Земли, собранную из различных источников (в том числе и по данным переписи населения России)

г) базу данных по историческим цунами (NGDC tsunami database, wwwnoaa.ngdc gov ) и некоторые другие, региональные базы данных

Третий подход к использованию глобальных геоданных предложен для случаев, когда критически важна оперативность информации Для этих случаев разработаны методы оперативного получения и преобразования геоданных без предварительной их загрузки в хранилище Фактически эти методы представляют собой специализированные прокси-серверы Два наиболее важных примера картографических слоев данного типа это

а) оперативный каталог землетрясений, генерируемый в США (NEIC, National Earthquake Information Center, http //neic usas gov ), данный каталог, несмотря на свое название, охватывает весь земной шар и дает информацию с задержкой не более 2 часов,

б) зеркальная копия оперативного каталога землетрясений в Обнинске, расположенная в ГЦ РАН (Мировой Центр Данных по физике твердой Земли), этот каталог ценен в первую

очередь тем, что дает значительно более полную информацию по территории России, чем каталог NEIC

И, наконец, последний, четвертый подход предлагается для доступа к геоданным стандарта WMS (OpenGIS консорциум) Хотя данные такого типа значительно менее ценны для аналитической обработки, чем указанные выше, поскольку представляют собой просто растровые изображения, тем не менее, их использование может быть весьма полезно при визуальном анализе К счастью, стандарт WMS полностью описывает протокол доступа к данным, так что в этом случае параметризационный диалог полностью строится на основе XSLT преобразования результатов запроса GetCapabilities к соответствующему серверу Введенные пользователем параметры затем используются для построения точного запроса к WMS серверу Сейчас в распредетенной системе доступны следующие WMS данные

а) глобальная карта залежей полезных ископаемых, включая карту геологических регионов (World Mineral Deposits Map, Канада, http //nlwis-smtel aar gc ca ),

б) карта разломов Земли, World Stress Map, карта ночных огней Земли (ГЦ РАН, Мировой Центр Данных по физике твердой Земли, http //grid wdcb ru),

в) геодинамический глобус, карта крупных и сверхкрупных месторождений, геологическая и геодинамические карты России (ГГМ РАН, http //earth iscc ru)

На основе проведенного анализа мировых хранилищ геоданных и оценки созданных методов предоставления геоданных в распределенной информационно-аналитической системе делаются следующие выводы

а) созданное универсальное хранилище геоданных может быть использовано, как базовая картографическая основа в географических, геофизических, геологических исследованиях,

б) разработанные методы преобразования геоданных достаточно универсальны, что позволяет значительно расширить состав типов и форматов ресурсов, доступных в распределенной информационно-аналитической системе

Глава 5. Исследование и разработка архитектуры распределенной информационно-аналитической системы и методов интеграции и анализа данных

В предыдущих главах были рассмотрены все основные составляющие компоненты распределенной информационно-аналитической системы Настоящая гчава посвящена созданию ее общей архитектуры и методов интеграции и анатиза данных

В общем виде архитектура представлена на рисунке 5 1

Рис 5 1 Общая архитектура распределенной информационно-аналитической системы

Реализованная архитектура системы является четырехзвенной

а) звено реальных reo данных или расчетных алгоритмов,

б) звено узлов (порталов) системы с собственными ИПС и базами метаданных,

в) звено интеграции метаданных и собственно геоданных,

г) звено клиента

Кроме этого, существует еще нетривиальная связь между пользователем и звеном интеграции, реализуемая ГИС-клиентами В реальности, в зависимости от решаемой задачи, последняя связь может бьпъ не задействована. Это происходит, например, в ситуации, когда

пользователь решает конкретную вычислитетьно сложную задачу в ГРИД-системе без передачи результатов расчетов в ГИС Важным обстоятельством является возможность интегрировать и персональные данные пользователя или приватные данные его организации без передачи их в сеть Интернет Таким образом, появляется возможность создания закрытых корпоративных геоинформационных систем, например, для федеральных органов государственной власти, таких как МВД или Министерство обороны

Физически, в настоящее время, звено интеграции данных, один из узлов системы и большая часть хранилища геоданных находится на сервере центрального портала системы, расположенном в ВИНИТИ РАН

Звено реальных геоданных обеспечивается, как показано в первой и четвертой главах либо коммерческими серверами, либо WMS серверами, либо хранилищем геоданных на центральном портале или других узлах и, наконец, персональными: или корпоративными данными пользователя Особняком на данном уровне стоят расчетные алгоритмы С точки зрения общей архитектуры они представляют собой специализированные серверы, которые, принимая на вход параметры и геоданные, выдают в качестве результата либо геоданные, либо иную цифровую информацию В настоящий момент реализована такая схема взаимодействия с серверами этого типа, при которой результатом расчетов является либо данные примитивных типов, либо геоданные

С точки зрения функциональности системы в целом, несмотря на очень сложную реализацию, звено узлов (порталов) является достаточно простым, поскольку его назначение отраничивается локальным поиском метаданных и передачей результатов поиска на следующее звено В настоящее время в центральном узле (Центральный портал, ВИНИТИ РАН) созданной распределенной информационно-аналитической системы для загрузки и поиска данных используется ИПС и СПД, описанные в третьей главе Именно этот узел обеспечивает полнофункциональный контекстный поиск, в то время, как узлы, испочьзующие стандартные возможности реляционных СУБД, не обеспечивают этого

Подробно рассматриваются различные уровни и методы интеграции геоданных для их последующей аналитической обработки

Первым уровнем интеграции данных является наличие подсистемы централизованного или распределенного поиска Подавляющее большинство реализованных в настоящее время распределенных геоинформационных систем этим и ограничивается, например такая сеть, как Geography Network, спонсируемая ESRI Безусловно, учитывая специфику ГИС данных, все системы позволяют визуализировать найденную информацию с помощью простых клиентских программ (базирующихся, как правило на Javascript) Важным аспектом на первом уровне интеграции является система сбора данных - инициируемая самой системой или инициируемая

пользователями системы При этом в реально действующих системах не используются автоматизированные методы отбора метаданных (crawlers) , поскольку это приводит к ее быстрому загрязнению Далее приводится обоснование отказа от инициируемой пользователем схемы пополнения в созданной системе

Второй уровень интеграции подразумевает наличие персонифицированных хранилищ данных Количество действующих систем такого рода крайне мало и все они требуют жесткой процедуры регистрации - либо неавтоматизированной вообще (GEON), либо полуавтоматизированной со всевозможными ограничениями (Geogiaphy Network) Этот уровень интеграции позволяет пользователю вести внутри системы свою собственную библиотеку метаданных

Третий уровень подразумевает объединение данных в проекты для последующей аналитической обработки Автору не удалось найти в сети Интернет реально действующих систем такого рода, кроме GEON Network, которая при этом работает крайне нестабильно На третьем уровне жизненно необходима жесткая типизация метаданных, поскольку именно она обеспечивает их корректное преобразование для включения в ГИС-проекты или иные аналитические расчеты

Отдельно обсуждаются различные аспекты аутентификации пользователя в системе и безопасность системы Наличие данных вопросов связано с наличием персонифицированного хранилища пользователя В настоящий момент реализована встроенная в используемую на центральном портале CMS (Content Management System) система аутентификации Данная система базируется на аутентификации в СУБД и, в принципе, является достаточно надежной, однако не подразумевает распределенности В дальнейшем предполагается перевод аутентификации на схему LDAP, хотя это и усложнит реализацию отдельных серверов распределенной информационно-аналитической системы

Показаны возможности системы для подготовки заданий по вычислительно трудоемким задачам анализа геоданных в ГРИД системах

В настоящий момент реализованы две схемы взаимодействия созданной информационно-аналитической системы и ГРИД Надо отметить, чгго в обоих случаях система взаимодействует с ГРИД не напрямую, а через своеобразных «брокеров» Задача системы сводится в данном случае к построению интерфейса «брокера» и фиксации задачи и ее состояния в персональном хранилище пользователя

В первой схеме тип данных для вычислительной задачи жестко зафиксирован условиями самой задачи и, таким образом, данные должны либо вводится пользователем, либо присутствовать в системе Безусловно, данная схема резко ограничивает возможности пользователя по использованию ГРИД Тем не менее, с помощью данной схемы была решена

задача по кластеризации массива геохимических анализов с Камчатки. На рисунке 5.2 приведена карта, полученная после обработки в ГРИД.

Рис. 5.2 Результаты кластерного ан&тиза

На рисунке отчетливо видны выделенные черным цветом аномальные зоны. Остальные данные массива выделены бельм цветом.

Вторая схема доступа к ГРИД реализована значительно более гибко - сама задача теперь представляет собой такой же ресурс, как и все остальные, но обладает специфическим вторичным XML файлом. Таким образом, пользователь может производить с задачей базовые операции по интеграции данных, т.е. искать задачи и помещать их в свое персональное хранилище. Специфическое описание ГРИД-задачи представляет собой по сути адрес «брокера», который переправит ее в ГРИД и будет следить за ее состоянием и описывает входные и выходные параметры. По запросу пользователя система автоматически строит интерфейс для ввода данных либо из персонального хранилища (для картографических слоев, баз данных и т.п.), либо прямо (для примитивных, типов данных).

Дальнейшая работа пользователя сводится к анализу состояния задачи, и получении результатов расчетов через гиперссылки. Состояние задачи также отражается в персональном хранилище.

Проведенный анализ созданной распределенной информационно-аналитической системы позволяет сделать следующие выводы

а) реализованная четырехзвенная архитектура системы дает возможность полноценного поиска, интеграции и анализа геоданных через сеть Интернет без привлечения настольных аналитических ГИС-систем,

б) полноценное функционирование системы требует значительного развития используемых аналитических ГИС-клиентов в части их более глубокой интеграции в систему -использование проектов, генерируемых системой, прямой обмен геоданными с системой и т п ,

в) система допускает легкое масштабирование и может быть значительно расширена, как в части добавления новых узлов (порталов), так и части расширения используемых геоданных,

г) для апробации системы необходимо привлечение ученых и специалистов в области наук о Земле с целью решения экспериментальных прикладных и фундаментальных задач

Глава 6 Апробация распределенной информационно-аналитической системы на примерах поддержки решения различных геологических и геофизических задач.

Рассматриваются вопросы модернизации существующей клиентской аналитической ГИС ГеоПроцессор для возможности ее полноценного использования в созданной информационно-аналитической системе и поддержки решения прикладных и фундаментальных задач в области наук о Земле

Безусловно, в классе апплетов, данная ГИС является одной из самых мощных в мире, поскольку позволяет не только визуализировать картографические данные, но и производить аналитические расчеты по этим данным Громадным преимуществом данной ГИС является возможность интеграции распределенных картографических слоев и, в том числе, расположенных на локальном компьютере пользователя К сожалению, изменения, обеспечивающие последнюю возможность были реализованы только в режиме апплета, в то время как все функции по сохранению результатов работы пользователя были реализованы только в режиме приложения К середине 2006 года стало очевидно, что без внесения глубоких изменений в код ГеоПроцессора невозможно обеспечить многие функции распределенной системы в целом Например, значительные трудности использования системы вызывались тем, что в режиме апплета было невозможно сохранить результаты аналитических расчетов любого рода

Поэтому было принято решение о развитии ГИС ГеоПроцессор в следующих основных направлениях

1) Создание в режиме апплета подсистемы сохранения результатов работы пользователя

Несмотря на кажущуюся простоту данной части программы, здесь существует ряд проблем, связанных с распределенной схемой хранения геоданных и возможным удаленным хранением самого ГИС-проекта Дополнительная сложность заключалась в необходимости сохранения информации, для которой в ГИС-проекте просто не было предусмотрено место

В настоящее время структура проекта полностью переведена в XML формат Причина здесь очевидна картографический слой (параметр) обладает не только URI источника (значение), но и рядом других отличительных особенностей, которые никак не укладываются в позиционную классическую схему Например, слой может обладать цветом, метаописанием, способом обработки, координатами, отличными от координат общего региона, своей картографической проекцией, своим датумом и т п

2) Создание полноценной схемы работы с векторной информацией, включая атрибутивную

К началу работ в ГеоПроцессоре отсутствовала и сама атрибутивная информация и какие-либо методы работы с ней, хотя эти компоненты жизненно необходимы для работы с векторными данными После того, как атрибутика была введена, потребовалось ввести полноценный аппарат для работы с ней Так как атрибутивная информация слоя представляет собой таблицу, то было естественно использовать для этого методы, используемые в реляционных СУБД Наиболее общим подходом в этой ситуации является применение языка SQL, а точнее его подмножества, описывающего синтаксис выражений Фактически с помощью этих выражений можно производить почти любые преобразования атрибутов, их генерацию, отбор объектов и т п

Часть программы, занимающаяся разбором выражений SQL и их вычислением явилась наиболее сложной частью всех модификаций ГеоПроцессора. Она базируется на двух составных элементах - синтаксическом анализаторе и вычислителе псевдокода

Синтаксический анализатор построен по схеме нисходящего анализа выражений подмножества языка SQL

Атрибутивная информация векторного слоя используется в программе в двух контекстах - визуализация и расчет Для визуализации атрибутивной информации в программу введен комплексный диалог для решения следующих задач отбор объектов векторного слоя, изменение цвета, толщины и типа линий отобранных объектов и расчет новых или изменение существующих атрибутов отобранных объектов Для модернизации или создания атрибутивной информации введен диалог, обеспечивающий сложные математические манипуляции, как с атрибутами объекта, так и сеточными слоями всей карты

3) Развитие подсистемы импорта и экспорта геоданных

Развитие данной подсистемы сводилось а) к решению относительно простой задачи импорта и экспорта распространенных форматов геоданных и была решена достаточно быстро и б) к решению сложной задачи изменения картографической проекции при печати и сохранении изображений

Все операции анализа ГИС ГеоПроцессор 2 0 сопровождаются интерактивной визуализацией Тесное взаимодействие методов аналитического и визуального исследований обеспечивает основу пространственного и пространственно-временного когнитивного моделирования, существенно упрощает понимание исследуемого материала и тем самым увеличивает эффективность получения решений

Описаны экспериментальные фундаментальные и прикладные задачи, решенные при поддержке системы с привлечением ученых и специалистов в предметных областях

• Оценка ущерба от землетрясений на Северном Кавказе

• Построение логических правил для анализа зон возможных очагов землетрясений Северного Кавказа

• Прогноз нефтегазовых месторождений в Западной Сибири

• Пространственная экстраполяция геофизических полей

Анализ введенных в ГИС-клиент «ГеоПроцессор» новых аналитических возможностей и методов взаимодействия с распределенной информационно-аналитической системой, а также исследование результатов решения экспериментальных прикладных и фундаментальных задач позволяют сделать следующие выводы

а) разработана новая версия сетевого ГИС-клиента «ГеоПроцессор», которая принципиально отличается от предыдущей Система поддерживает интеграцию и совместную обработку векторных, сеточных данных и растровых изображений, распределенных в телекоммуникационных сетях и на ПК пользователя,

б) показана эффективность информационного взаимодействия ГИС-клиента «ГеоПроцессор» со средствами интеграции данных системы,

в) показана эффективность ГИС-клиента «ГеоПроцессор» для решения широкого класса сложных задач пространственного прогноза по комплексу геолого-геофизических данных,

г) созданный развитый аналитический аппарат системы позволяет использовать ее для решения прогнозных задач, построения решающих правил и других важных геоинформационных задач без привлечения настольных ГИС-систем,

д) необходимо дальнейшее развитие аналитических возможностей системы для расширения круга решаемых задач, в том числе и вычислительно трудоемких

выводы

1 На базе разработанных протоколов обмена и структур представления метаинформации обеспечивается использование разнородных геоданных, использование аналитических методов и ГИС-систем для поддержки решения ряда фундаментальных и прикладных задач в области наук о Земле В рамках формируемого информационного поля создано представительное хранилище глобальных геоданных, обеспечивающее базовую картографическую основу конкретных геоинформационных проектов с возможностям ее аналитической обработки

2 Разработан и реализован информационно-поисковый комплекс, включающий в себе подсистему преобразования данных и информационно-поисковую систему с многоаспектной поддержкой больших документальных массивов информации, с полноценным контекстным поиском и поддержкой морфологии русского языка.

3 Разработаны методы и алгоритмы интеграции преобразования геоданных для целей их аналитической обработки Основные принципы и методы интеграции разнородных геоданных и их аналитической обработки позволяют построить реальный мост между профильными специалистами и современными ГИС и ГРИД технологиями

4 Создана распределенная информационно-аналитическая система по наукам о Земле, дающая мощную поддержку ученым и специалистам в решении фундаментальных и прикладных задач

5 Опытным путем показана эффективность системы на примерах поддержки решения экспериментальных фундаментальных и прикладных геологических и геофизических задач

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ изложены в следующих публикациях

1 Леонтьева Т М, Шогин А Н Разработка элементов распределенной схемы хранения и представления в режиме он-лайн гипермедиа информации //НТИ-97 3-я Международная конференция «Информационные ресурсы Интеграция Технология» Тез докладов, - М, ВИНИТИ, 26-28 ноября 1997 - С 145-146

2 Арский Ю М, Леонтьева Т М , Шогин А Н Создание инфраструктуры многоуровневой интеграции разнородных данных //НТИ Сер 2 -М, ВИНИТИ, 1997 -№2-С 18-20

3 Арский Ю М, Леонтьева Т М, Шогин А Н Современные интернет - интранет технологии в распределенной системе серверов баз данных ВИНИТИ //НТИ-99 4 -я Международная конференция «Интеграция Информационные технологии Телекоммуникации» Тез докладов, - М , ВИНИТИ, 17-19 марта 1999 - С 133 - 134

4 Арский ЮМ, Леонтьева ТМ, Шогин АН WWW сервер ВИНИТИ - задачи и направления развития //НТИ Сер 1 -М, ВИНИТИ, 1998 - № 1 - С 16-19

5 Леонтьева Т M, Шогин А Н, Банк данных ВИНИТИ сегодня и завтра. НТИ-2000 5-я Международная конференция «Информационное общество Информационные ресурсы и технологии Телекоммуникации» Тез Докладов, - M ВИНИТИ, 22-24 ноября 2000 - С 208-210

6 Егоров В С , Леонтьева Т M , Шогин А H База данных ВИНИТИ и ее использование в сети Internet и на CD //НТИ-2002 б-я Международная конференция, посвященная 50-летию ВИНИТИ «Информационное общество Интеллектуальная обработка информации Информационные технологии» - M ВИНИТИ, 16-18 октября 2002 - С 129-130

7 Леонтьева Т M , Рудакова А В , Шогин AHO новых услугах для пользователей Банка данных ВИНИТИ и средства их реализации //НТИ Сер 1 - M, ВИНИТИ, 2005 - № 2 -С 24-29

8 Арский Ю M, Леонтьева Т M, Никольская И Ю, Шогин А H Банк данных ВИНИТИ Состояние и перспективы развития - M ВИНИТИ, 2006 - 242с

9 ЮМ Арский, В Г Гитис, А.Н Шогин Электронная Земля - сетевая среда поиска, интеграции и анализа геоданных «Смирновские чтения - 2007», МГУ, геологический факультет М.2007

10 Ю Арский, А Шопш, А Веселовский, В Гитис Электронная Земля - Сетевая среда поиска, интеграции и анализа геоданных //Международная конференция «50-летие Международного геофизического года и Электронный Геофизический год» Тез докладов, - Суздаль, 16-19 сентября 2007

11 Гитис В Г, Шогин А H Сетевая геоинформационная технология комплексного анализа и прогнозирования «Математические методы распознавания образов - 13» -Ленинградская обл - 30 сентября-6 октября 2007

12 Шогин АН Сетевые интеллектуальные геоинформационные системы //7-я Международная конференция НТИ-2007 «Информационное общество Интеллектуальная обработка информации Информационные технологии» Тез докладов, - M, ВИНИТИ, 23-26 октября 2007

13 Yuryi Arskyi, Valéry Gitis, Alexei Shogin Distributed Geomformation Environment For Data Exploration In Earth Sciences «Геоинформационные системы в геологии и науках о Земле», Queretaro, Mexico, 2007

14 Gitis Valen, Yuri Arsky, Alexei Shogin, Arkady Weinstock Network geomformation environment for the analysis of spatial and spatio-temporal data «International Union for Geophysics and Geodesy (IUGG) XXIV General Assembly», July 2-13, 2007, Perugia, ITALY

Подписано к печати 08 09.2008 г

Тираж 100 экз Заказ 107 Объем 1,0 уч -изд л

ВИНИТИ РАН 125190, г Москва, ул. Усиевича, д 20

Оглавление автор диссертации — кандидата технических наук Шогин, Алексей Николаевич

Введение.

Глава 1. Анализ существующих распределенных геоинформационных систем и стандартов геоданных.

1.1.Краткая история развития геоинформационных систем, стандартов и протоколов.

1.2 Сравнительный анализ существующих отечественных и зарубеэюных распределенных геоинформационных систем.

Глава 2. Исследование и разработка структур представления метаданных и протоколов обмена информацией в распределенной информационно-аналитической системе.

2.1 Существующие стандарты метаданных в геоинформатике.

2.2 Создания структуры представления метаданных для узлов распределенной системы.\.

Глава 3. Система преобразования данных и информационно-поисковая система.

3.1 Система преобразования данных.

3.2 Информационно-поисковая система — общая архитектура.

3.3 Составные компоненты информационно-поисковой системы.

Глава 4. Систематизация и мониторинг глобальных геоданных и создание универсального хранилища.

4.1 Основные мировые хранилища геоданных.

4.2 Разработка методов использования существующих геоданных в распределенной системе.

Глава 5. Исследование и разработка архитектуры распределенной информационно-аналитической системы и методов интеграции и анализа данных.

5.1 Общая архитектура распределенной информационно-аналитической системы\

5.2 Уровни и методы интеграции геоданных для аналитической обработки.

5.3 Возмоэюности системы для подготовки заданий анализа геоданных в ГРИД.

Глава 6. Апробация распределенной информационно-аналитической системы на примерах поддержки решения различных геологических и геофизических задач.

6.1 Модернизация существующей клиентской аналитической ГИС ГеоПроцессор

6.2 Решение фундаментальных и прикладных задач в распределенной системе.

Введение 2008 год, диссертация по документальной информации, Шогин, Алексей Николаевич

Актуальность работы. В настоящее время информационная составляющая в науках о Земле представляет собой громадный, распределенный в сети Интернет, массив данных самого разнообразного характера и формы представления — метаданные, базы и банки данных, картографические слои разного типа, геоинформационные системы, аналитические и расчетные методы. В связи с этим при выполнении исследований специалист вынужден использовать не только те данные, которые имеются у него, но и элементы всей накопленной информации. Однако реальная разнородность всех указанных данных приводит к тому, что значительную часть времени при исследованиях занимает работа, не связанная с предметной областью - как правило, это поиск информации, методов ее обработки и преобразования данных. Это фактически является задачей в области информационных технологий и ведет к значительному росту трудовых и экономических затрат. В результате в последние годы наблюдается бурный рост систем, позволяющих с помощью сети Интернет частично решить эту задачу. К сожалению, эти системы в настоящее время позволяют исследователю работать либо с визуальным представлением распределенной в сети Интернет глобальной картографической информацией, либо с отдельными комплексными геоинформационными системам регионов (по большей части в США, Канаде и Австралии), либо с поисковыми системами метаданных. При этом, даже наиболее мощные системы не позволяют: а) производить аналитические преобразования геоданных и б) использовать персональные данные и методы пользователя без предварительного размещения их в сети Интернет. Таким образом, любая аналитическая обработка распределенных (в том числе личных) данных, как с помощью геоинформационных систем, так и в ГРИД (GRID - англ. сетка) системах, остаются вне поля действия существующих систем в науках о Земле.

Известно, что для крупных информационных систем характерен явно недостаточный уровень вторичной аналитической обработки данных. В связи с этим актуальным является создание систем, обеспечивающих интеграцию и аналитическую онлайновую обработку информацию из сети Интернет и имеющихся материалов пользователя.

Целью настоящей работы является развитие методов и средств, обеспечивающих максимально эффективное использование информации в сети Интернет, имеющуюся у конкретных разработчиков, ведущих исследования в области наук о Земле. Создаваемая распределенная геоинформационная система должна формировать персонифицированное информационное пространство пользователя, поддерживать интеграцию локальных и распределенных в сети Интернет ресурсов, включая возможность работы с ГРИД системами, а также обеспечивать использование наиболее распространенных форматов данных и существующих геоинформационных систем. Для достижения этой цели были поставлены следующие задачи:

Задачи исследования:

1. Разработка способов унификации представления данных и протоколов обмена метаинформацией о различных типах геоданных.

2. Разработка универсальной настраиваемой системы сбора, анализа, преобразования и поиска документальных данных в распределенной среде.

3. Разработка методов и алгоритмов интеграции геоданных с последующей их аналитической обработкой в геоинформационных и ГРИД системах.

4. Экспериментальная апробация системы на примерах поддержки решения различных геологических и геофизических задач.

Научная новизна работы.

В результате проведенных исследований предложена информационно-аналитическая система, обеспечивающая специалистам в области наук о Земле онлайновую компьютерную поддержку решения фундаментальных и прикладных задач.

Система использует новую двухуровневую схему метаданных, которая позволяет осуществлять гибкую настройку на задачи пользователя и использовать личные данные пользователя без передачи их в сеть Интернет.

Произведенная систематизация, мониторинг и преобразование геоданных позволили создать представительное хранилище глобальной бесплатной информации по наукам о Земле, доступное через одну точку входа в сети Интернет.

Научно-практическое значение.

Созданная распределенная информационно-аналитическая система была опробована для решения ряда экспериментальных задач: прогноз золоторудных месторождений на Камчатке, кластерный анализ геохимических данных на Камчатке с целью выявления возможных аномалий; региональный прогноз нефтегазовых месторождений в Западной Сибири, пространственный прогноз геофизических данных в Центральной Европе, анализ зон возможных очагов землетрясений и оценки ущерба от землетрясений на Северном Кавказе.

При личном участии диссертанта разработаны архитектура распределенной информационно-аналитической системы, структуры представления и протоколы обмена геометаданными в системе, универсальная настраиваемая система преобразования документальных данных, базовая информационно-поисковая система, методы и алгоритмы преобразования, интеграции и анализа геоданных при решении прикладных и фундаментальных задач. По результатам систематизации и мониторинга мировых геоданных в ВИНИТИ РАН и ряде других институтов РАН создано хранилище глобальной географической, геологической и геофизической информации. Реализованы сложные методы аналитической обработки геоданных в специализированной ГИС «Геопроцессор». Созданы методы и алгоритмы взаимодействия распределенной информационно-аналитической системы и ГРИД.

Апробация работы. Основные положения работы опубликованы в [7,8] и докладывались и обсуждались на крупных международных конференциях:

Смирновские чтения - 2007», МГУ, Геологический факультет, Москва, Россия;

International Union for Geophysics and Geodesy (IUGG) XXIV General Assembly», July 2-13, 2007,Perugia, ITALY; Network geoinformation environment for the analysis of spatial and spatio-temporal data //Gitis Valeri, Yuri Arsky, Alexei Shogin, Arkady Weinstock

50-летие Международного геофизического года и Электронный Геофизический год», 16-19 сентября 2007, Суздаль, Россия;

Математические методы распознавания образов - 13», 30 сентября - 6 октября 2007, Ленинградская обл., Россия;

Геоинформационные системы в геологии и науках о Земле», Queretaro, Mexico

2007;

7-я Международная конференция НТИ-2007. Информационное общество. Интеллектуальная обработка информации. Информационные технологии», ВИНИТИ, 2326 октября 2007, Москва, Россия; а также на заседаниях секций РАН и заседаниях Рабочей группы по проекту «Электронная Земля: научные информационные ресурсы и информационно-коммуникационные технологии».

По материалам диссертации опубликовано 14 работ, включая 1 монографию.

Структура и объем работы. Диссертация состоит из введения, шести глав, заключения, списка литературы, содержащего 58 источников, 6 приложений. Работа изложена на 150 страницах машинописного текста, иллюстрированного 32 рисунками и 3 таблицами.

Заключение диссертация на тему "Распределенная информационно-аналитическая система для поддержки исследований в науках о Земле"

Выводы: Вышеприведенный анализ существующих локальных и распределенных ГИС-систем и стандартов представления геоданных еще раз подтверждает вывод, сделанный во введении, о предельной актуальности систем, обеспечивающих специалистов полной информационной и, главное, аналитической поддержкой в распределенном поле ресурсов, и в частности, ресурсов по наукам о Земле.

Глава 2. Исследование и разработка структур представления метаданных и протоколов обмена информацией в распределенной информационно-аналитической системе.

2.1 Существующие стандарты метаданных в геоинформатике

Одной из основных информационных компонент любой геоинформационной системы, в том числе и распределенной, является база метаданных, которая обеспечивает поиск и извлечение как документальной, так и цифровой информации.

На сегодняшний день наиболее перспективным и общеупотребительным набором элементов для создания метаданных (не только в геоинформатике) является набор, создаваемый уже в течение нескольких лет международной группой «The Dublin Core initiative»(hUp://dublincore.org/). Этот набор называется «Dublin Core Metadata Element» (DC) и состоит из 15 элементов. Компактность и гибкость формата DC позволяет использовать его для описания ресурсов в системах различной степени сложности — от простых систем, предоставляющих пользователю минимальный набор атрибутов, описывающих ресурс (например, название публикации, авторов и год издания), до сложных, хранящих данные о различных аспектах создания и существования ресурса. Подавляющее число стандартов метаданных принятых и разрабатываемых в настоящее время в той или иной степени используют DC.

Поскольку исторически первыми были ГИС, созданные в США, то и разработки в области стандартизации метаданных в геоинформатики начались там же. В результате широких дискуссий среди специалистов в области наук о Земле в 1994 году был принят и 1998 году обновлен Content Standard for Digital Geospatial Metadata (Стандарт содержания метаданных цифровой геопространственной информации). Инициатором данного стандарта был Федеральный комитет США по географическим данным (FGDC: http://www.fgdc.gov/ ), поэтому данный стандарт и называется чаще всего FGDC. Данный стандарт применяется в Канаде и Великобритании через национальную инфраструктуру географических данных (NGDF, в настоящее время AGI), а также используется в поисковых системах ЮАР, в сетях обмена данными в Латинской Америке и в Азии. Общее количество примитивных и составных элементов - 324, большая часть из которых представляют фактографическую информацию - около 300.

В Европе аналогичный стандарт разрабатывался с 1991 до 1998 год, в котором была принята только предварительная его версия. Официальное его название «ENV 12657:1998 Géographie information - Data description — Metadata», но чаще всего его называют просто CEN (European Committee for Standardization). Функционально данный стандарт эквивалентен стандарту FGDC, однако существует ряд различий в отдельных элементах. Подкомитет ТС 287 возобновил свою работу в 2003 году для разработки европейских вариантов стандартов ISO ТС 211. Ряд национальных и региональных инициатив был также посвящен созданию стандартов метаданных. К их числу относятся проект для Австралии и Новой Зеландией под эгидой межправительственного совета ANZLIC и два уже завершенных проекта (LaClef и ESMI), которые финансировались европейским сообществом, и результаты которых уже используются в проекте INSPIRE. Во всех этих проектах применялись аналогичные подходы к определению необходимого состава метаданных, призванных обеспечить, как минимум, повысить уровень информирования о наличии и доступности ресурсов геопространственных данных. Особенностью же их явилось стремление минимизировать и упростить процедуру генерации метаданных.

Естественно, ISO (International Standard Organization) не осталась в стороне от усилий США и ЕС в разработке стандартов метаданных в науках о Земле и, как результат, в 2003 году был принят международный стандарт ISO-19115 и проект стандарта ISO-19119. Эти стандарты создавались на основе мнений и предложений от национальных агентств и опыта использования ими различных стандартов метаданных и программ для создания метаданных. В них учитываются большинство различных уже действующих стандартов. ISO 19115 содержит описание только логической модели организации геопространственных метаданных. Проект ISO 19139 стандартизирует физическую структуру метаданных стандарта ISO 19115 и логическую модель UML по стандарту ISO 19115.

Метаданные также являются важной частью технических требований, разрабатываемых консорциумом OpenGIS, который тесно сотрудничает для этого и с FGDC и с CEN. Для проекта "OpenGIS Abstract Specification" этого консорциума частично принят стандарт ISO 19115 в качестве абстрактной модели управления метаданными.

Все разработки в области стандартизации в конечном итоге направлены на использование метаданных для поиска нужной информации. Другими словами, они должны давать возможность установить, насколько найденные данные отвечают требованиям задачи, которую пользователь должен решать, и содержат ли они ссылки на другие, более детальные информационные ресурсы, т.к. часто встречаются ситуации, когда после обнаружения нужного информационного ресурса выясняется, что необходимы более подробные метаданные.

Все основные принципы были разработаны с учетом важности максимально информативных метаданных, необходимых для общей организации данных, - поэтому практически все организации заинтересованы в принятии стандартов ISO для метаданных.

Несмотря на то, что все три принятых стандарта функционально эквивалентны, между ними существует ряд принципиальных различий.

1. Стандарты ISO и CEN формализованы в гораздо большей степени, чем FGDC; это означает, в частности, наличие формальных UML (Universal Modeling Language) описаний для них. С точки зрения создания приложений для манипулирования данными это является безусловным плюсом, но для создателя метаописаний в этой ситуации требуется создание сложных приложений для их ввода и верификации. Проще выражаясь, стандарт FGDC гораздо более понятен для неспециалиста в области информационных технологий, чем ISO и CEN. Это является основной причиной, по которой количество метаданных в стандарте FGDC на порядок превышает количество метаданных в конкурирующих стандартах.

2. Наличие типизации (классификации) ресурса является обязательным для стандарта ISO и не является таковым для конкурирующих стандартов. Если быть более точным, то FGDC все же предполагает обязательное наличие типизации по тезаурусу, но использование такой типизации в задачах вторичной аналитической обработки метаданных представляется сомнительным.

3. Существенно отличаются и ссылочные элементы метаданных: если для стандарта CEN они в большинстве необязательные и представляют собой произвольный текст (free text), то для FGDC и ISO большинство этих полей обязательно и жестко структурировано.

В заключение приведем таблицу, показывающую обязательность некоторых содержательных элементов данных (в том числе входящих в Dublin Core) в описанных стандартах (табл. 2.1):

Заключение

1. На базе разработанных протоколов обмена и структур представления метаинформации обеспечивается использование разнородных геоданных, использование аналитических методов и ГИС-систем для поддержки решения ряда фундаментальных и прикладных задач в области наук о Земле. В рамках формируемого информационного поля создано представительное хранилище глобальных геоданных, обеспечивающее базовую картографическую основу конкретных геоинформационных проектов с возможностям ее аналитической обработки.

2. Разработан и реализован информационно-поисковый комплекс, включающий в себе подсистему преобразования данных и информационно-поисковую систему с многоаспектной поддержкой больших документальных массивов информации, с полноценным контекстным поиском и поддержкой морфологии русского языка.

3. Разработаны методы и алгоритмы интеграции преобразования геоданных для целей их аналитической обработки. Основные принципы и методы интеграции разнородных геоданных и их аналитической обработки позволяют построить реальный мост между профильными специалистами и современными ГИС и ГРИД технологиями.

4. Создана распределенная информационно-аналитическая система по наукам о Земле, дающая мощную поддержку ученым и специалистам в решении фундаментальных и прикладных задач.

5. Опытным путем показана эффективность системы на примерах поддержки решения экспериментальных фундаментальных и прикладных геологических и геофизических задач.

Библиография Шогин, Алексей Николаевич, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Арский Ю.М., Гитис В.Г., Шогин А.Н. Электронная Земля сетевая среда поиска, интеграции и анализа геоданных. "Смирновские чтения - 2007", МГУ, геологический факультет. М., 2007.

2. Арский Ю.М., Леонтьева Т.М., Никольская И.Ю., Шогин А.Н. Банк данных ВИНИТИ: Состояние и перспективы развития. М.: ВИНИТИ, 2006. - 242с.

3. Арский Ю.М., Леонтьева Т.М., Шогин А.Н. WWW сервер ВИНИТИ задачи и направления развития. //НТИ. Сер. 1. - М., ВИНИТИ, 1998 - № 1 - С.16-19.

4. Арский Ю.М., Леонтьева Т.М., Шогин А.Н. Создание инфраструктуры многоуровневой интеграции разнородных данных. //НТИ. Сер. 2. М., ВИНИТИ, 1997.-№ 2-С. 18-20

5. Беляков С. Л. Распределение функций между клиентом и сервером ГИС Системы и средства информат. 2004, N 14, с. 131-143, 364, 4 ил. Библ. 5. Рус.

6. Веселовский А. В., Микляев В. И. Национальная информационная система по особо охраняемым природным территориям России Использ. и охрана природ, ресурсов России. Бюл. 2000, N 7, с. 67-72. Библ. 6. Рус.

7. Гитис В.Г., Ермаков Б.В. Основы пространственно-временного прогнозирования в геоинформатике // М., ФИЗМАТЛИТ, 2004. 256 С.

8. Гитис В. Г., Шогин А. Н. Сетевая геоинформационная технология комплексного анализа и прогнозирования. "Математические методы распознавания образов 13". - Ленинградская обл. - 30 сентября-6 октября 2007

9. Егоров B.C., Леонтьева Т.М., Шогин А.Н. База данных ВИНИТИ и ее использование в сети Internet и на CD. //НТИ-2002: 6-я Международная конференция, посвященная 50-летию ВИНИТИ. "Информационное общество.

10. Интеллектуальная обработка информации. Информационные технологии". М.: ВИНИТИ, 16-18 октября 2002. - С. 129-130.

11. Зализняк A.A. Грамматический словарь русского языка. М.: Русский язык, 1980

12. Левин Б. А., Коугия В. А., Матвеев С. И. Геоинформационная система на железной дороге Геодезисть. 2002, N 1, с. 8-11. Рус.

13. Леонтьева Т.М., Рудикова A.B., Шогин А.Н. О новых услугах для пользователей Банка данных ВИНИТИ и средства их реализации. //НТИ. Сер. 1. М., ВИНИТИ, 2005. - № 2,- С. 24-29.

14. Леонтьева Т.М., Шогин А.Н,. Банк данных ВИНИТИ сегодня и завтра. НТИ-2000: 5-я Международная конференция "Информационное общество. Информационные ресурсы и технологии. Телекоммуникации". Тез. Докладов, М: ВИНИТИ, 22-24 ноября 2000. - С. 208-210.

15. Морозов А. Ф., Межеловский Н. В., Килипко В. А. Концепция и основные направления стратегии развития информационного обеспечения деятельности Роснедра Разведка и охрана недр. 2006, N 1, с. 22-30. Рус.

16. Прохоров A.A., Андрюсенко В.В., Веретенникова Ю.В., Дерусова О.В., Обухова Е.Л., Шредере М.А. Аналитические возможности информационно-аналитической системы по коллекционным фондам ботанических садов Hortus bot. 2005, N 2, с. 65-79. Рус.; рез. англ.

17. Пястунович О. Л. Интеграция геоинформационных систем и Интернет-технологий Сборник трудов Научной сессии ИУУ СО РАН (молодежная секция), Кемерово, 2006. Кемерово: ИУУ СО РАН. 2006, с. 70-73, 2 ил. Рус.

18. Цыганов В. А. ( ГНПП "Аэрогеофизика" ) Вопросы надежности компьютерного обеспечения геолого-поисковых систем: Постановка проблемы Инф. бюл. ГИС-Ассоц. 2000, N 1, с. 30-31, 1. Библ. 3. Рус.

19. Чесалов Jl. Е., Блискавицкий А. А., Аракчеев Д. Б. Информационно-аналитическое обеспечение рационального природопользования М.: Изд-во ВНИИГеосистем. 2005, 184 е., ил. Библ. 125. Рус.

20. Шогин А.Н. Сетевые интеллектуальные геоинформационные системы. //7-я Международная конференция НТИ-2007. "Информационное общество. Интеллектуальная обработка информации. Информационные технологии". Тез. докладов, М., ВИНИТИ, 23-26 октября 2007.

21. Bonnici A., Web GIS Software Comparison Framework,. Draft, 25 October 2005, http://www.webGisdev.com/webgisframework.pdf

22. Gong Jianya Проектирование и создание Интернет-ГИС. Design and implementation of an Internet GIS Diqiu kongjian xinxi kexue xuebao=Geo-spat. Inf. Sei. 2001. 4, N 2, с. 1-7, 5. Библ. 22. Англ.

23. Goodchild Michael F. Картографическое будущее Цифровой Земли. Cartographic futures on a Digital Earth 19th Int. Cartogr. Conf. and 11th Gen. Assem. ICA, Ottawa, 1999: Proc. Vol. 1. Touch the Past. Visualize the Future. Ottawa. 1999, c. 5-13. Англ.

24. Muller Dominik Исследования результатов, полученных по измерениям EGNOS в ходе испытаний. Untersuchungen zu EGNOS Ergebnisse von Messungen wahrend der Testphase Allg. Vermess.-Nachr. 2005. 112, N 5, c. 177-181. Нем.; рез. англ.

25. Stoimenov Leonid, Dordevic-Kajan Slobodanka Подход к семантической организации взаимодействия в ГИС. Framework for semantic GIS interoperability Facta Univ. Ser. Math, and Inf. Univ. Nis. 2002, N 17, c. 107-125. Библ. 33. Англ.

26. Sumrada Rados (University of Ljublyana, Slovenia) Среда. распределенных приложений для ГИС. Towards distributed application of GIS technology GIM Int. 2002. 16, N 7, c. 40-41, 43, 4 ил. Англ.

27. Trifunac, M.D. and Brady, A.G. On the correlation of seismic intensity with peaks of recorded strong ground motion//Bull. Seismol. Soc. Amer., 65. 1975. 139-162.

28. Van de Crommert P., Langelaan F., Van Winden J. (Geodan IT, the Netherlands) Веб-сервисы OGC в действии. OGC web services in action Ned. Commiss. Geod. (NCG).Publ.. 2004, N 42, c. 67-80, 8 ил. Библ. 9. Англ.

29. Willkomm Philipp Взаимодействие географических информационных систем на основе Web-служб OpenGIS. Interoperabilität auf der Basis von OpenGIS-Web-Services Allg. Vermess.-Nachr. 2004. 111, N 7, c. 259-263. Нем.

30. Xu Zhu, Lee Y. С. Интеграция данных и способность к семантическому взаимодействию. Сетевая ГИС. Geodata integration and semantic interoperability. Network-enabling GIS GIM Int. 2002. 16, N 11, c. 35-37. Англ.

31. Yuryi Arskyi, Valery Gitis, Alexei Shogin. Distributed Geoinformation Environment For Data Exploration In Earth Sciences. "Геоинформационные системы в геологии и науках о Земле", Queretaro, Mexico, 2007.

32. Zhou Guo-yi Обсуждение распределенных ГИС Cehui kexue=Sci. Surv. and Mapping. 2003. 28, N 3, c. 43-45, iii, 2 ил. Библ. 6. Кит.; рез. англ.