автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Исследование, разработка и поддержка орнитологических баз данных

кандидата технических наук
Морозов, Юрий Германович
город
Санкт-Петербург
год
1996
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Исследование, разработка и поддержка орнитологических баз данных»

Автореферат диссертации по теме "Исследование, разработка и поддержка орнитологических баз данных"

РОССИЙСКАЯ АКАДЕМИЯ НАУК ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ им.А.Ф.ИОФФЕ

> | 3 ti,

(„ . , , •• 11а правах рукописи

МОРОЗОВ Юрий Германович

ИССЛЕДОВАНИЕ, РАЗРАБОТКА И ПОДДЕРЖКА ОРНИТОЛОГИЧЕСКИХ БАЗ ДАННЫХ.

05.13.16-прнмеиение вычислительной техники, математического моделирования и математических методов в научных исследованиях

АВТОРЕФЕ PAT диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург -1996

Работа выполнена в Физико-техническом институте им. А.Ф.Иоффе РАН.

Научный руководитель: доктор физико-математических наук Э.А.Тропп

Официальные оппоненты: доктор физико-математических наук В.Г. Горшков

кандидат физико-математических наук Ф.А. Новиков

Ведущая организация - Санкт-Петербургский технический университет.

Защита диссертации состоится. " Ар ии&ЦХ. 1996г. в ¿£'шс. на заседании диссертационного совета Д.003.62.01 при Санкт - Петербургском институте информатики и автоматизации РАН по адресу: Санкт - Петербург, 14 линия В.О. дом 39.

С диссертацией можно ознакомиться в библиотеке диссертационного совета.

Автореферат разослан Л_"_____1996 г.

Ученый секретарь диссертационного совета

Копыльцов А. В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.

Актуальность гемы работы. С начала текущего столетия одним из главных методов , обеспечивших развитие орнитологии, постановку и решение ею задач, недоступных для других зоологических наук , было индивидуальное мечение (кольцевание), отлавливаемых в природе и вновь отпускаемых птиц. Повторные отловы или находки эшх индивидуально меченых птиц дают очень точную информацию об изменении численности, демографической структуре популяции, миграциях, ориентации, навигации и т.п. вопросов. Отлов и кольцевание птиц сопровождается их прижизненным обследованием проводимым как визуально, так и с применением инструментария, порой весьма сложного.

Эти данные сами по себе служат материалом для дальнейшего анализа, который может производиться многократно для решения различных задач. Характер получаемого материала и общее развитие теории таково, что основными методами обработки могут служить только статистические методы, основанные на использовании достаточно большого количества данных, что, естественно, определяет большую трудоемкость научного процесса.

Особую ценность имеет многолетний мониторинг состояния популяций и происходящих в них изменений, реализация которого на современном уровне практически невозможна без использования технических средств.

С точки зрения использования компьютерных технологий орнитологические исследования являются безусловно весьма перспективными, особенно, если учесть тог факт, что ежегодно в мире отлавливаются и кольцуются порядка миллиона птиц, а орнитологические полевые журналы содержат данные о десятках миллионах птиц. Вся эта масса информации не может быть эффективно использована без применения современных компьютерных технологий.

Существенным является и тот факт, что значительная часть орнитологических исследований принципиально не может носить географически-локальный характер, а значит необходим эффективный механизм обмена информацией между различными научными организациями в международном масштабе, который не может быть реализован без внедрения современных компьютерных технологий.

Естественно, подобные проблемы характерны не только для орнитологии, но и для ряда других областей естественнонаучных исследований.

Целыо настоящей диссертации является разработка программного обеспечения для поддержки естественнонаучных (в частности, орнитологических) баз данных и его приложении для реализации орнитологических баз данных .

Научная новизна работы состоит в разработке новой концепции реализации СУБД для поддержки естественнонаучных баз данных и разработке на основе этой концепции СУБД "АРХИМЕД", предназначенной для поддержки естественнонаучных баз данных.

Практическая значимость: Разработанное программное обеспечение позволило эффективно реализовать базу данных Биологической станции ЗИИ РАН и тем самым существенно повысить уровень и качество проводимых научных исследований. Результаты, полученные в диссертации, могут быть использованы в Центре кольцевания РАН, на многочисленных биологических станциях, проводящих научные наблюдения , а также в научных учреждениях не связанными с биологической тематикой.

Основные научные положения, выносимые на защиту:

1) На основе анализа специфических свойств естественнонаучной информации разработана концепция реализации программного обеспечения для поддгржки естественнонаучных(в частности, орнитологических) баз данных, содержащая следующие новые элементы:

а)новый способ структурирования хранимой информационной записи, позволяющий достичь высокой степени оптимальности по памяти;

1>)странично - индексная структура информационного файла и гибкий способ доступа к информации; показано, что такой способ доступа обеспечивает большую оптимальность, чем те, которые обычно используются ;

с)сисгема контроля входных данных , имеющая универсальный характер и учитывающая не только свойства отдельных атрибутов, но и статистические связи между ними;

(^структура интерфейса пользователя, учитывающая особенности работы с научной информацией;

е) способ взаимодействия базы данных с программами пользователя и внешней программной средой

2)Выше упомянутая концепция использована для разработки реляционг СУБД "АРХИМЕД" и создании с ее помощью орнитологической базы данных Биологической станции ЗИН РАН.

3)Разработан накег программ для обработки хранящийся в базе данных Биологической станции ЗИН РАН информации в интересах научных исследований

Апробации работы: Основные результаты диссертации докладывались на Всесоюзном совещании по экоинформатикс и экологическим Сазам данных, Москва 1987 г, на IX Всесоюзной орнитологической конференции, Москва 1986г, на международном семинаре "Базы данных и компьютерная графика в зоологических исследованиях ." С-Петербург 1994г., а также на научных семинарах в ФТИ им. А.Ф. Иоффе РАН и ЗИН РАН.

Публикации: Основные результаты диссертации опубликованы в работах (1-10).

Структура и объем диссертации.

Диссертация состоит из Введения, четырех глав, заключения и списка литературы включающего 52 наименования. Объем диссертации составляет 120 страниц, включая 113 страниц основного текста, 25 рисунков и 7 страницы списка литературы.

СОДЕРЖАНИЕ РАБОТЫ. Введение содержит обоснование актуальности темы исследования, изложение некоторых основополагающих утверждений, обзор литературы, описание структуры диссертации и основные научные утверждения, выносимые на защиту.

Первая глава содержит описание основных особенностей СУБД "АРХИМЕД", разработанной автором диссертации. Глава состоит из десяти параграфов. Первый параграф содержит описание структуры информационной записи, использугмой в СУБД "АРХИМЕД". В отличие от других аналогичных программных продуктов. СУБД "АРХИМЕД" использует записи произвольной длины и произвольного состава в рамках одного информационного файла , то есть отсутствует фиксация длины записи, фиксация длин полей, отводимых под отдельные атрибуты, и не фиксируется состав записи.

Структура записи может быть описана следующим образом: <запись>::=<обяз.поле>,<обяз.поле>,...<необ.поле>,<необ.поле>...; <обяз.поле>::=<значение атрибута> <необ.поле>::=<метка>:<значение атрибутам Показано, что такая форма информационной записи при построении естественнонаучных баз данных более полно учитывает специфику естественнонаучной (в частности, орнитологической) информации, что позволяет достичь существенной оптимизации создаваемой базы данных.

Кроме этого, в первом параграфе описаны еще два способа оптимизации естественнонаучных баз данных основанных на учете свойств естественнонаучной информации.

Первый способ заключается в использовании автоматического внутреннего кодирования значений атрибутов, а второй заключается в разработанном в диссертации способе записи групп однородных записей. На примере орнитологического материала показано, что все выше упомянутые новации приводят к существенной оптимизации создаваемой СУБД "АРХИМЕД" базы данных(на орнитологическом материале примерно в 10 раз) по сравнению, с другими СУБД.

Во втором параграфе описан реализованный в СУБД "АРХИМЕД" алгоритм контроля входных данных . Этот алгоритм также основан на учете специфических свойств естественнонаучной информации. В частности, значения атрибутов контролируются: по спискам допустимых значений, по интервалам допустимых значений и по заданным статистическим связям между значениями различных атрибутов. Реализованная система контроля входных данных является особенностью СУБД "АРХИМЕД" и существенно улучшает ее эксплуатационные качества.

В третьем параграфе описана структура информационного файла СУБД "АРХИМЕД" и способ доступа к записи.

В отличие от других СУБД , как правило, реализующих прямой доступ к записи, СУБД "АРХИМЕД" реализует комбинированный способ доступа по правилу: прямой доступ к странице -последовательный к записи. Если учесть , что длина страницы не фиксируется, то получается весьма гибкая система доступа. Действительно, при ситуации одна "страница-одна запись" реализуется прямой доступ к записи, а при ситуации один информационный "фай;т(том)-одна страница", последовательный доступ. Обычно же реализуется промежуточная ситуация, которая является наиболее оптимальной.

Структура информационного файла СУБД "АРХИМЕД" существенно отличается от информационных файлов других СУБД.

В четвертом параграфе описаны особенности проектирования естественнонаучных баз данных, реализуемых СУБД "АРХИМЕД". Эти особенности сводятся к тому, что все атрибуты делятся на обязательные и необязательные. Под обязательными атрибутами подразумеваются такие, значения которых определены во всех информационных записях базы данных, а необязательные атрибуты- это такие атрибугы, значения которых в отдельных записях могут быгь не определены. Такое деление атрибуте!1 на два класса является естественным для научной информации и позволяет избежать появления в информационной записи пустых полей, как это имеет место при эксплуатации других СУБД.

Кроме этого, при проектировании баз данных СУБД "АРХИМЕД" позволяет формировать списки допустимых значений атрибутов, списки допустимых интервалов для значений атрибутов и таблицы связей для значений атрибутов, что позволяет с одной стороны весьма эффективно контролировать входные данные, а с другой использовать внутреннее кодирование значений атрибутов, тем самым повышая оптимальность создаваемой базы данных.

В пятом параграфе обсуждается проблема оптимизации первичной загрузки базы данных. Показано, что использование непрямого режима загрузки и разработанного специализированного редактора позволяет существенно оптимизировать этот процесс, трудоемкость которого часто является основным препятствием при создании научных баз данных.

В шестом параграфе обсуждается проблема сортировки данных и ее реализация в СУБД "АРХИМЕД". Показано, что хотя эта проблема в рамках СУБД "АРХИМЕД" носит более существенный характер и имеет большую трудоемкость, чем в других СУБД (способ доступа, записи переменной длины), но тем не менее, благодаря использованию совершенных алгоритмов и их оптимальной, с точки зрения программирования, реааизации достаточно успешно решается.

В седьмом параграфе описана система разделения режимов работы, реализованная в СУБД "АРХИМЕД" и позволяющая при работе с СУБД избегать ошибок связанных с нарушением целостности и корректности базы данных.

В восьмом параграфе описан интерфейс пользователя и язык запросов СУБД "АРХИМЕД". Особенностью является то ,что СУБД не имеет своего собственного языка программирования, а может использовать любой из имеющихся в операционной системе языков программирования общего назначения. Причем, в отличие от других СУБД , при использовании универсальных языков дополнение их ЯМД (языком манипулирования данными) не требуется. Интерфейс пользователя, реализованный в СУБД 'АРХИМЕД' позволяет, кроме стандартных операций с данными, производить достаточно сложные виды статистической обработки данных без дополнительного программирования, а наличие оператора "CALL" позволяет обращаться к библиотечным подпрограммам и внешним программным средствам.

В девятом параграфе описана библиотека прикладных программ для работы с орнитологической базой данных. Библиотека включает более 40 программ, реализующих как рутинную обработку данных с целью получения стандартной документации, так и программы для осуществления сложной математической обработки.

Десятый параграф содержит описание адаптационных свойств СУБД "АРХИМЕД" . Показано , что СУБД легко адаптируется на широкий класс аппаратных и программных сред.

Вторая глава посвящена некоторым проблемам, возникающим при проектировании орнитологических баз данных и содержит описание базы данных Биологической станции ЗИН РАН.

Глава состоит из четырех параграфов.

В первом параграфе описана методика кольцевания и прижизненного обследования птиц.

Во втором параграфе описан проект и реализация базы данных Биологической станции ЗИН РАН.

Биологическая станция Зоологического института РАН является одним из самых крупных в мире научных центров осуществляющих кольцевание и наблюдение птиц .

Перечислим основные проблемы, исследуемые на станции:

- изучение сроков и путей миграций, мест гнездования и зимовок перелетных птиц путем массового кольцевания;

- изучение сезонных биологических циклов путем массового прижизненного анализа живых птиц в процессе отлова и кольцевания;

- изучение популяционно-демографического аспекта биологии птиц;

- изучение физиологии, энергетики, биохимии миграционного состояния птиц и других сезонных состояний;.

- изучение ориентации и навигации птиц;

- изучение эндогенной основы сезонных и суточных ритмов у перелетных птиц.

Все вышеуказанные проблемы могут серьезно изучаться только на достаточно обширном полевом материале. На Биологической станции ЗИН РАН ежегодно кольцуегся и обследуется от 40000 до 120000 птиц, а общее количество отловленных и обследованных птиц приближается к 2 миллионам.

В настоящее время наполнение базы данных Биологической станции ЗИН РАН в основном завершено, и происходит только естественное пополнение ее за счет нового полевого материала поступающего практически непрерывно.

База данных Биологической станции ЗИН РАН содержит сегодня данные нн^тюдений за период с 1956 по 1994 годы, что соответствует информации о более чем 1.5 миллионах обследованных птиц.

В этом параграфе рассмотрены также некоторые общие проблемы проектирования орнитологических баз данных.

В третьем параграфе рассмотрена проблема разбиения информационного пространства при работе с орнитологическими базами данных.

Четвертый параграф посвящен проблеме общего стандарта для орнитологических баз данных, так как отсутствие такового в настоящее время существенно затрудняет обмен информацией между научными центрами. Предложен и обоснован способ построения многоступенчатого стандарта для орнитологических баз данных.

Третья глава состоит из восьми параграфов и содержит описание программ, входящих в библиотеку прикладных программ СУБД "АРХИМЕД" и предназначенных для обработки орнитологической информации. В первом параграфе описан метод отбраковки аномальных точек, используемый в СУБД 'АРХИМЕД'. Этот метод был разработан автором Диссертации и опубликован ранее в [I]. Во втором и третьем параграфе описаны подпрограммы генерации стандартной документации, используемой в орнитологических научных, центрах ведущих кольцевание и прижизненное обследование птиц.

В четвертом параграфе описаны подпрограммы анализа изменения по времени возрастно - половой структуры популяций птиц в периоды сезонных миграции. Эти подпрограммы использовались для проведения расчетов при выполнении исследований по гранту ЗОИ00 Международного научного фонда Сороса (руководитель гранта д.б.н. В. А. Паевский ). Согласно выдвинутой В.А. Паевским гипотезе, анализ изменения по времени возрастно - половой структуры позволяет судить о влиянии экологических факторов на благополучие популяции тех или иных видов птиц. Проведенное исследование позволило подтвердить эту гипотезу, сделать выводы о степени благополучия популяций отдельных видов и определить степень влияния на них неблагоприятных экологических факторов.

В пятом и шестом параграфе описываются подпрограммы обработки данных по методу наименьших квадратов с использованием линейных и нелинейных теоретических моделей. Разработанные подпрограммы в настоящие время являются наиболее часто употребляемым инструментом в научных исследованиях проводимых, на Биологической станции ЗИН РАН.

В седьмом параграфе описан пакет подпрограмм, реализующим обширный набор методов неиараметрической статистики. Этот паке, подпрограмм был использован в научном исследовании, описанном в восьмом параграфе.

Проведение этого исследования было вызвано появлением в научной литературе гипотезы о хронологически монотонно убывающем характере изменения сроков весенней миграции у целого ряда видов мигрирующих птиц, связанном, как полагали авторы ряда работ, с глобальным потеплением . Проведенное автором диссертации (по инициативе д.б.н. Л.В.Соколова) исследование показало, что изменение сроков весенней миграции у ряда видов птиц зависит не от времени, а от среднемесячной температуры в период миграции и не носит •хронологически монотонного убывающего характера.

Четвертая глава содержит описание некоторых аспектов реализации и технические характеристики СУБД "АРХИМЕД".

В Заключении сформулированы основные результаты, полученные в диссертации:

1) Разработана концепция реализации естественнонаучных баз данных и программного обеспечения, предназначенного для их поддержки. Показано, что при реализации программного обеспечения для поддержки научных баз данных необходимо учитывать особенности естественнонаучной информации. В диссертации подробно исследованы эти особенности и на основе этого анализа сформулированы основные положения по реализации программного обеспечения.

2)На основе этих положений разработано и реализовано программное обеспечение для поддержки естественнонаучных (в частности, орнитологических) баз данных.

3)Реализована орнитологическая база данных Биологической станции ЗИН РАН. В настоящее время это одна из самых больших по объему орнитологических баз данных в мире.

4)Разработана библиотека прикладных программ, позволяющая проводить эффективную обработку орнитологических наблюдений загруженных в базу данных.

5)Совместно с сотрудниками Биологической станции ЗИН РАН проведен ряд научных исследований с использованием разработанного программного обеспечения и созданной базы данных:

a)проведено исследование влияния экологических факторов на благополучие популяций отдельных видов птиц путем анализа изменения по времени возрастно-половой структуры популяций (совместно сд.б.н. В.А. Паевским);

b) исследована и отвергнута гипотеза о смещении сроков весенней миграции некоторых видов птиц, якобы связанная с глобальным потеплением климата, вместо этого показано, что колебание по времен» сроков весенней миграции связано с колебаниями среднемесячной температуры в период весенней ^миграции (совместно с д.б.н. J1.B. Соколовым);

с) с использованием методов математического моделирования и статистического анализа исследован процесс временного изменения физиологических параметров (длина крыла, масса тела, жир) у нескольких видов ласточек в период весенней и осенней миграции, что позволило получить новые сведения о характере протекания физиологических процессов в период миграционной активности (работа выполнена совместно с к.б.н. Д.С. Люлеевой, результаты подготовлены к опубликованию);

с!) разработан новый метод отбраковки аномальных точек в экспериментальном материале и разработана подпрограмма реализующая его .

Основное содержание диссертации изложено в следующих работах:

1. Егоров В. А., Морозов Ю.Г.

Алгоритм удаления аномальных точек в экспериментальном материале при автоматизированной регистрации данных.

Автометрия 4, 1980.

2. Морозов Ю.Г., Ефремов В.Д.

Система управления базами данных "ЗООЛОГИЯ-80" для хранения и обработки на ЭВМ орнитологических данных. //Актуальные проблемы орнитологии. Москва, 1986.

3. Морозов Ю.Г., Ефремов В.Д.

Программное обеспечение для хранения и обработки орнитологических данных. Изучение птиц СССР их охрана и рациональное использование. Тезисы докладов Всесоюзного орнитологического общества и IX Всесоюзной орнитологической конференции. Москва 1986г.

4. Морозов Ю.Г'., Ефремов В.Д.

Проблемно-ориентированная СУБД "ЗООЛОГИЯ-80" и ее применение в орнитологии. Принципы и методы экоинформатики (Материалы Всесоюзного совещания по экоинформатике и экологическим базам данных, Москва 1987 г.)

5. Морозов Ю.Г., Ефремов В.Д.

Некоторые вопросы создания и использования орнитолог ически > баз данных. //Русский орнитологический журнал 1994 том 2 в.3:389-392.

6. Морозов Ю.Г.Ефремов В.Д.

Проектирование орнитологических баз данных. //Русский орнш«. логический журнал 1995г,том4в, 1/2с.55-58.

7. Морозов Ю.Г.Ефремов В.Д.

Программное обеспечение подготовки орнитологического

полевого материала для загрузки в базу данных. //Русский

орнитологический журнал 1995г, том 4 в.1/2 с. 59-61.

8. Морозов Ю.Г., Ефремов В.Д.

Программное обеспечение для поддержки и эксплуатации. орнитологических баз данных. Доклад на международном семинаре "Базы данных и компьютерная графика в зоологических исследованиях" .С-Петербург 1994г.

9. Морозов Ю.Г., Ефремов В.Д.

О некоторых проблемах обмена информацией баз данных кольцевания и прижизненного обследования птиц. Доклад на международном семинаре "Базы данных и компьютерная графика в зоологических исследованиях."

С-Петербург 1994г.

10. Морозов Ю.Г.

. СУБД "АРХИМЕД" для создания и использования орнитологических баз данных. //Русский орнитологический журнал, 1995. Том 4. Вып. 3/4. С. 123-127.