автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.14, диссертация на тему:Система автоматизации семантической интеграции распределенных баз данных

кандидата технических наук
Арсеньев, Борис Павлович
город
Санкт-Петербург
год
1997
специальность ВАК РФ
05.13.14
Автореферат по информатике, вычислительной технике и управлению на тему «Система автоматизации семантической интеграции распределенных баз данных»

Автореферат диссертации по теме "Система автоматизации семантической интеграции распределенных баз данных"

0^ЛТИЙСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ имени Д. Ф. Устинова

На правах рукописи

АРСЕНЬЕВ Борис Павлович

СИСТЕМА АВТОМАТИЗАЦИИ СЕМАНТИЧЕСКОЙ ИНТЕГРАЦИИ РАСПРЕДЕЛЕННЫХ БАЗ ДАННЬГЬХ

Специальность 05.13.14 - системы обработки информации и управления

АВТОРЕФЕРАТ ДИССЕРТАЦИИ на соискание ученой степени кандидата технических наук

Санкт-Петербург 1997

Работа выполнена в Балтийском государственном техническом университете имени Д.Ф.Устинова.

Научный руководитель: кандидат технических наук

доцент Смирнова Н.Н.

Официальные оппоненты:

доктор технических наук профессор Яковлев С. А.

кандидат технических наук доцент Гаврилов В. А.

Ведущая организация: Всероссийский научно-иссле-

довательский геологический институт им. А.П.Карпинского (ВСЕГЕИ), г. Санкт-Петербург

Защита состоится 1997 г. в часов на

заседании специализированного совета ССК 053.10.02 в Балтийском государственном техническом университете имени Д.Ф.Устинова по адресу: 198005, Санкт-Петербург, 1-я Красноармейская улица, 1.

С диссертацией можно ознакомиться в библиотеке Балтийского государственного технического университета имени Д.Ф.Устинова.

Автореферат разослан "26".

Ц.УОН**- 1997 г.

Ученый секретарь специализированного совета, кандидат технических наук,

доцент — В. Ю. Емельянов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.

Актуальность темы. Одной из наиболее характерных тенденций развития современных информационных систем (ИС) является интеграция данных, связанная с применением ИС для построения наукоемких распределенных компьютерных технологий в различных областях науки и техники. Интегрированные распределенные базы данных (РБД) становятся необходимым компонентом обеспечения таких ИС, а степень интегрированности данных на различных уровнях их представления во многом определяет успешность достижения требуемого качества информационной продукции прикладных технологических процессов.

Интеграционные возможности РБД определяются степенью однородности на двух основных уровнях представления данных - семантическом и объектном. Возможность объектной интеграции РБД предопределена широким применением в настоящее время реляционной модели данных (РИД), практически обеспечивающей объектную однородность РБД. Семантический уровень представления связан с проектированием концептуальных схем прикладных баз данных (БД) и РБД в целом на основании выбранной системы (систем) классификации и терминологически-понятийного определения структур предметной области. Семантическая разнородность РБД при этом оказывается чрезвычайно высокой. Существующие методы и средства технологии баз знаний (БЗ), основанные на моделях представления знаний, и технологии БД решения задачи семантической интеграции РБД либо не обеспечивают, либо обеспечивают в недостаточной степени.

Таким образом представляется актульной и имеющей важное практическое значение разработка системы автоматизации семантической интеграции распределенных баз данных на основе комбинированных методов и средств технологий БД и БЗ. Данное направление является одним из приоритетных в составе работ, проводимых в Балтийском государственном техническом университете имени Д.Ф. Устинова рядом авторов.

Диссертационная работа выполнялась в соответствии с планами ряда госбюджетных и хоздоговорных НИР (УДК 55:[002.513.5: 681.3] (47+57), УДК 002. 6:550.8:529(084. ЗМ200), N 1-94-27/7, Государственный контракт N134) во Всероссийском научно-исследовательском геологическом институте (ВСЕГЕИ). на кафедре вычислительной техники Балтийского государственного технического

университета и в специализированном информационно-компьютерном центре по региональной геологии (СпецИКЦ РГ) по программе фундаментальных научных исследований ВСЕГЕИ по линии АН СССР и РАН, программам Мингео СССР, Роскомнедра, Министерства, природных ресурсов по геологическому изучению территории . России, программе Гособразования СССР.

Целью работы является разработка системы автоматизации семантической интеграции распределенных баз данных на основе комбинированных методов и средств технологий БД и БЗ.

Для достижения поставленной цели в диссертационной работе решаются следующие задачи:

- классификация и формулирование требований к методам и средствам семантической интеграции РБД;

- разработка методов семантической интеграции РБД на основе комбинирования методов теории реляционных БД и модели представления знаний в виде семантических сетей;

- разработка программного обеспечения адаптируемой системы автоматизации семантической интеграции РБД;

- применение разработанного математического и программного обеспечения для решения прикладных задач построения семантически интегрированных технологий работы с первичными геологическими данными, картографическими данными и поддержки отраслевой службы ведения геологического информационно-поискового языка в рамках технологии производства Госгеолкарта-200 и -1000.

Методы исследования. Для проведения теоретических исследований использовались методы теории реляционных БД, реляционной алгебры, математической логики и методы представления знаний. Экспериментальные исследования проводились на ЭВМ с применением методов математического моделирования и разработанных программных средств адаптируемого динамического комплекса (АБК).

Основные результаты диссертационной работы заключаются в следующем.

1. Впервые разработана комбинированная модель на основе реляционной модели данных и модели представления знаний в виде семантических сетей, обеспечивающая возможность достижения семантической однородности распределенной базы данных с сохранением ее объектной однородности.

2. Разработан инструментальный метод построения типовых

программных модулей, реализующих реляционные и семантические отношения комбинированной модели в интегральной инструментальной среде.

3. Разработано программное обеспечение системы автоматизации семантической интеграции распределенных баз данных.

4. Разработана методическая основа применения системы автоматизации семантической интеграции распределенных баз данных для построения прикладных наукоемких компьютерных технологий.

Научная новизна. В диссертационной работе получены следующие научные результаты.

1. Сформулирован язык описания семантики данных (Р-язык) на основе модели представления знаний в виде семантических сетей, составляющий основу комбинированной модели данных и знаний системы автоматизации семантической интеграции распределенных баз данных.

2. Разработан комплекс методов интеграции семантики Р-языка с реляционными прикладными базами распределенной базы данных:

- разработана математическая система нормализации и минимизации семантических отношений Р-языка (Р-метод);

- разработана математическая система исчисления семантических отношений Р-языка (И'-алгебра) на основе системы реляционной алгебры;

- сформулирован метод анализа и вывода семантических зависимостей (Р-зависимостей) для наполнения и актуализации Р-языка по обратной связи из прикладных баз данных.

Практическая ценность и внедрение результатов работы. На основе полученных в диссертационной работе научных результатов разработано программное обеспечение многофункциональной и предметнонезависимой системы АПК. Комбинированные методы и система АБК использованы для разработки отраслевых информационных стандартов представления первичных геологических данных, построения инфологических моделей фундаментальных БД технологии производства Госгеолкарта-200 и -1000. Система АБК вошла в состав базовых программных средств, обеспечивающих технологию построения Государственного банка цифровой геологической информации (ГБЦГИ) и отраслевую технологию производства Госгеол-карт масштабов 1:200000 и 1:1000000. Система АЮК обеспечивает ведение геологического информационно-поискового языка в рамках соответствующей отраслевой службы. Кроме того, АЮК использова-

на для построения отраслевого банка описания легенд Госгеол-карт. Разработанные комбинированные методы и программное обеспечение применимы в любых областях науки и техники для решения задач интеграции данных и позволяют:

- сократить трудоемкость и затраты времени на построение специфических механизмов семантической интеграции РБД ИС;

- повысить качество информационных продуктов прикладных компьютерных технологий за счет обеспечения терминологически-понятийного единства данных прикладных БД РБД;

- сократить трудозатраты на формирование семантически интегрированных промежуточных и итоговых БД для их передачи внешним системам и технологиям;

- сократить сроки проектирования инфологических моделей фундаментальных и прикладных БД и существенно упростить выполнение таких процедур для пользователя;

- сократить сроки разработки и внедрения информационных стандартов представления данных;

- упростить процедуру крупномасштабного внедрения единых классификационных систем, базовых справочников по классификационным разделам и т.п.

Результаты диссертационной работы использованы и внедрены в десятках организаций Роскомнедра (акты N11-9/211 от 30.05.96 и акт N11-9/212 от 30.05.96).

Апробация работы. Основные теоретические положения, результаты, выводы и рекомендации диссертационной работы доложены и обсуждены на Всероссийских рабочих совещаниях по созданию ГБЦГИ (6-ое в апреле 1994 г. в г. Голицыно Московской обл., 7-ое в октябре 1994 г. в Московской обл., 8-ое в апреле 1995 г. и 9-ое в декабре 1995 г. в г. Зеленограде Московской обл.). на Всероссийских рабочих совещаниях пользователей компьютерных технологий при ГДП-200 (2-ое в ноябре 1994 г. и 3-е в декабре 1995 г. в г. Екатеринбурге), на международных симпозиумах "Минерально-сырьевая база России" (в 1995 и 1996 гг. в г. Санкт-Петербурге), на региональных совещаниях "Фундаментальные БД при ГДП-200. Рассмотрение информационных стандартов" (в ноябре 1995 г. в г. Санкт-Петербурге по северо-западному региону РФ и в декабре 1995 г. в г. Москве по центральному региону РФ) и на семинарах кафедры вычислительной техники Балтийского государственного технического университета.

Публикации по теме диссертации. Основное содержание дис-

сертации отражено в 5-ти печатных работах и отраслевой инструкции Роскомнедра.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и приложений. Содержит 159 страниц сквозной нумерации, в том числе 100 основного текста, список использованных источников из 164 наименований на 11 страницах и иллюстрирована 12 рисунками на И страницах.

СОДЕРЖАНИЕ РАБОТЫ.

Во введении обоснована актуальность работы, сформулирована цель и основные результаты, выносимые на защиту.

В первой главе на основании анализа современного состояния методов и средств интеграции РБД дается постановка задачи диссертации.

На основании анализа классической структуры системы с базами данных выделяются два уровня представления данных, для которых характерна тенденция развития интеграционных процессов.

Первый, объектный уровень интеграции данных основан на возможностях описания и манипулирования данными при применении реляционной модели данных. РМД и реляционное исчисление базируются на системе реляционной алгебры, которая определяется как семиместный кортеж

R«(U, D, dorn, R, d, 8,0), (1) где U - множество атрибутов, D - множество доменов, dorn - полная функция из U в D, R={Ri.R2.....Rp) есть множество различных схем отношений, d={r1,r2.....гр) - множество отношений г,

со схемой R, при 1<Кр, 8 - множество бинарных отношений над доменами из D, а 0 - множество операторов исчисления отношений из d. Возможности описания данных и их манипулирования в алгебре R носят объектный характер, поскольку и отношения сравнения 8 (>,<,=,*,<,)) и операторы исчисления отношений (такие, как выбор бд.а(г), проекция гсх(г), соединение rXs и др.) ориентированы на формальное описание атрибутов и их значений в строках и столбцах двумерных таблиц - отношений, в то время как терминологически-понятийное определение данных и связей между ними относится к сфере компетенции прикладных программ, разработанных пользователем в среде реляционных языков манипулирования данными (ЯМД) (SQL, QUEL, ISBL) и СУБД (dBASE, CLIP-

PER. PARADOX. FOXPRO. INGRES, ORACLE).

К числу строгих ограничений РМД относятся, в первую очередь, требования конечности отношений. Для БД в РМД характерны существенные отличия концептуальной и инфологической моделей вследствие необходимости применения процедур декомпозиции и нормализации схем БД. Реляционные ЯВД критичны к "дырчатому" заполнению кортежей отношений и к ряду других ситуаций.

Общий вывод о существенной сложности и практической нецелесообразности описания семантики данных в общем виде на объектном уровне представления данных хорошо согласуется с природой описания семантики, как системы знаний.

В общем виде уровень семантической интеграции данных предполагает построение в среде РБД специализированной фундаментальной базы данных (ФБД), содержащей описание базовой семантики РБД и обеспечивающей автоматизированный процесс взаимоотображения прикладных БД посредством ФБД. Построение ФБД по технологии БЗ сопряжено с рядом существенных трудностей, связанных, в первую очередь, с ориентацией многих инструментальных средств построения экспертных систем и БЗ на конкретные приложения (Advisor, Duck, EXPERT-2, ExperOPS V. KDS, M.1, Personal Consultant и др.), значительной стоимостью таких средств включая затраты на приобретение дополнительного оборудования и ограничениями применения используемых моделей представления знаний. Специфика решения задачи семантической интеграции РБД заключается в том, что формирование структуры и ее наполнение семантическими описаниями должно осуществляться в процессе функционирования ИС, что также затрудняет применение экспертных оболочек. Описание семантики предметных областей крупномасштабных ИС требует наличия возможности определения альтернативных экспертных оценок, основанных на различных действующих классификационных системах. Наконец, экспертные оболочки, как правило, имеют "закрытые" форматы хранения данных, что создает чисто практические трудности их применения для решения задач такого рода.

Одним из наиболее подходящих прототипов для описания семантики является тезаурус - система знаний, включающая определение классификационных разделов языка и отношений синонимии, родовидовых отношений, отношений "выше-ниже" и "часть-целое" в модели семантических сетей.

Отношения синонимии устанавливают понятийную эквивалент-

ность различных по значению терминов. Родовидовые отношения устанавливают семантическое соответствие общего с частным, рода с разновидностями, обеспечивая возможность классифицирования прикладных данных по любым основаниям деления. Отношения "выше-ниже", "старше-моложе" устанавливают указанные соответствия для терминов, значения которых не имеют самоопределенного числового или иного вычисляемого эквивалента. Отношения "часть-целое" идентифицируют определение общего, как обязательной совокупности составляющих это общее частей, причем части при этом приобретают содержательную составляющую "быть свойством данного целого".

Инструментальная реализация такой системы отсутствует, однако сама система широко используется в мировой практике (например, геологический международный многоязычный тезаурус).

Таким образом, требуемого комбинированного (на основе РМД и модели представления знаний) решения задачи семантической интеграции РБД ИС существующие методы и средства как в технологии БД, так и в технологии БЗ не обеспечивают.

На основании обзора дается постановка задачи диссертации.

Во второй главе рассматриваются комбинированные методы семантической интеграции РБД, разработанные на основе РМД и семантических сетей.

На основании (1) определяется алгебра исчисления семантических отношений

R'={P,D, dom'.P, d',8',0'}, (2)

где Р - множество признаков языка описания семантики данных (F-языка). являющегося ключевым элементом комбинированной модели (F-модели), D - множество семантических доменов, dorn' -полная функция из Р в D, P=(Pt,Р2,....Рр) есть множество схем отношений F-модели, d'={p1, р2,...,рр) - множество отношений Pj со схемой Pj, 8' - множество отношений сравнения над доменами из D, а 0' - множество операторов исчисления отношений F-модели. Семантические отношения образуют множество

Pl-ipS.Pr.Ph.Ppi. <3)

где индексы обозначают: 1 - общий индекс семантических отношений, s - отношения синонимии, г - родовидовые отношения, h -отношения "выше-ниже", р - отношения "часть-целое".

Комбинированная F-модель строится на основании определения единиц описания и хранения информации - признаков (разделов F-языка или семантических атрибутов), значений признаков и

предметов (признаковых моделей объектов ФБД). Межпредметные отношения образуют сети данных, межпризнаковые отношения - семантические сети или схемы семантических отношений, связи между значениями признаков образуют семантические кортежи.

Базовым отношением F-модели определяется отношение вида р(Р)1р-{у,к,х> • (4)

Схема Р отношения р содержит два ключевых атрибута: V - атрибут, определяющий объект отношения, К - код объекта отношения. Подмножество X составляет атрибутивное описание объекта. Принцип использования атрибута К аналогичен применению оператора FACTOR. Для отношения р(Р) справедливо следующее: если кортежи отношения р обозначить через t, и tj, то выполняется t, (V)^tj (V) и t; (К)»'tj (К) для любых i^j. Отношение (4) конечно и удовлетворяет требованиям РМД.

В соответствии с (4) формулируются схемы отношений всех уровней F-модели

{t(T),i(I).h(H),u(U),d(D),v(V),s(S),e(E),c(C),n(N),

j(J),b(B),q(Q), f(F),z(Z)) (5)

Модель (5) является промежуточной между прикладными БД и собственно F-языком и может применяться для построения фрагментов ФБД либо непосредственно в среде прикладных БД, либо в промежуточной БД, либо в среде ФБД. Модель (5) имеет декомпозированный вид, поэтому применение операторов соединения и проекции позволяют легко вычислять любые комбинации отношений, соответствующих представлению пользователя об объектах ФБД. Т-уровнем F-модели называется отношение

t(T)|T={T,Kt>, (6)

где Т - множество терминов F-языка, a Kt - множество кодов терминов. Уровень назначений I определяется отношением

i(I) | l={Kt, I.Ki}, (7)

где I определяет назначение термина Kt в F-языке. Тогда выра-шение

6T.t(tXi) (8)

вычисляет кортежи, содержащие описание назначения термина, а

к{Т> п (txi) (9)

определяет отношение, кортежи которого содержат пары "термин-назначение".

Аналогично определяются остальные уровни F-модели: Н -HELP-описаний, U - санкционирования лоступа, D - описания признаков, V - описания значений признаков, S - уровень описа-

ния предметов, Е - описания элементов HELP-описаний, С - описания структур предметов, N - уровень идентификации экземпляров предметов, J - описания значений экземпляров предметов, В

- описания гиперотношений F-модели. Q - описания сети данных, F - уровень описания схем семантических отношений, Z - уровень определения семантических кортежей. Схема уровней F-модели представлена на рис. 1.

Семантическим отношением в F-модели определяется такое отношение Р](Р). где Р={Р,,Р2} и допустимо Pt=Рг, над которым определена некоторая семантическая зависимость (F-зависимость) Pi (Р) |P-ÍP1.P8}.P1-^»P2 (1). (14)

Отношение (14) в общем виде не удовлетворяет требованиям РМД, поэтому в F-модели определяется понятие упорядоченного семантического отношения. Пусть отношение (Ri). где R^ÍRn.Rig)

- правильно построенное отношение в РМД. Тогда отношение ri (Rj) называется упорядоченным семантическим отношением эквивалентности отношения Pi(Pi). если domíRtJcdomíP!), dom(R2)edom(P2), а кортежи t отношения r^Rj) содержат все соответствия значений атрибутов R4 и R2, определенных F-зависи-мостью Р1-^Р2(1), т.е.

П (R]) |Rj =(Rj j, R12 )sPi (P)|P-{Pi.P2>.Pi-"P2(l). (15) Тогда метод приведения

p, (РЬг[ (Rj) (16)

называется F-методом, а совокупность (5) и (14) образует полную F-модель.

Расширение множества операторов 8' по сравнению с 8 составляют операции 8'-пересечения

Ю<А1,Р1> (г,Г!), (17)

8'-исключения

tUAI.PI> (r.rj) (18)

и 8'-расширения

А1 , Р1 > (r.Tj). (19)

Общий вид операций 0', включающих операции jj. - подбора синонимов, 0 - работы с родовидовыми отношениями, р - работы с отношениями "выше-ниже" и í - работы с отношениями "часть-целое" имеет формат

кА1-а (г< Al , Ai > ■ гр<Р1 , Р2> - гр<Р2 , Р3>.....Гр { р ) . t _ р ,} ), (20)

где

*={М.Р.С>. (21)

Операции (21) определяют семантический поиск и отбор данных

по значению атрибута А! =а и целевого атрибута А( посредством обработки подсхем семантических сетей .Р2)■ (Р2,Р3) ,..., (Р. .^,Р(} и комбинирования всех видов семантических сетей. Параллельно с определением 8' и 0' сформулированы правила метода Р-зависимостей (РБ-, РЕ-, РН-, РР-зависимостей по видам сетей) на основе существующих аксиом вывода и EJ-зaвиcимocтeй теории реляционных БД.

Рис.1. Схема уровней Р-модели.

В результате последовательно определены методы семантической интеграции РБД, включающие формальное определение Р-языка. алгебры исчисления семантических отношений 1Г, математического описания полной Р-модели, комбинирующей возможности РМД и модели семантических сетей, Р-метода приведения и метода анализа и вывода Р-зависимостей. Также формулируются методические правила применения комплекса разработанных методов для построения и применения системы автоматизации семантической интеграции РБД ИС.

В третьей главе рассматривается инструментальный метод построения СУ ФБД и дается характеристика разработанной системы АБК.

Декомпозированная форма Р-модели и типовой вид ее отноше-

ний (4) позволяет сделать вывод о логичности разработки программного обеспечения СУ ФБД на основе типовых инструментальных решений. В основу инструментального метода положено определение "ассоциатора", как совокупности схемы решения и программного обеспечения базового компонента системы ADK. Принцип построения ассоциаторов заключается в использовании механизма прямой адресации по значению термина (ассоциативная память) и отказе от применения сортировки при хранении и доступе к текстовым значениям признаков. Ассоциатор определяется как совокупность

A=(AS,DA), (22)

где AS - ассоциативная адресная таблица, a DA - область хранения данных в форматах (4). Состав ассоциаторов соответствует уровням F-модели, а физическая независимость ассоциаторов позволяет строить различные конфигурации системы ADK в зависимости от пользовательских потребностей.

Принцип ассоциативной памяти заключается в вычислении адреса хранения текста по значению текста, состоящего из символов

T-itt. t2.....tn}. (23)

имеющих двоичный эквивалент в коде ASCII. Текстовый ассоциатор At вычисляет вес текста Wt. который определяет адрес указателя списка текстов с одинаковым весом в A£>t. а сам список хранится в DAt в сжатом виде. Длина списков термов с одинаковым весом статистически не превышает 50-100 значений, что гарантирует скорость поиска текста в пределах миллисекунды.

За исключением текстового остальные ассоциаторы характеризуются фиксированностью длины кортежей отношений F-модели. Область AS2 таких ассоциаторов содержит последовательность блоков длиной 24 байта (6 полей long). 0-ой блок является заголовком AS2 и содержит информацию о текущей длине AS2 и последнем присвоенном системном номере ассоциатора SNA, который идентифицирует вход в ассоциатор по коду элемента F-модели. Адрес требуемого блока легко вычисляется как SNA*24. Таким образом в режиме прямого доступа по SNA определяется адрес начала соответствующего блока в DA2. Область DA2 содержит заголовок с информацией о текущей длине области и последнем присвоенном системном номере данных (SND), уникально идентифицирующем кортежи отношений данного типа. Блок DA2 содержит заголовок, в котором хранится SNA, полная длина блока и размер сво-

бодного места в конце блока. Записи блоков всех ассоциаторов имеют одинаковый формат

FL={FLo ■ F4 • FL2, FL3. FL4, FL5}, (24)

по которому в поле FLg хранится SND, в поле FL2 - код владельца кортежа. Поле FLt используется для определения маски кортежа, позволяющей разносить одни и те же данных по разным рабочим и семантическим сетям. В ADK определено 10 видов сетей: глобальная, данных, синонимическая, родовидовая, "выше-ниже", резервная, "часть-целое", визуализации, рабочая и главных синонимов. Остальные поля (24) специфичны в зависимости от типа ассоциатора.

Функции ассоциаторов описываются ассоциативными зависимостями вида

SNA-W.K.X). (25)

В ADK определены текстовый ассоциатор At и ассоциаторы санкционирования доступа Ац, HELP-описаний Ah, назначений Ai, описания предметов Ад, групп предметов Agt, описания признаков Aj, групп признаков A<jt, словарных значений признаков Av. полных синонимов Ау, описания семантических сетей Af, кортежей семантических сетей AZi описания структур предметов Ас, системных номеров экземпляров предметов Ап, значений элементов структур предметов Aj. описания гиперотношений данных Аь, сети данных Aq и несколько ассоциаторов, выполняющих обслуживающие и другие внутренние функции.

Программное обеспечение ADK разработано на языке С++ в среде 32-разрядного приложения Watcom. Требования к техническим средствам для установки ADK с учетом оригинальности разработки ориентированы на существующие конфигурации распространенных у пользователя технических средств: процессор Intel 386 или старше, оперативная память 640 Кб или больше, видеоадаптер VGA или SVGA, свободное дисковое пространство не менее 10 Мб.

Инструментальный метод на основе применения механизма ассоциаторов предполагает достаточно легкую процедуру расширения множества ассоциаторов при определении в F-модели новых уровней и отношений. В частности, логичным представляется применение модели семантических сетей для смыслового упорядочивания не только признаков и их значений, но и предметов, подсхем и схем БД в целом. F-модель и механизм ассоциаторов также относительно легко могут расширяться путем включения новых видов семантических сетей, путем формализации Н-уровня и включения

графических элементов и описаний в аппарат поиска и отбора данных, путем определения в дополнение к текстовым и графическим новых синтаксических элементов, например, атомарных условных обозначений и т. п.

Примером расширения применения модели семантических сетей является ассоциатор Ау описания полной синонимии признаков. На практике часто возникает задача, связанная с тем, что словарь значений некоторого признака Р] начально не формируется, но определяется как совокупность словарных значений признаков

Рг.Рз.....Р.. т.е.

йот(Р1) =с1от(?2 )исЮт(Р3)и.. .Шот(Рт) (26)

и в процессе ввода значения добавляются в Р} из Р2. Р3..... Рп. Ассоциатор Ау устанавливает ассоциативную внешнюю связь между целевым признаком Р! и его полными синонимами, или

БМу (Р} )*г{ (8Щ, (Р2), 8М)„ (Р3).....<Р„)) (27)

и

8Щ,< Р1)-8МАУ(Р1). (28)

Таким образом, при вводе значения в словарь признака Р1 система предложит пользователю выбрать нужное значение из словарей Р1 • Рг.....рп •

В четвертой главе описываются результаты применения разработанных методов и системы АБК для решения задачи семантической интеграции РБД при построении компьютерных технологий производства Госгеолкарты масштабов 1:200000 и 1:1000000.

Основными этапами производства Госгеолкарты в аспекте построения и ведения БД являются этап построения пообъектных баз первичных геологических данных, обработка и интерпретация первичных данных для построения авторского оригинала карты, оцифровка карты и построение базы описания легенды карты, сдача цифровых данных (включая БД) в региональные и федеральный банки цифровой геологической информации, прохождение научно-редакционного совета, подготовка карты к изданию. Семантическая разнородность РБД наиболее характерна на этапах построения баз первичных геологических данных и баз описания легенд карт. Первичные данные собираются в БД из множества источников: описания наблюдений, результатов лабораторных анализов и т.п. При этом пересечение прикладных БД зачастую осуществляется через 1-2 формальных параметра, например, через номер точки наблюдения, номер пробы или фамилию автора. Поэтому семантическая интеграция таких БД оказывается чрезвычайно сложной, в

то время как результирующие первичные БД должны строиться на единой семантической основе. При описании легенд карт ситуация аналогична, так как легенды карт формируются автором и семантически разнородны по определению.

Для построения фундаментальных баз первичных геологических данных (БПГД) на основании F-модели разработаны информационные стандарты представления первичных данных, внедренные в 68 организациях отрасли и включающие: базовую инфологическую модель БПГД (сеть данных увязывает свыше 100 предметов, включающих свыше 350 признаков), HELP-описания всех признаков и некоторых значений признаков (около 400 HELP-описаний), около 100 семантически определенных словарей значений признаков (свыше 6000 значений) и построенные семантические сети (свыше 10000 семантических кортежей всех видов). Стандарты содержательно пересекают любые целевые первичные БД, создаваемые в процессе геологосъемочных работ (ГСР) и работ по доизучению площадей (ГДП), следовательно обеспечивают решение задачи семантической интеграции первичных данных.

На основе стандартов разработана технология наполнения фундаментальных БПГД с применением системы ADK (внедрение в 60 организациях отрасли). Общая технологическая схема ввода-поиска первичных данных в среде ADK содержит 5 уровней иерархии связей (гиперотношений) и для удобства работы разделена на 27 подсхем с учетом сложившихся традиций документации первичных геологических данных при производстве работ по ГСР и ГДП масштаба 1:200000. К источникам информации относятся полевой дневник, журналы документации горных выработок, скважин, включая документацию геологических разрезов, больших обнажений, журнал шлихового опробования, геохимического опробования, радиометрических наблюдений, определения физических свойств, результатов анализов и определительских работ в виде таблиц и бланков, другие материалы полевых наблюдений.

Определены типовые технологические операции и проводится работа по созданию нормативов затрат на описание первичных данных. Трехлетний опыт построения и ведения реальных БПГД (например, по Восточно-Забайкальскому полигону) показал хорошие результаты применения ADK при решении задач такого класса. Объем БПГД по объекту составил около 10 Мб, работа осуществлялась на IBM/386 PC стандартной конфигурации, что позволяет применять технологию на уровне реальных производителей инфор-

мации - экспедиций и партий. Стоимость инсталляции системы включая базовую семантику составляет $500-1500. Основным же преимуществом технологии является мощный лингвистический контроль при вводе данных, расширенный содержательный поиск с использованием семантических сетей и семантическая однородность БПГД.

Построение технологии описания легенд карт связано с использованием геолого-картографического подмножества семантического геологического языка, что обеспечивает:

- унифицированное машинноориентированное описание геолого-картографических данных при их распределенном вводе;

- возможность исчерпывающей передачи содержания авторского варианта карты и сохранение на машинных носителях всей текстовой информации, сопровождающей каждый условный знак легенды;

- поиск геолого-картографической информации на уровне данных и геологических знаний по любому массиву данных без предметных и территориальных ограничений:

- возможность совместной обработки первичных геологических данных и производных (например, геолого-картографических).

В рамках технологии организована отраслевая служба ведения геолого-картографического языка, отлажены операции сбора пообъектных БД, коррекции и актуализации языка. Все технологические операции выполняются в среде ADK. На настоящий момент описаны легенды нескольких сотен карт. На основании F-модели разрабатывается банк легенд карт, регионального масштаба - на IBM PC, на федеральном уровне - на рабочей станции Sun. Банк описания легенд с использованием F-метода построен в среде СУБД ORACLE/Sun и сопряжен с ГИС ARC/INFO. Таким образом, работая с изображением одного или нескольких листов карт можно задавать поисковые критерии по любому сочетанию признаков описания легенд (около 100 признаков), включая запросы с использованием семантических отношений.

Для геолого-картографического подмножества языка характерны некоторые особенности. Так кроме большого количества синонимов это наличие омонимов, для которых в языке установлены отношения синонимии между различными признаковыми полями, наличие большого количества исторически сложившихся изменений в объемах понятий возрастных подразделений геохронологической шкалы - карты изменений описаны на Н-уровне (около 40 таблиц с

порядка 1000 графических элементов в каждой), а также наличие информации разной степени детальности описания, что отображается описанием в семантических сетях АБК.

Геолого-картографические данные сгруппированы по тематическим аспектам. Разработана последовательность операций по снятию текстовой информации с карты и технология ввода данных.

Для геолого-картографического подмножества языка разработан вариант на английском языке (путем замены всего лишь одного ассоциатора Аь), что позволяет описание легенды на русском языке автоматически перевести на английский. Кроме того, применение такой технологии позволяет решить задачу построения продукции на международном уровне - в виде электронной карты, отличающейся от существующих наличием семантически однородного и полного описания содержания карты.

Основные результаты применения системы автоматизации семантической интеграции РБД заключаются в следующем.

Практически всего за полгода по северо-западному и центральному регионам России, а также в целом ряде районов Сибири и Дальнего востока внедрены информационные стандарты представления первичных данных без переработки множества существующих прикладных БД, что без применения разработанных методов и средств заняло бы не менее 5 лет с возможным отрицательным результатом.

Семантически однородные промежуточные (описания легенд карт) и итоговые (БПГД) ФБД позволяют резко повысить качество информационной продукции, что выражается в увеличении количества интеграционных признаков с 2-3 (как для отечественных, так и для зарубежных интегрированных геологических технологий) до десятков и более (по количеству признаков Р-языка).

Труднооценимое сокращение трудозатрат за счет замены разработки специфических интерфейсов и конверторов для взаимоувязки множества прикладных систем и их БД на построение сравнительно простых процедур экспорта-импорта между прикладными БД и ФБД в среде ЛЮК.

Значительное расширение возможностей поиска, комплекса-ции, производства новых видов информационной продукции и обеспечения данными обрабатывающих систем.

В заключении приведены общие выводы по диссертации.

В приложении содержатся фрагменты инфологических моделей фундаментальных баз первичных и геолого-картографических дан-

ных. Также приведены примеры описания типовых технологических операций по вводу данных и ведению фундаментальных БД.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ.

1. Ввод текстовой информации карт геологического содержания в геолого-картографическую ИПС. Методические рекомендации / 3. Д. Москаленко, И.А. Маслакова. Б. П. Арсеньев // Итоги научно-исследовательских работ ВСЕГЕИ за 1993 г. (Роскомнедра, РАН, ВСЕ-ГЕИ). - Спб.: ВСЕГЕИ, 1994. - С. 56-57.

2. Компьютерное сопровождение подготовки к изданию Госгеолкар-ты-200 // Инструкция по составлению и подготовке к изданию листов Государственной геологической карты Российской федерации масштаба 1:200000. - М.: Роскомнедра, 1995. - С. 116-119.

3. Компьютерное сопровождение подготовки к изданию комплекта Госгеолкарга-200 / З.Д. Москаленко. Б. П. Арсеньев и др. // Материалы научно-практического семинара "Организация и производство геологического доизучения ранее заснятых площадей в масштабе 1:200000 ...". - Москва-Санкт-Петербург: ВСЕГЕИ, 1995. - С. 27-32.

4. Москаленко 3. Д., Дьяконова Л. К., Арсеньев Б. П. Организация фундаментальной базы первичных данных в геологосъемочной экспедиции: Методические рекомендации. - Л.: ВСЕГЕИ, 1991 г. -80 с.

5. Разработать структуру организации автоматизированных баз данных, направленных на решение задач геологического изучения территории СССР (типовая информационная структура базы данных) / З.Д. Москаленко, Б.П. Арсеньев и др. // Итоги научно-исследовательских работ по основным научным направлениям ВСЕГЕИ за 1989 г. - Л.: ВСЕГЕИ, 1990. - С. 167-168.

6. Распределенный банк данных САПР / Б. П. Арсеньев // Материалы городского семинара по проблеме создания вычислительных центров коллективного пользования в интересах реализации программы "Интенсификация-90". -Л.: 1985. - С. 51-58.