автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Исследование и разработка языка библиографических данных сети информационных центров и его использование для адаптации данных

кандидата технических наук
Королева, Анна Яковлевна
город
Москва
год
1990
специальность ВАК РФ
05.13.17
Автореферат по информатике, вычислительной технике и управлению на тему «Исследование и разработка языка библиографических данных сети информационных центров и его использование для адаптации данных»

Автореферат диссертации по теме "Исследование и разработка языка библиографических данных сети информационных центров и его использование для адаптации данных"

ВСЕСОЮЗНЫЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ МЕЖОТРАСЛЕВОЙ ИНФОРМАЦИИ

На правах рукописи

КОРОЛЕВА АННА ЯКОВЛЕВНА

УДК 002.63:801.001.365

ИССЛЕДОВАНИЕ И РАЗРАБОТКА ЯЗЫКА БИБЛИОГРАФИЧЕСКИХ ДАННЫХ СЕТИ ИНФОРМАЦИОННЫХ ЦЕНТРОВ И ЕГО ИСПОЛЬЗОВАНИЕ ДЛЯ АДАПТАЦИИ ДАННЫХ

05.13.17 Теоретические основы информатики

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва 1990

Работа выполнена во Всесоюзном научно-исследовательском институте межотраслевой информации.

Научный руководитель - кандидат филологических наук,

старший научный сотрудник АНТОПОЛЬСКИЙ Александр Борисович

Официальные оппоненты - доктор технических наук,

профессор

ГОРЬКОВА Валентина Ивановна

кандидат филологических наук, старший научный сотрудник КОЛЧИНСКИЙ Марк Львович

Ведущая организация - ЦНИИатоминформ

Автореферат разослан "_"_1990 г.

Защита диссертации состоится "_"_1990 г.

в часов на заседании специализированного совета Д 048.03.0

при Всесоюзном научно-исследовательском институте межотраслево информации.

С диссертацией можно ознакомиться в справочно-информационно фонде ВИМИ. Отзывы на автореферат просьба направлять по адресу: Москва, 123584, ВИМИ

Ученый секретарь специализированного совета, кандидат технических наук, доцент

Б.М.Герасимов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Одним из направлений, предусмотренных Концепцией информатизации советского общества, является "создание и развитие системы баз данных, объединяющей в своем составе базы данных общего, межотраслевого, профессионального и проблемно-ориентированного назначения". Взаимодействие баз данных предъявляет новые требования к их лингвистическому обеспечению, повышает важность достижения совместимости используемых языковых средств. Значительная часть информационных ресурсов страны сосредоточена в до-кументографических информационных системах, что определяет актуальность исследований проблемы совместимости лингвистического обеспечения систем такого типа, одному из аспектов которой посвящена настоящая диссертация.

При исследовании вопросов совместимости лингвистического обеспечения документографических АСНТИ обычно оставляют в стороне такой важный его компонент, как язык библиографических данных, используемый не только для обработки библиографической информации, но и в качестве языка описания данных документографической АСНТИ. Более того, до сих пор не существует практически ни одного достаточно полного и адекватного описания структуры ИПЯ этого типа. Научная новизна настоящей диссертации состоит в описании структуры и особенностей проектирования языков библиографических данных, а также путей достижения их совместимости в информационных сетях разных типов. Разработано языковое средство нового типа - язык библиографических данных Межотраслевой информационной автоматизированной системы (МИАС), ориентированный, кроме традиционных задач, на адаптацию документографических данных. Разработаны и внедрены алгоритмы и программы форматного конвертирования.

Предметом игглелопания в диссертации являются языки библио-

графических данных, их проектирование и использование в условиях взаимодействия информационных центров, процессы конвертирования документографических баз данных.

Цель работы состоит в следующем: 1) описать структуру языков библиографических данных; 2) определить способы их проектирования в разных ситуациях; 3) разработать конкретные языки библиографических данных для Государственной автоматизированной системы научно-технической информации (ГАСНТИ) и МИАС; 4) разработать алгоритмы, программы и принципы технологии форматного конвертирования для Центрального звена МИАС.

Практическая ценность диссертации состоит в разработке и внедрении языков библиографических данных двух информационных сетей - коммуникативного формата ГАСНТИ и Типового внутреннего Формата МИАС, а также ряда форматных конверторов МИАС. Эти разработки находятся в настоящее время в промышленной эксплуатации. Разработано 19 документов из комплекта рабочей документации МИАС.

В теоретической части диссертации применялись методы информатики и прикладной лингвистики. В практических главах использованы также методы стандартизации, составления алгоритмов, программирования и проектирования баз данных.

Апробация работы. Основные положения диссертации докладывались автором на Всесоюзном семинаре "Семантика естественных и искусственных языков в специализированных системах" (Ленинград, 1979), IV Всесоюзной конференции "Проблемы автоматизированной обработки научно-технической информации" (Москва, 1983), XV Всесоюзном научном семинаре "Системные исследования ГАСНТИ" (Рига, 1985), Всесоюзном семинаре "Пути повышения эффективности деятельности информационных служб, их взаимодействия при обеспечении разработок и производства объектов новой техники, прогрессивных технологических процессов" (Москва, 1985), V Межотраслевой кон-

ференции молодых ученых ЕСНТИ (Москва, 1987), XVI Всесоюзном научном семинаре "Системные исследования ГАСНТИ" (Ярославль, 1987). На основе материалов, содержащихся в диссертации, в 1985-1989 гг. читались лекции для слушателей Института повышения квалификации информационных работников.

Диссертация состоит из введения, четырех глав, заключения и приложений.

СОДЕРЖАНИЕ РАБОТЫ'

В первой глади диссертации дана общая характеристика языков библиографических данных: их определение, назначение, место в структуре лингвистического обеспечения АСНТИ. Рассмотрены особенности проектирования и использования языков библиографических данных в условиях взаимодействия информационных центров.

Языками библиографических данных (ЯБД) называются искусственные языки, предназначенные для формирования высказываний особого вида - библиографических записей (БИЗ). Центральным элементом БИЗ является библиографическое описание документа (БО). Кроме этого, в БИЗ включаются поисковые образы документа на ИПЯ классификационного и дескрипторного типа, реферат, а также некоторые дополнительные данные. Соотношение ЯБД и БИЗ принадлежит тому же ряду, что и соотношение языка и речи, системы и текста и т.п.

Поскольку БИЗ представляет собой основную структурную единицу документографического массива, ЯБД выступает в роли языка описания данных в информационных массивах этого типа. Это основное назначение ЯБД.

Вместе с другими языковыми средствами, участвующими в формировании информационных массивов, ЯБД является одним из компонентов лингвистического обеспечения АСНТИ: он входит в группу

языков для описания содержания документов Сдокументографических ИПЯ). Документографические ИПЯ отличаются друг от друга по целому ряду параметров, главным среди которых является глубина отражения содержания обрабатываемого документа. Как в информатике (А.Б.йнтопольский), так и в библиографоведении (О.П.Коршунов) принято выделять три уровня отражения содержания: тематический (супердокументальный), библиографический (собственно документальный) и предметный (субдокументальный). На этих уровнях используются соответственно ИПЯ классификационного типа, ЯБД и ИПЯ дес-крипторного типа. Общими для всех документографических ИПЯ являются функции представления содержания документов и поиска документов в массиве. Специфические функции ЯБД, в отличие от ИПЯ других типов, - это идентификация документа и установление релевантности документа запросу (после проведения процедуры поиска), В технологических процессах АСНТИ ЯБД используются в следующих случаях: при контроле вводимых данных, формировании информационных массивов, поиске по элементам БО, общении пользователя с системой, выдаче результатов поиска, автоматизированной подготовке информационных изданий, обмене данными между АСНТИ на магнитных носителях.

Высказывание на ЯБД - ВИЗ состоит из фрагментов, имеющих четкие границы: в ЯБД традиционных систем это условные разделительные знаки, в автоматизированных массивах - разделители полей данных. Каждый такой фрагмент соответствует естественноязыковому высказыванию следующего вида: "название документа -"Воспоминания", "автор документа - И.П.Никитин", "документ издан в Горьком", "документ издан в 1980 году" и т.п: Часть информации в этих высказываниях является постоянной, общей для большого числа документов, а часть - переменной, характеризующей только данный отдельный документ. В БИЗ приводится только переменная

информация (Никитин И.П. Воспоминания. - Горький, 1980.), а ' постоянная переходит в сферу грамматики ЯБД. Показателями грамматических значений в БИЗ являются: позиция в записи, условные разделительные знаки, метки, индикаторы, идентификаторы и т.п. Отдельный фрагмент БИЗ без грамматического показателя обычно называют лексической единицей (ЛЕ) ЯБД.

ЛЕ ЯБД выражают переменную информацию, характеризующую отдельный документ и позволяющую отличить его от других документов. В рамках ЯБД ЛЕ - минимальная знаковая единица, она не подлежит дальнейшему разложению (это не мешает ЛЕ оставаться сложным высказыванием на другом языке, естественном или искусственном)- В отличие от ряда других языков, в которых перечень ЛЕ задан списком (словарь), в ЯБД множество ЛЕ задается при помощи правил их получения из текстов описываемых документов, и только в отдельных случаях они перечисляются в специальных словарях библиографических данных (СБД). В лексике ЯБД выделяются свободная и контролируемая группы. Контроль ЛЕ предполагает Фиксацию структуры, в одних случаях, и перечисление в СБД - в других. СБД аналогичны тезаурусам дескрипторных ИПЯ, они устанавливают между ЛЕ парадигматические отношения двух типов: отношение условной эквивалентности и отношение иерархии.

Описание грамматики ЯБД содержится в формате библиографической записи, который устанавливает перечень элементов данных (ЭД), то есть постоянных грамматических значений. Количество и ассортимент ЭД определяются, с одной стороны, особенностями обрабатываемых документов, а с другой - особенностями информационных систем, в которых они используются, а именно: в качестве ЭД выступают те аспекты содержания документа, которые интересны пользователям системы, либо необходимы для решения ее регламентных задач. Количество ЭД зависит также от применяемых технических

средств, а в АСНТИ - и от особенностей программного обеспечения. В формате ВИЗ фиксируются такие характеристики каждого ЭД, как статус С обязательный или факультативный), использование при поиске (поисковый или информационный), правила записи ЛЕ, конкретизирующих каждый ЭД (длина, способ контроля и т.п.). В ряде ЯБД между ЭД устанавливаются также иерархические отношения.

Поскольку документы отличаются друг от друга по своим внешним (форма) и внутренним (содержание) характеристикам, все множество документов обычно разделяют на виды, каждый из которых описывается своим набором ЭД. Так, для книг существенно указание места и года издания, а для информационной карты - названия организации-разработчика и даты окончания работы. Разным видам документов соответствуют разные структуры ВИЗ в рамках одного и того же ЯБД.

Из сказанного видно, что центральной задачей при проектировании ЯБД является разработка его грамматики, то есть формата БИЗ. При этом определяющее влияние имеют следующие факторы: 1) круг обрабатываемых документов и их разбиение на виды; 2) задачи АСНТИ, для которой проектируется ЯБД; 3) особенности программного и технического обеспечения. Задача нормирования лексики является не самостоятельной, а подчиненной: нормированию подвергаются обычно ЛЕ, относящиеся к обязательным и поисковым ЭД.

Таким образом, последовательность операций при проектировании ЯБД выглядит следующим образом: 1) установление системы видов документов; 2) разработка грамматики ЯБД (формата); 3) определение правил записи ЛЕ, в том числе разработка СБД.

В последние годы происходит переход от использования автономных информационных систем к сетям информационных центров, то есть "различным формам объединения информационных служб и систем, обеспечивающим пользователям доступ ко многим базам данных"

(Артамонов, Антопольский). Такая организация работы предъявляет к ЯБД новые требования: он должен обеспечивать совместимость данных, подготовленных в разных системах, что достигается разными средствами - от стандартизации библиографического описания до создания средств конвертирования ВИЗ. Говоря о совместимости ЯБД, следует иметь в виду как грамматический, так и лексический аспекты. В дедуктивных сетях, создаваемых по единому плану (сверху вниз), разрабатывается единый ЯБД. Такой подход характерен для сетей генераторов информации. В индуктивных сетях, объединяющих Функционирующие, независимо созданные системы со своими локальными ЯБД, выбор того или иного пути достижения совместимости ЯБД зависит от способа функционирования сети. Экстенсивные сети, ориентированные на расширение информационной базы без расширения и усложнения класса решаемых задач, используют сосуществующие локальные ЯБД,-а общесистемные средства (коммуникативные форматы) используются только при обмене данными. Интенсивные сети, предполагающие постоянное усложнение класса решаемых задач, основываются на интеграции языковых средств. При этом используются локальные ЯБД, один из которых выступает в качестве общесистемного: на нем создается и эксплуатируется центральная база данных, содержащая информационные массивы, подготовленные всеми участниками сети.

Во второй главе диссертации рассмотрен ЯБД Государственной автоматизированной системы научно-технической информации (ГАСНТИ), который является общесистемным языковым средством этой экстенсивной информационной сети и используется исключительно при обмене документографическими данными на магнитных носителях.

ЯБД ГАСНТИ реализуется в виде коммуникативного формата библиографической записи, который вслед за послужившим его основой

СТ СЭВ 4283-84 носит название МЕКОФ (Международный коммуникативный формат). Описание МЕКОФ ГАСНТИ содержится в ГОСТ 7.14-84 и ГОСТ 7.19-85, в разработке последнего автор принимал непосредственное участие.

К коммуникативному формату ГАСНТИ предъявляются следующие требования:

1) независимость от программного обеспечения, максимальная прозрачность структуры - требование, общее для всех коммуникативных форматов;

2) совместимость с СТ СЭВ 4283-84, вытекайщая из международных обязательств СССР;

3) соответствие принятой в стране практике информационной деятельности, что диктуется задачами ГАСНТИ.

Первое требование было выполнено благодаря принятию в качестве структуры ВИЗ рекомендаций ISO 2709 и СТ СЭВ 4269-83 (см. ГОСТ 7.14-84). Второе условие обеспечено тем, что в ЯБД ГАСНТИ вошли все ЭД стандарта СЭВ. Третье условие означает на практике включение в ЯБД ГАСНТИ всех ЭД, необходимых для функционирования подсистем ГАСНТИ.

Система видов документов ЯБД ГАСНТИ, как и стандарта СЭВ, является двухуровневой: на первом уровне выделяются классы документов, на втором - виды документов. Число классов документов увеличено по сравнению со стандартом СЭВ и включает в себя такие широко используемые в ГАСНТИ классы, как депонированные научные работы, материалы о передовом производственно-техническом опыте, неопубликованные переводы, а также алгоритмы и программы. Определенным уточнениям подверглись и наборы видов документов внутри классов.

Основные положения грамматической структуры ЯБД ГАСНТИ соответствуют СТ СЭВ 4283-84. В ЯБД ГАСНТИ включены все ЭД стан-

дарта СЭВ. В дополнение к ним введено около 70 ЭД, необходимых для обработки вновь введенных видов документов или для организации внутрисоюзного обмена документографической информацией. Всего в МЕКОФ ГАСНТИ вошло 226 ЭД. Число обязательных ЭД сведено к минимуму: только 14 ЭД обязательны для документов всех классов и 78 ЭД - хотя бы для одного класса.

БИЗ на ЯБД ГАСНТИ состоит из набора подзаписей. Каждая под-запись описывает один документ. Отношения между подзаписями соответствуют отношениям между документами. Основной частью БИЗ является первичная подзапись, содержащая описание документа - объекта обработки. Документы, так или иначе связанные с обрабатываемым, описываются во вторичных подзаписях. Ассортимент вторичных подзаписей в ЯБД ГАСНТИ шире, чем в стандарте СЭВ и включает дополнительный тип подзаписи для документа, исходного для перевода.

Поскольку главной задачей ЯБД ГАСНТИ является обеспечение совместимости между ЯБД ее подсистем, при разработке лексического компонента ЯБД ставилась задача ввести по возможности единые правила представления ЛЕ. Широко используется нормирование структуры ЛЕ (идентификатор записи, справочник подзаписей, даты, размер документа и др.). Применяется около 30 СБД (некоторые для нескольких ЭД). При разработке СБД ставилась цель максимального использования существующих документов. В ЯБД ГАСНТИ в качестве СБД используются стандарты СЭВ (251-76, 252-82, 175-75); кодификаторы ГКНТ (подсистемы ГАСНТИ, внешние системы), коды видов патентных документов ИНПАДОК, номенклатура специальностей научных работников ВАК, 10 СБД из СТ СЭВ 4283-84. Семь СБД были разработаны специально для МЕКОФ ГАСНТИ.

Участие автора настоящей диссертации в подготовке ГОСТ 7.19-85, кроме участия в выработке общей идеологии, состоит в следующих конкретных разработках: 1) подготовлены описания 9 ЭД

(номер государственной регистрации НИР или ОКР, номер государственного учета НИР или ОКР, шифр проблемы (задания) НИР или ОКР,

I

характер работы, тип и модель ЭВМ, язык программирования, тип и версия используемой ОС, возможность поставки изделия или материалов, признак ограничения распространения); 2) подготовлены полные схемы описания (набор и статус ЭД) для двух классов документов (материалы о передовом производственно-техническом опыте, а также алгоритмы и программы); 3) разработаны пять СБД (гриф секретности, степень распространения документа, характер работы, дополнительные данные о характере документа, возможность поставки изделия или материалов). Кроме этого, автор принимал участие в подготовке методических рекомендаций по представлению поисковых образов документов средствами МЕКОФ. и

Трртья глава диссертации посвящена ЯБД Межотраслевой информационной автоматизированной системы (МИАС), при разработке которого автор являлся ответственным исполнителем.

МИАС представляет собой совокупность нескольких информационных центров, называемых звеньями системы. Одно из звеньев является центральным, остальные - отраслевыми. Информационные массивы, генерируемые отраслевыми звеньями МИАС при помощи локальных ЯБД, интегрируются в. единую базу данных научно-технической информации (БД НТИ), эксплуатируемую в центральном звене. В БД НТИ вводятся также массивы документографических данных ряда всесоюзных центров НТИ.

МИАС является интенсивной информационной сетью, поэтому основным принципом проектирования ЛО МИАС был следующий: пользователь должен работать с БД НТИ на едином языке. К началу проектирования ЛО МИАС эксплуатировалось четыре локальных ЯБД: ИСИО-Д (в центральном звене МИАС), Сетка, САРИ, Румб-Д. Кроме того, был разработан коммуникативный формат группы отраслей промышленности

КФ-9. Однако ни один из них не отвечал поставленной задаче. Поэтому было принято решение разработать новый общесистемный ЯБД, который, с одной стороны, обеспечивал бы адаптацию данных, подготовленных отраслевыми звеньями и всесоюзными центрами НТИ, а с другой - функционировал бы как локальный ЯБД одного из звеньев, а именно: центрального звена МИАС.

Несмотря на общность обрабатываемых документальных потоков, все ЯБД звеньев МИАС имели свои системы видов документов, построенные на разных принципах. В результате совместной работы специалистов центрального звена МИАС и системы Сетка была создана единая система видов документов, основные особенности которой следующие: 1) система видов документов двухуровневая: на верхнем уровне выделяется более 10 основных видов документов, которые подчиняют себе виды документов; 2) документы, относящиеся к одному основному виду, имеют общий набор грамматических значений, а документы, относящиеся к одному виду, имеют общий набор обязательных грамматических значений; 3) классификация документов является двухаспектной: кроме вида, каждый документ получает еще и признак характера; 4) каждому документу приписывается определенный библиографический уровень, однако эта характеристика носит только информационный характер (в отличие от ЯБД САРИ и ГАСНТИ).

Грамматические средства ЯБД локальных звеньев МИАС также значительно различались. В диссертации приведены сопоставительные таблицы ЭД локальных систем, а также их сопоставление с ЭД ЯБД ГАСНТИ. На основе этих таблиц был создан перечень грамматических значений, совместимый со всеми ЯБД-источниками и получивший название Типового внутреннего формата МИАС СТВФ). ТВФ содержит 169 ЭД. Структура ТВФ тесно связана с особенностями СУБД "Исход", под управлением которой эксплуатируется БД НТИ. В ТВФ имеется 30 множественных полей данных и 16 групповых, в том числе два перио-

дических. 24 ЭД являются поисковыми: их значения введены в ассоциатор.

ТВФ находится в промышленной эксплуатации в центральном звене МИДС с 1984 года и используется во всех основных процессах функционирования МИАС: формирование и ведение БД НТИ, все виды информационного поиска, организация диалога пользователя с системой, автоматизированная подготовка информационных изданий, конвертирование данных и обмен на магнитных носителях. Кроме этого, ТВФ используется в качестве локального ЯБД еще в нескольких отраслевых звеньях МИАС, которые перешли на типовые программные средства.

Для нормирования библиографической лексики в МИАС используется 11 СБД (вид и основной вид документа, характер документа, базы данных, характер НИОКР, органы НТИ, страны, языки, гриф секретности, степень распространения, министерства, физическая Форма документа). ЛЕ в СБД объединены в классы условной эквивалентности. ЛЕ, входящие в один класс, считаются синонимами. Например, в СБД "Страны" в один класс условной эквивалентности объединены следующие ЛЕ: СССР, ССС, 589, Советский Союз, Союз советских социалистических республик, SU, SON. Разница между ЛЕ внутри класса объясняется различием их Функций в технологических процессах, в результате выделяются следующие типы ЛЕ: дескриптор (представляющий класс в БД НТИ и используемый при поиске), код ГАСНТИ (представляющий класс при конвертировании на ЯБД ГАСНТИ), пользовательское представление (используемое при выдаче результатов поиска и формировании изданий), синоним.(все остальные ЛЕ из класса). Фактически СБД является многоязычным словарем: в нем приводятся формы записи ЛЕ на разных ЯБД и на естественном языке.

СБД МИАС переведены на магнитные носители и образуют машинный файл ТЕРС-БТД. Словарная статья ТЕРС-БТД заводится на каждую

ЛЕ (а не на целый класс) и содержит 15 полей данных. С использованием ТЕРС-БТД могут осуществляться следующие технологические процедуры: контроль лексики при вводе данных; нормирование лексики (замена на дескриптор); выходное конвертирование; выдача результатов поиска; обогащение библиографического запроса; формирование информационных изданий. Объем ТЕРС-БТД составляет в настоящее время 15594 словарных статьи.

В четвертой главр диссертации рассмотрены вопросы обеспечения взаимодействия информационных центров 'ha основе конвертирования документографических данных.

Процесс конвертирования ВИЗ представляет собой последовательность процедур разной степени сложности - от перекодирования символов до преобразования ПОД. Одной из таких процедур является Форматное конвертирование, то есть перевод ВИЗ с одного ЯБД на другой. На поверхностном уровне Форматное конвертирование сводится к замене грамматических показателей ri отдельных словоформ, на глубинном (семантическом) уровне происходит переход к другой системе грамматических и лексических значений. Грамматические и лексические преобразования тесно связаны между собой. Однако для удобства описания их обычно отделяют друг от друга.

Преобразование грамматической структуры основывается на сопоставлении ЯБД друг с другом по таким параметрам, как количество ЭД, объем значения каждого ЭД, правила оформления полей данных. Разными исследователями выделяется до 14 типов соотношений ЭД разных Форматов (В.В.Капралова). В диссертации используется 5 типов: полное совпадение, ЭД исходного формата соответствует нескольким ЭД результирующего формата, ЭД исходного Формата соответствует одному из группы ЭД результирующего формата(выбор определяется дополнительными условиями), один ЭД исходного Формата соответствует части ЭД результирующего формата, в результи-

рующем формате нет ЭД, соответствующего данному. Для каждого типа соответствия разработаны свои методы преобразования.

Параллельно с преобразованием грамматики осуществляется преобразование библиографической лексики, если правила ее представления в исходном и результирующем формате не совпадают. Преобразования сводятся либо к изменению структуры ЛЕ, либо к ее замене. Замена ЛЕ осуществляется по оперативным словарям, включенным в программу конвертирования, или по ТЕРС-БТД одновременно с преобразованием ПОД.

После завершения форматного конвертирования производится формально-логический контроль полученной БИЗ, включающий в себя проверку наличия обязательных ЭД и правильности записи ЛЕ.

Система форматных конверторов МИАС (программное обеспечение разработано О.И.Дмитриевой) состоит из двух групп конверторов -приемных и выходных. Приемные конверторы осуществляют перевод с внешних ЯБД в ТВФ. Автором диссертации разработаны алгоритмы следующих форматных конверторов: из Государственного коммуникативного формата (ГКФ), из ИСИО-Д, из КФ-9. Выходные конверторы осуществляют перевод данных из ТВФ на ЯБД внешних систем: ГКФ, МЕКОФ, ИСИО-Д. Для ряда форматных конверторов автором разработаны не только алгоритмы, но и программы форматного преобразования на разработанном в ВИМИ языке конвертирования (ИСИО-Д —> ТВФ, КФ-9 —> ТВФ, ТВФ —> МЕКОФ). Форматные конверторы находятся в промышленной эксплуатации в центральном и некоторых отраслевых звеньях МИАС.

Приемными конверторами обработано на 31.12.1989 следующее количество документов: 80 тыс. (ИСИО-Д —> ТВФ), 66 тыс. (КФ-9 —> ТВФ), 466 тыс. (ГКФ—> ТВФ). Выходными конверторами обрабатывается от 8 до 13 тыс. документов в месяц каждым.

В приложениях к диссертации приведены сопоставительные

габлицы видов документов и элементов данных, структура Типового «утреннего формата МИАС, Фрагменты алгоритмов и программ фор-5атного конвертирования, инструкция по анализу машинных распе-тток на разных этапах форматного конвертирования, а также акты о шедрении ТВФ и форматных конверторов.

ЗАКЛЮЧЕНИЕ

Основные результаты, полученные в диссертации, сводятся к :ледующему:

1. Показано, что взаимодействие информационных систем в эамках сети предъявляет специальные требования к их лингвистичес-сому обеспечению и предполагает достижение совместимости исполь-зумых языковых средств. Одним из основных компонентов лингвисти-1еского обеспечения документографических АСНТИ является язык библиографических данных, относящийся к группе ИПЯ для описания :одержания документов и используемый в качестве языка описания данных. Язык библиографических данных выполняет в АСНТИ следующие функции: 1) идентификация документа; 2) установление релевант-40сти документа запросу; 3) информационный поиск; 4) контроль звода данных; 5) конвертирование данных; 6) формирование автома-гизированных информационных изданий.

2. Язык библиографических данных представляет собой сово-супность средств для представления библиографической информации в зиде формализованного высказывания - библиографической записи. В сачестве грамматических значений в ЯБ'Д используются постоянные карактеристики, общие для большого числа документов. Эти значения взываются элементами данных и выражаются в библиографической записи при помощи специальных показателей. Переменная информация, 1дентифицирующая отдельный документ, приводится в библиографичес-

кой записи в виде лексических единиц. Лексика языка библиографических данных задана при помощи правил.ее получения из документа. В отдельных случаях используются словари библиографических данных. Обоснована схема описания языка библиографических данных, включающая систему видов документов, грамматическую структуру (формат) и правила нормирования лексики.

3. Обоснованы два пути обеспечения совместимости языков библиографических данных в индуктивных информационных сетях. Выбор того или иного пути определяется способом функционирования сети. В одном случае должен быть разработан коммуникативный формат библиографической записи, используемый только при обмене данными, в другом - создается общесистемный язык библиографических данных сети, на котором эксплуатируется центральная база данных.

4. Проектирование коммуникативного формата для экстенсивной информационной сети рассмотрено на примере Международного коммуникативного формата ГАСНТИ (ГОСТ 7.19-85), разработанного при участии автора.

5. Разработан язык библиографических данных МИАС, грамматика которого представлена Типовым внутренним форматом, содержащим 169 элементов данных, а правила нормирования лексики отражены в 11 словарях библиографических данных, функционирующих в автоматическом режиме в составе Терминологического словаря библиографических и технологических данных. Язык библиографических данных МИАС находится в промышленной эксплуатации в центральном и',некоторых отраслевых звеньях системы.

6. Разработаны алгоритмы и частично программы приемных и выходных Форматных конверторов, эксплуатируемых в промышленном режиме в центральном звене МИАС и некоторых других информационных центрах.

Основные положения диссертации отражены в следующих публикациях:

1. Беликова А.Я. К определению понятия "совместимость тезаурусов" // Семантика естественных и искусственных языков в специализированных системах: Тезисы докладов. - Л.: Изд-во Ленинградского университета, 1979. - С. 20-21.

2. Беликова А.Я. Форматы библиографического описания в МАСНТИ // Проблемы автоматизированной обработки научно-технической информации. - М.: ВИМИ, 1983. - С. 189-190.

3. Антопольский А.Б., Беликова А.Я., Дмитриева О.И., Самсо-нова Н.И., Сливницина Н.А. Основные принципы и процедуры конвертирования документальных баз данных в МАСНТИ // Проблемы создания ретроспективных поисковых массивов в автоматизированных центрах НТИ: Тезисы докладов XV Всесоюзного научного семинара "Системные исследования ГАСНТИ". - М.,1985. - С. 44-47.

4. Беликова А.Я. Принципы организации языка библиографических данных МАСНТИ // Проблемы автоматизированной обработки информации: Тезисы докладов межотраслевых научных конференций, совещаний, семинаров. - М.: ВИМИ, 1985. - С. 88-89.

5. Антопольский А.Б., Беликова А.Я. Лингвистическое обеспечение Межотраслевой информационной автоматизированной системы.

М.:ВИМИ, 1987. - (Нормативные и методические материалы. Сер. Информатика и информационная технология, вып. 6). - 44 с.

6. Беликова А.Я. Некоторые теоретические принципы форматной конверсии // Информационно-экономические проблемы обеспечения научно-информационной деятельности. - М.: ВИМИ, 1987. - С. 67-68.

7. Беликова А.Я. Словари библиографических данных Межотраслевой информационной автоматизированной системы // АСВИЯ: Информационные материалы. - 1987. - N 2. - С. 16-21.

8. Беликова А.Я. Теоретические основы проектирования языков библиографических данных в информационных системах // Вопросы информационной технологии первой очереди ГАСНТИ: Тезисы докладов ' XVI Всесоюзного научного семинара "Системные исследования ГАСНТИ". - М., 1987. - С. 72-74.

9. Королева А.Я. Методические вопросы проектирования языков библиографических данных для АСНТИ // Межотраслевая информационная служба. - 1988. - N 3. - С. 40-42.

Ю.Королева А.Я. Лингвистическое обеспечение Форматной конверсии документографических баз данных в МИАС // Межотраслевая информационная служба. - 1989. - N 1. - С. 18-21.