Формализованное дифференцированное свертывание (аннотирование и реферирование научно-технических документов)

Перевозчикова, Капиталина Викторовна

Библиотековедение, библиографоведение и книговедение

автореферат диссертации по документальной информации, 05.25.03, диссертация на тему:Формализованное дифференцированное свертывание (аннотирование и реферирование научно-технических документов)

кандидата педагогических наук: Перевозчикова, Капиталина Викторовна
город: Ленинград
год: 1989
специальность ВАК РФ: 05.25.03

Автореферат по документальной информации на тему «Формализованное дифференцированное свертывание (аннотирование и реферирование научно-технических документов)»

Автореферат диссертации по теме "Формализованное дифференцированное свертывание (аннотирование и реферирование научно-технических документов)"

и " ( ■ министерство культуры РСФСР Ленинградский ордена Дружбы народов государственный институт культуры им.Н.К.Крупской

• На правах рукописи УДК (002.2+001.814):519.688

ПЕРЕВОЗЧШЮВА Капиталина Викторовна

ФОРМАЛИЗОВАННОЕ ДИФФЕРЕНЦИРОВАННОЕ СВЕРТЫВАНИЕ (АННОТИРОВАНИЕ И РЕФЕРИРОВАНИЕ) НАУЧНО-ТЕХНИЧЕСКИХ ДОКУМЕНТОВ

Специальность 05.25.03 "Библиотековедение и библиографоведение"

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата педагогических наук

Ленинград 1989

■ Работа выполнена на кафедре отраслевых библиографий Лени: градокого ордена Дружбы народов государственного института им Н.К.Крупокой,

Научный руководитель - кандидат педагогических наук,

доцент Блюменау Д.И.

Официальные оппоненты - доктор филологических наук,

Сахарный Л.В.,

кандидат педагогических наук, Добронравов И.О.

Ведущая организация - Библиотека Академии наук СССР.

Защита состоится " 1989г. в 14 час на

заседании спеиразщзированногй' совет^ К 002,01.01 по присужден ученой степени кандидата педагогических наук в Леню градском дена Дружбы народов государственном институте культуры вмени Н.К.Крупокой по адресу: 191065»Ленинград,Дворцовая наб.,д.2.

С диссертацией можно ознакомиться в библиотеке института

Автореферат разослан шУ.-Г.г^Ф^) 1989 года.

Ученый секретарь специализированного совета

Позднякова Г.И

, ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

'Л'^" Актуальность проблемы. В решении задач по ускорению социаль™ ;д\йо.дарогномического развития страны большая роль принадлежит библиотекам и органам научно-технической информации по разработке и осуществлению мер, направленных на улучшение библиотечно-инфор-мационного обслуживания научных работников, специалистов и рабочих промышленного и сельскохозяйственного производства. Возникает необходимость коренной перестройки работы библиотек и органов научно-технической информации, обеспечивающей не только повышение их роли как научно-информационных учреждений, но и укрепление связей с производственной деятельностью предприятий и организаций.

Одним из путей повышения эффективности деятельности библио-течно-библиографических и информационных учреждений является дальнейшее развитие и совершенствование методов аналитико-синте-тической переработки информации для удовлетворения профессиональных информационных потребностей ученых и специалистов.

Одно из ведущих направлений в совершенствовании аналитико-синтетической переработки информации открывают методы формализации ряда процессов библиотечной деятельности, в частности, процесса библиографического свертывания научно-технических документов.

В литературе часто используют синонимы понятия "свертывание" - сжатие, компрессия, кумуляция и др. В данной работе под свер-г тыванием информации будем понимать совокупность4процессов анали-тико-синтетической переработки информации, обеспечивающих уменьшение физического объема документа с определенной потерей его информативности. Иными словами, свертывание - это процедура определения уровня необходимой и достаточной информативности сообщения в зависимости от стоящей коммуникативной задачи. К такой процедуре прибегают чаще всего в случае подготовки вторичных документов.

В настоящее время актуальной является подготовка различи,к . видов вторичных документов на основе формализованных процедур свертывания информации. Следует подчеркнуть, что под формализацией интеллектуальных информационных процессов поднимается разработка таких процедур обработки семантической

информации, которые выполняются человеком без обращения к смыслу текста. При этом предполагается, что выполнение по формализованной методике операций над текстами документов приведет к результату, достаточно близкому по своему качеству к результату, полученному при содержательном (интеллектуальном) анализе тех же текстов. С одной стороны, применение формализованных процедур при обработке текстов всегда приводит к некоторому снижению качества обработки, с другой стороны, формализация открывает широкие возможности применения для обработки текстов вычислительной техники, что дает колоссальный эффект с точки зрения скорости обработки, единообразного подхода к ней, а главное - экономии материальных затрат.

Долгое время считалось, что широкому развитию автоматизации библиотечно-библиографических процессов препятствует, прежде всего, отсутствие самой вычислительной техники и специалистов, умеющих с ней обращаться. Однако при этом не учитывалось главное - применение самой техники для решения интеллектуальных семаптк -ческих задач в библиотеке требует разработки формализованных процедур описания этих процессов, т.е. создания специализированных языков и алгоритмов. Поэтому разработка формализованных процедур свертывания информации является важнейшим содержательным этапом подготовки библиотечно-библиографических процессов для реализации их на ЗШ,

Однако в настоящее время существуют еще препятствия на пути широкого использования формализованных методов свертывания вторичных документов и дальнейшей разработки на их основе машинной технологии свертывания. В частности:

1) большинство известных методов свертывания научно-техничес ких документов основывается на экстрагировании - извлечении из текста первичного документа наиболее "существенных" фраз. Совокупность таких фраз образует экстракт - вторичный документ, не имеющий четкой функциональной направленности. На такой экстракт возлагаются одновременно функции и реферата, и аннотации;

2) извлечение из текста первичного документа наиболее "существенных" фраз осуществляется с помощью определенного аппарата идентификации. Однако значительное количество фраз но иден-

тифицируется с его помощью и, следовательно, не включается в состав вторичного документа.

Для повышения избирательности в библиотечно-информационном обслуживании и повышения качества получаемых документов возникает необходимость в разработке такого подхода к формализованному свертыванию, который бы позволил получать функционально ориентированные вторичные документы, т.е. речь идет о разработке дифференцированного формализованного экстрагирования первичных документов с целью получения различных по целевому и читательскому назначению вторичных документов - аннотаций и рефератов. При этом поскольку при машиннсзй реализации дифференцированного свертывания возникает возможность получения самого широкого спектра вторичных документов, то в основу дифференцированного формализованного свертывания выдвигается принцип, согласно которому дифференцированный подход к свертыванию научно-технических документов должен предусматривать механизмы, позволяющие в пределе обеспечивать стопроцентное экстрагирование фраз первичного документа.

Исходя из изложенного, в качестве объекта исследования в данной работе выступают формализованные процессы свертывания научно-технических документов.

Предметом исследования является изучение возможности разработки процедур, обеспечивающих дифференцированное алгоритмическое свертывание'текстов научно-технических статей для получения вторичных документов различного функционального назначения.

Цель диссертационного исследования заключается в изучении возможностей индикаторов, как средства, повышающего 'качество дифференцированного экстрагирования.

Для достижения поставленной цели необходимо решение следующих задач:

1) на основе изучения существующих подходов к содержательному и функциональному различению вторичных документов разработать модели различных видов вторичных документов - аннотаций, рефератов, реферативных аннотаций и их разновидностей;

2) на основе изучения существующих методов оценки качества

вторичных документов выбрать из них наиболее приемлемый и на его основе разработать авторский подход к оценке ВД;

3) на основе изучения существующих методов формализованного свертывания научно-технических документов выбрать наиболее перспективный метод и обосновать его приемлемость в рамках настоящей работы;

4) разработать методику формализованного дифференцированного свертывания научно-технических документов и апробировать ее на массиве журнальных статей различной жанровой принадлежности;

5) выявить достоинства и недостатки разработанной методики, очертить границы ее применения и выработать рекомендации по практическому ее использованию.

Методологической базой исследования явились работы В.И.Ленина По вопросам отбора, переработки, распространения и оценки информации, а также руководящие документы Коммунистической партии и Советского правительства по библиотечному делу, библиографии, информации. Для решения поставленных задач применялись методы, используемые в библиографоведении (формализованное экстрагирование), информатике (лоаспектный анализ), лингвистике (логико-грамматический подход к различению ЦЦ) и другие.

Теоретической основой диссертации послужили исследования .в библиографоведении и информатике по вопросам аналитико-синтети-ческой переработки информации.

Автор видит научную новизну работы в том, что в ней впервые предложена оригинальная концепция использования лексических индикаторов как средства функциональной идентификации фраз и разработаны алгоритмические процедуры (формулы выбора) для дифференцированной подготовки вторичных документов различного функционального назначения и повышения качества итих ВД.

Практическая значимость работы состоит в том, что - разработанная методика дифференцированного формализованного свертывания научно-технических документов может быть применена в научно-технических библиотеках и службах информации для создания разновидностей вторичных документов, способных выполнять

как поисковые, так и коммуникативные функции в информационном процессе;

- б -

- использование методики дифференцированного формализованного ■ экстрагирования способствует повышению качества создаваемых вторичных документов, уменьшению непроизводительных затрат труда и рабочего времени;

- формализованный подход, используемый в методике-дифферен-цированного экстрагирования,, может явиться основой для решения проблемы автоматизации дифференцированного свертывания научно-технических документов.

Предметом защиты являются:

■ - обоснование роли индикаторов как средства функциональной идентификации фраз для повышения качества дифференцированного формализованного свертывания научно-технических документов;

- методика формализованного дифференцированного экстрагирования первичных документов по специально разработанным формулам выбора, в результате которой получаются вторичные документы -аннотации, рефераты, реферативные аннотации и их разновидности;

- методика оценки экспериментально полученных вторичных документов.

Апробация работы. Основные положения работы докладывались на научно-практических конференциях преподавателей СКГИК,1986-1989гг) а также были реализованы в учебном процессе КГИК на практических занятиях по курсам "Методика реферирования" и "Методика научно-исследовательской работы".

С • уктура диссертации. Задачи исследования определили структуру диссертации, которая состоит из введения, трех глав, заключения, списка литературы и приложений.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении раскрывается актуальность темы диссертационного исследования, рассматривается ее теоретическая и практическая значимость, отмечается новизна, определяются цели и задачи, положения, выносимые на защиту.

В первой главе "Проблемы свертывания научно-технических документов" описываются проблемы функционального и содержательного

- б -

различения видов вторичных документов, на основе рассмотрения которых обосновываются возможности построения моделей вторичных документов. Освещаются проблемы оценки качества вторичных документов, при рассмотрении которых выбирается метод сопоставления экспериментальных вторичных документов с эталонными как наиболее приемлемый. Исследуются существующие методы квазисвертывания и обосновывается выбор метода свертывания научно-технических документов, базирующийся на использовании лексических индикаторов. Рассматриваются возможности индикаторного метода для формализованного дифференцированного экстрагирования научно-технических документов.

Традиционно в экспериментальных исследованиях по автоматическому и "ручному" (формализованному) экстрагированию конечный продукт свертывания, или экстракт, принято называть "квазирефератом" На самом же деле этот вторичный документ может быть не только рефератом, но также и аннотацией или реферативной аннотацией в зависимости от целей свертывания. Поэтому правильнее было бы называть документы такого рода "квазивторичными документами", выделяя среди них не только "квазирефераты", но и "квазианнотации", а также "квазиреферативные аннотации".

В настоящей работе предусматривалось создание на основе экстрагирования таких видов вторичных документов как аннотация, реферат, реферативная аннотация, различающихся по смысловому содержанию и функциональному назначению. Основное требование к содержанию аннотации и реферата с точки зрения модельного их представления заключается в том, что элементы текста (фразы, фрагменты) в них не должны пересекаться. Аннотация как носитель метаинформации должна принадлежать к докуг.:ентографическому ряду вторичных документов и раскрывать тему и содержание первичного документа. Реферат как носитель "собственно " информации должен принадлежать к фактографическому ряду, т.е. служить непосредствен ным источником информации при решении определенных задач. Эти -две основные модели позволяют представить и реферативную аннотацию как некий "симбиоз" реферата и аннотации, являющейся носителем как метаинформации, так и "собственно" информации.

Модельный подход предполагает предварительное построение ряда вторичных документов, отличающихся друг от друга по целевому и читательскому назначению. Каждый элемент вторичных документов этого ряда должен обладать только ему присущим определенным набором содержательных аспектов. Таким образом, одним из вариантов решения проблемы различения видов вторичных документов является различение их текстов по аспектному наполнению: тексты аннотации и реферата не должны пересекаться аспектно, текст реферативной аннотации строится на пересечении аннотативных и реферативных аспектов содержания.

Поскольку в исследовании речь идет о получении вторичных документов формализованным путем, то возникает вопрос о качестве этих документов, а следовательно, и об эффективности методики формализованного свертывания вторичных документов с точки зрения задач исследования.

Если принять во внимание технологию (способ) оценки вторичных документов, то все известные до настоящего времени методы можно условно разделить на четыре группы: сравнение индексацион-ных терминов, метод экспертной оценки (запросный метод), поаспект ный анализ, сравнение с эталонными вторичными документами. Необходимо выбрать такой метод оценки вторичных документов, который позволил бы учесть их функциональные и содержательные характеристики одновременно. С этих позиций наиболее приемлемым является метод пофразного аспектного сопоставления экспериментально полученных вторичных документов с эталонными вторичными документами.

При этом следует заметить, что помимо оценки вторичных документов возникает необходимость в оценке эффективности применяемой методики свертывания. Одним из факторов, влияющих на эффективность методики свертывания является жанр первичного документа, т.е. характер и способ изложения содержащейся в нем информации. В перечне жанров, предложенном А.В.Соколовым ^{ выделены: постановочные, теоретические, методические документы, а также документы,

I/ Соколов А,В. Метод алгоритмического избирательного свертывания (ЛИСТ)//НТИ.Сер.2.-1972.-№ 8.-С.9-14.

учитывающие опыт работы, и документы, содержащие описание фактографической информации.

Применение методов формализованного свертывания потребовало знания структурных особенностей текстов научно-технических документов. При этом обычно выделяются такие структуры текста как синтаксическая, семантическая, коммуникативная, аспектная, функционально- смысловая и другие. Для настоящего исследования наибольший интерес представляют аспектная и синтаксическая структуры текста. При этом аспектная структура выделяется в качестве ведущей, а синтаксическая - в качестве дополнительной для разработки алгоритма свертывания.

Перечни смысловых аспектов содержания, часто называемые "сетками", как правило, формулируются заранее, до начала процедуры свертывания. Выделяются два типа перечней, или "сеток", содержательных аспектов: первый отражает структуру (логику) документа, второй - структуру (логику) области знания или группы объектов. Для разработки методики формализованного свертывания наибольший интерес представляет перечень аспектов, отражающих структуру документа. К таким аспектам относятся: постановка проблемы (ПП), целевая установка СЦУ), известный вариант решения (ИВР), оценка известного варианта решения (Ои^ВР), предлагаемый вариант решения (ПВР), особенности предлагаемого варианта решения (ОсПВР), оценка предлагаемого варианта решения (ОцПВР), рекомендации (Рек.), результаты (Реэ.), выводы (Выв.), область применения (ОП).

Для идентификации предложений текста, относящихся к тому или иному аспекту содержания первоисточника, применяются лексические идентификаторы, называемые маркерами или аспектными маркерами .

Изучение синтаксической структуры текста для создания методики формализованного свертывания позволяет использовать в ней средства внутритекстовой связности - коннекторы, служащие для соз дания.связного, обладающего определенным смысловым единством, текста вторичного документа.

Среди существующих методов квазиреферирования выделяются статистические, индикаторные и позиционкче. Для разработки методики формализованного свертывания наиболее приемлем кпдикаторшй

метол»основанный на факте присутствия в тексте, подлежащем пвер-тывашно, некоторых элементов - лексических индикаторов (слов или словосочетаний), с помощью которых можно определить значимость, или,наоборот, незначимость предложений, входящих. в состав текста. Об определенной результативности индикаторного метода свидетельствуют разработки, проводимые р НИС ЛГИК им.Н.К.Крупской совместно о ВНИИ ИЮ0РМЭЛЕК1Р0, в ходе которых выявлена принципиальная возможность идентификации фраз первичного документа с помощью лексического аппарата - тезауруса неключевых сдов^ состоящего из вне-тематической (нетерминологической) лексики научных текстов.

Однако, несмотря на работоспособность и перспективность индикаторного метода, его практические возможности для формализованного овертыЕашш еще не исчерпаны. Большинство существующих методик по автоматическому (формализованному) свертыванию научно-технических документов рассчитано на получение в результате свертывания не функционально ориентированного вторичного документа, а так называемого "квазиреферата", состоящего из набора "наиболее информативных" фраз и выполняющего в основном лишь поисковые функции. Практика библиотечно-информационного обслуживания и Широкое внедрение интегральных автоматизированных систем требует диффер енцированного подхода к формализованному экстрагированию, позволяющего осуществлять при одноразовом -анализе первичного документа предпосылки для многократного использования результатов этого анализа при создании целого набора вторичных документов: аннотаций, рефератов, реферативных .аннотаций и их разновидностей, способных .выполнять не только поисковые, но и коммуникативные функции.

В соответствии с существующими методиками свертывания во вторичный документ "перекочевывают" только те фразы, которые отражают тот или иной содержательный аспект. При этом не принимается во внимание значительная часть фраз, которая в принципе при подготовке широкого набора вторичных-документов может также иметь существенное значение. Поэтому с точки зрения дифференцированного экстрагирования для подготовки широкого ассортимента вторичных документов существенными следует считать практически все фразы первичного документа (кроме служебно-синтаксических). Для этого

необходим лексический аппарат такого уровня насыщения, который бы обладал достаточными возможностями для идентификации.всех фраз первичного документа. Поскольку с помощью существующих словарей маркеров идентифицируются лишь фразы, относящиеся к содержатель- . шм аспектам, то возникла идея повысить идентифицирующие возможности лексического аппарата экстрагирования и качество получаемых на его основе вторичных документов за счет более широкого использования индикаторов, причем не только за счет увеличения их числа, но и изменения самого подхода к индикаторам как к средству функциональной идентификации фраз.

Следует подчеркнуть, что вся лексика языка научно-техническо! литературы разделяется на два класса - тематическую (ключевую) и внетематическую (неключевую) лексику. Первая выполняет номинативную функцию - характеризует тему или предмет документа, вторая определяет функцию фразы в речевом потоке, отношение ее к. определенному смысловому содержанию, наличию модальности. Если ключевая лексика специфична для документов определенной области знания, то неключевая - универсальна для широкого класса текстов различной отраслевой принадлежности.

Фразы текста в своем большинстве не только номинативны, но и функциональны, причем определенным синтаксическим конструкциям, "выполненным"из лексики внетематического слоя, соответствуют определенные функциональные типы фраз - уточняющие, обобщающие, результирующие, констатирующие и т.д. Каждую фразу текста по выполняемым ею функциям можно отнести к определенному типу. Изучение различных типов фраз необходимо для выбора формы и вида свертывания. Одним из возможных направлений в этом русле является изучение возможности типизации фраз с помощью определенного набора формальных текстовых признаков, к которым относятся индикаторы

Использование средств функциональной типизации фраз для процесса формализованного дифференцированного экстрагирования позволяет получить не просто экстракт, как набор'отдельных фраз из текста первоисточника, а относительно связный тек".т, обладающий не только определенным смыслоеым, но и стилистическим единством.

Таким образом, в первой главе нами обоснована необходимость, а также теоретические и методические положения экспериментального исследования возможностей индикаторов для повышения качества

формализованного дифференцированного экстрагирования научно-технических документов.

Во второй главе "Экспериментальное исследование возможностей индикаторов для повышения качества дифференцированного экстрагирования научно-технических документов" обосновываются цели и задачи эксперимента, приводится характеристика экспериментального массива, разрабатывается аппарат дифференцированного экстрагирования. Дается описание эксперимента, приводятся его .результаты.

Во второй главе для достижения поставленной з данной работе' цели - обеспечить дифференцированное свертывание научно-технических текстов - были предприняты попытки решить в экспериментальном исследовании следующие задачи:

1) уточнить и дополнить лексический аппарат экстрагирования - словарь маркеров, индикаторов, коннекторов, который позволил бы в пределе идентифицировать каждую фразу первичного документа, учитывая ее потенциальные возможности для включения во вторичный документ ';

2) с помощью уточненного и дополненного варианта лексического аппарата идентифицировать каждую фразу экспериментального массива первичных документов, в результате чего получить формальное представление о функциональной структуре текстов первичных документов в виде списка формул фраз;

3) разработать структурные модели вторичных документов -аннотаций, рефератов, реферативных аннотаций и их разновидностей;

4) разработать несколько вариантов формул выбора текстовых признаков документа для составления на их основе не только различных видов вторичных документов - аннотаций, рефератов, реферативных аннотаций, но и их разновидностей, отличающихся по своим структурным элементам в соответствии с разработанными моделями этих разновидностей вторичных документов;

5) путем сопоставления разработанных формул выбора текстовых признаков с формулами фраз первичных документов получить на каждый первичный документ экспериментального массива набор вторичных документов - аннотаций, рефератов, реферативных аннотаций и их разновидностей;

I/ За основу такого аппарата нами был взял словарь маркеров, разработанный в НИ С ЛГИК им.Н.К.Крупской совместно с ИНФОРМЭЛЕКТ-

?0.

6) разработать методику оценки экспериментально полученных вторичных документов и оценить их качество.

Экспериментальное исследование проводилось на массиве 90 куриальных статей различной научно-технической тематики и жанровой принадлежности, на каждую из которых было получено по 8 разновидностей вторичных документов, что соответствовало набору выбранных нами моделей.

Разработка аппарата дифференцированном экстрагирования сводилась к формированию лексического аппарата, а также к созданию формул выбора для разновидностей вторичных документов. С учетом дифференцированного подхода к экстрагированию, а также с учетом широкого привлечения индикаторов словарь маркеров, индикаторов, коннекторов был существенно переработан и дополнен новыми лексическими единицами. В частности, рассмотрение индикаторов как средства функциональной"идентификации фраз потребовало создания не просто словаря ицдикаторов, а словаря - классификатора, включающего 58 различных групп функционально эквивалентных слов и насчитывающего около 1,5 тыс.лексических единиц.

Для создания формул выбора, рассчитанных на получение набора разновидностей вторичных документов, разработаны структурные модели этих разновидностей. Следует заметить, что требования к содержанию* и функциям разновидностей вторичных документов должны задаваться в виде запроса, соответствующего реальной информационной потребности - как типовой, так и индивидуальной. При этом пред полагалось: а) вариантов запросов на разновидности вторичных документов может быть достаточное множество; б) в опосредованном виде на конкретные запросы потребителей рассчитаны реально существующие разновидности вторичных документов, представленные в различных информационных изданиях, например, в реферативных журналах ВИНИТИ; в) из текста реально существующей разновидности вторичного документа можно выделить перечень отраженных в пей содержательных -аспектов, и этот перечень будет обобщенной аспектной моделью данной разновидности в,торичного документа.

При анализе опубликованных в РЖ ВИНИТИ вторичных документов было выявлено, что чаще всего публикуется 7 их основных разновидностей: 3 разновидности аннотаций, 3 разновидности рефератов и

2 разновидности реферативных аннотаций, каждая из которых: обладает стабильной аспектной структурой. Помимо этого предлагалось рассмотреть еще I разновидность реферата, ориентированную на известный вариант решения проблемы, т.к. отражающие этот аспект фрагменты текста становятся существенными, если ставится задача подготовки, например, квазиобзорного документа.

Кроме перечня аспектов в структурных моделях вторичжс документов предусматривался перечень наиболее распространенных типов фраз, характерных для той или иной разновидности вторичных документов: А-констатирущие, Б-условные, В-причинно-следственные, Г-целевые, Ж-уточияющие, рекомендующие, объясняющие, Л-обобщающе-результирующие, Н-оценочно-вероятностные, С-иллюстрирующие.

В соответствии с вариантами структурных моделей вторичных' документов в формулах выбора предусматривались следующие 'элементы: I) набор типов фраз, характерных для конкретной разновидности вторичного документа; 2) набор маркеров, позволяющий в соответствии с аспектами модели отбирать фразы во вторичный документ с точки зрения "на включение"; 3) набор индикаторов, позволяющий в соответствии с типами фраг1 отбирать их с точки зрения "на уточнение".

Принадлежность фразы к тому или иному типу определялась набором входящих в нее маркеров и индикаторов, однозначно характеризующих тот или иной тип фразы.

В ходе эксперимента каждый первичный документ анализировался с помощью разработанного лексического аппарата. При этом для каждой фразы первичного документа в специально разработанном бланке-анализе проставлялись соответствующие метки - условные обозначения маркеров, индикаторов, коннекторов, в совокупности представляющие собой формулу фразы. Анализ формул фраз показал, что с. помощью используемого аппарата внетематической лексики идентифицируется 92% фраз экспериментального массива документов. Далее каждая из восьми разработанные формул выбора сопоставлялась с формулами фраз, в результате чего фразы отбирались для включения во вторичный документ.

Всего было реально получено 380 вторичных документов, что составляет 53^ от предполагаемого их числа. Из получившихся вторичных документов большую часть составляют аннотация А^ - 77 документов (86%) и реферативные аннотации РА0 - 73 документа

(84?6), РА| - 67 документов (76%). Меньшую же часть составляют рефераты Рд - 7 документов (8%) и аннотации Ад - 22 документа (24%) Кроме того было получено аннотаций Ао - 48 документов (53$), рефератов - 40 документов (44%), - 46 документов (51%).

Результаты составления вторичных документов зависят от жанровых характеристик первичных документов, подлежащих' свертыванию. Сопоставительный анализ количества экспериментально полученных вторичных документов показывает, что предлагаемая в настоящей ра. боте методика дифференцированного формализованного свертывания наиболее приемлема для теоретических документов и документов смешанных жанров (теория + опыт работы и теория + информация о фактах) . Для постановочных же документов и документов, содержащих информацию о фактах, эта методика менее пригодна.

В качестве метода оценки использовался метод сопоставления экспериментальных вторичных документов с эталонными. Разработанные эталоны включали в себя набор аспектов содержания, входящих в формулу выбора каждой из 8 разновидностей вторичных документов. При этом отбор фраз в эталон проводился только на содержательном уровне, без учета типов фраз и входящих в эти фразы формальных текстовых признаков - маркеров.

Для оценки экспериментальных вторичных документов с учетом специальных критериев была разработала пятибалльная система оценок: 5- "отлично", 4 - "хорошо", 3 - "удовлетворительно", 2 -"неудовлетворительно", I -"плохо". При этом 194 вторичных докумен та (Ы%) получили положительные оценки (5,4,3), 186 вторичных документов (49%) - отрицательные оценки (2,1). Самое высокое ка--че'ство у вторичных документов, составленных на теоретические документы и документы смешанных жанров. Ниже качество у вторичных документов, составленных на методические документы и документы об опыте работы. Самое низкое качество у вторичных документов, составленных на постановочные документы и документы, содержащие информацию б фактах.

Таким образом, можно сделать вывод, что предлагаемая методика формализованного дифференцированного экстрагирования наиболее приемлема для теоретических документов и первичных документов смешанных жанров. Менее пригодна, а в большинстве случаев вообще непригодна методика к постановочным документам и к документам, содержащим информация о фактах. Но надо иметь в виду, что эти

выводы действительны лишь в отношении тех моделей вторичных документов (формул выбора), которые были выбраны для эксперимента. Относительно других возможных моделей вторичных документов и соответствующих им формул выбора эти выводы могут не подтвердиться результатами эксперимента.

В третьей главе "Потенциальные возможности индикаторного метода формализованного экстрагирования научно-технических текстов" описываются достоинства и недостатки методики дифференцированного экстрагирования, приводятся рекомендации по ее использованию.

К числу недостатков методики формализованного дифференциро-' ванного экстрагировения относится нестопроцентная ее "работоспособность" даже для документов тех жанров, для которых методика наиболее приемлема. Это приводит либо к неполучению по данной ' методике тех или иных разновидностей вторичных документов, либо к получении вторичных документов низкого качества.

Использование широкой номенклатуры индикаторов позволяет повысить полноту и точность "выдачи" информации и тем самым повысить возможности дифференцированного экстрагирования. Сопоставление вторичных документов, полученных по маркерному принципу экстрагирования с экспериментальными вторичными документами показало, что за счет применения индикаторов качество экстрагируемос-ти вторичных документов повышается на II ,7%, что позволяет сделать вывод о перспективности применения индикаторов как средства функциональной идентификации фраз.

В зависимости от своей жанровой принадлежности научно-технические документы обладают определенной избирательностью с точки зрения видовой структуры свертывания. Поэтому выработаны конкретные рекомендации по составлению оптимального набора разновидностей вторичных документов для каждого жанра первичных документов. В целях снижения временных и интеллектуальных затрат на обработку текстов первичных документов тех жанров, к которым неприемлема разработанная методика, предлагается на технологическом участке свертывания входного потока первичных документов заранее, до этапа формализованного анализа текстов, делить входной поток на экстрагируемые и незкстрагируемые документы в зависимости от их жанровой принадлежности.

Технология подготовки кваз:;с.горичных документов предусматривает разделение этого процесса на собственно экстрагирование

и постредактирование, что позволяет рассматривать полученные в результате экстрагирования вторичные документы как "заготовки", которые лишь после постредактирования будут способны выполнять -коммуникативные функции. При переводе методики формализованного .дифференцированного экстрагирования на машинную технологию предлагается автоматизировать операции собственно экстрагирования. Операции постредактирования будут выполняться'на интеллектуальном уровне, что повлечет за собой изменение профессиональных тр? бований к референту - обучение референта навыкам редактирования.

В заключении формулируются дальнейшие направления исследова ний в области формализованного дифференцированного свертывания.

Основные положения диссертации изложены в публикациях:

1. Экспериментальное исследование вторичных документов, полученных машинным экстрагированием по маркерно-индикаторному методу //НТИ.Сер.2.-I987.-»6.-С.23-29.

2. Неключевая лексика и ее функции в алгоритмических процедурах избирательного свертывания научно-технических текстов // НГИ. Сер.2.-1988.-» 12.-С.38-45 /в соавторстве с Д.Й.Блюменау

"и О.С.Сергеевой/.

3. Извлечение фактографической информации■из первичных документов по формальным текстовым признакам.// Создание и интеррация документальных и фактографических. ИГ1С: Межвед.сборник науч.трудов.- Новосибирск. 1988.-С.142-146.

Бесплатно

?от—т ЛШК Зак.540.Т.Ю0. 27.09.89.

Похожие работы

Документальная информация
05.25.00