автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Исследование и разработка теоретических основ координатного индексирования документов

кандидата технических наук
Ханжин, Анатолий Григорьевич
город
Москва
год
1998
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка теоретических основ координатного индексирования документов»

Автореферат диссертации по теме "Исследование и разработка теоретических основ координатного индексирования документов"

РГ-о ОД г 1 СЕН оз

На правах рукописи

УДК 025.4:0.002.2(043.3)

Ханжин Анатолий Григорьевич

ИССЛЕДОВАНИЕ И РАЗРАБОТКА ТЕОРЕТИЧЕСКИХ ОСНОВ КООРДИНАТНОГО ИНДЕКСИРОВАНИЯ ДОКУМЕНТОВ

Специальность 05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва 1998

Работа выполнена во Всероссийском институте научной и технической информации.

Официальные оппоненты: -доктор технических наук, профессор

Резер Семен Моисеевич -кандидат технических наук, доцент Иванкин Владимир Иванович

Ведущая организация: Российский государственный

гуманитарный университет (факультет информатики)

Защита состоится октября 1998 г. в ¿2 часов на заседании диссертационного совета Д 003.02.01 во Всероссийском институте научной и технической информации по адресу: 125219, Москва, ул. Усиевича, д. 20, ВИНИТИ.

С диссертацией можно ознакомиться в библиотеке ВИНИТИ. Автореферат разослан " //" сентября 1998 г.

Ученый секретарь диссертационного совета доктор биологических наук, профессор

М.А. Каменская

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

АКТУАЛЬНОСТЬ РАБОТЫ.

Создание большого числа автоматизированных информационно-поисковых систем (ИПС) привело к широкому применению координатного индексирования документов (КИД). Однако применение дорогостоящей техники и привлечение значительного числа индексаторов в таких системах не могли не вызвать вопросы повышения эффективности их функционирования, в частности, эффективности КИД. Поэтому вполне естественно предположить, что расширение сферы применения КИД приведет к интенсивному исследованию этого процесса.

Факты же свидетельствуют, что информатика уже в начале своего развития уделяла большее внимание автоматизации КИД, нежели теоретическому изучению глубинной сущности этого процесса. Отсутствие же теоретического фундамента КИД привело к тому, что до сих пор оно осуществляется интуитивным путем, без необходимой индексаторам научно обоснованной методики. Сегодня не существует ни надежной теории КИД, на основе которой можно было бы разрабатывать методику КИД, ни самой методики, позволяющей целенаправленно выбирать ключевые слова (КС) и компоновать ПОД. Если учесть, что сфера применения КИД расширяется, а требования к качеству индексирования все больше повышаются, то решение этой проблемы становится важным делом для информатики.

В настоящее время КИД чаще осуществляется по правилам, приведенным в документе, выдаваемом индексаторам и называемом обычно инструкцией. В ней приводятся рекомендации по выявлению КС, правила выбора лексических форм КС, правила формирования поискового образа документа (ПОД) и т.д. При этом для нахождения КС в индексируемом документе индексатор может воспользоваться лишь такими признаками, как: КС - "слова и словосочетания документа, существенные для описания содержания документа", или "КС можно найти в таких фрагментах текста, как: заглавие, введение, заключение,..." 1. Если искать по такой рекомендации слова, существенные для описания содержания документа, например, во введении, то у индексатора непременно возникнет вопрос: является ли данное слово существенным. Поскольку других конкретных признаков, по которым он мог бы решать свою задачу, в таких инструкциях нет, то ему остается выбирать КС, полагаясь лишь на свою интуицию. Ясно, что если так осуществлять КИД, то в ПОД могут войти ненужные для поиска слова в качестве КС, а нужные КС - отсутствовать. Но это, как известно, приводит к снижению эффективности функционирования ИПС. Сказанное означает, что в информатике, а точнее в познании КИД, существует проблема. ЦЕЛЬЮ НАСТОЯЩЕЙ ДИССЕРТАЦИОННОЙ РАБОТЫ являются разработка теоретических основ КИД, позволяющих расширить и углубить знания о КИД (в частности, выявить свойства и признаки КС), и разработка методики КИД с использованием полученных знаний.

1 Временная инструкция по координатному индексированию документов (Служебный материал).- М.: ВИНИТИ, 1983.

ОСНОВНЫЕ ЗАДАЧИ РАБОТЫ.

Сформулированная цель достигается в настоящей работе решением следующих задач:

1) гносеологический анализ научных работ, в которых приведены существенные результаты исследований КИД;

2) методологическое обоснование выбора формы и содержания теории КИД;

3) уточнение природы и понятия темы;

4) выявление видов и структур заглавий;

5) выявление видов и свойств КС, а также их признаков;

6) выявление особенностей и принципов формирования ПОД. Каждая из этих задач решается в соответствующем параграфе (§1-§6).

Существование вышеупомянутой проблемы говорит о том, что познание КИД еще не достигло того уровня, при котором становится возможным объяснять неизученные стороны этого процесса, выводить необходимые для практики знания. Ретроспективный анализ развития знания о КИД показывает, что в ходе его изучения была пройдена эмпирическая стадия и начался этап разработки теории КИД. Однако попытки разработать теорию КИД не привели к существенному изменению знания о нем. Это можно объяснить от части тем, что при её разработке слабо учитывались учения методологии науки, достижения смежных наук. Следовательно, для преодоления этого барьера необходимо применить методы и формы познания более высокого уровня по сравнению с ранее использовавшимися. Поскольку полноценную теорию разработать сразу невозможно, то сначала нужно разработать основу теории КИД, а затем постепенно достроить её.

НАУЧНАЯ НОВИЗНА. В данной диссертации впервые сформированы теоретические основы КИД и разработана методика КИД. МЕТОДЫ ИССЛЕДОВАНИЯ. Теоретические основы и методика КИД разработаны с привлечением аксиоматического метода, способствующего получению теории высокого уровня, а также лингвистики текста, психологии, формальной логики.

ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ настоящей диссертации состоит в том, что полученные в ней новые знания, на основе которых разработана методика КИД, позволяют решать различные задачи, в частности, подготавливать необходимые для индексаторов практические пособия. СТРУКТУРА И ОБЪЕМ РАБОТЫ. Диссертация изложена на 97 стр. машинописного текста и состоит из введения, шести параграфов и заключения, а также четырех приложений. Последние включают в себя список сокращений, используемых в данной работе, словарь терминов, введенных в данной диссертации, список лексических категорий и методику координатного индексирования документов. По теме диссертации опубликовано 7 статей (см. список в конце данного автореферата). Йл. 4. Табл. 4. Библ. 34.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ.

§ 1. Чтобы объяснить то или иное явление в познавательном процессе, например, кризис в познании, необходимо знать методы познания, которые были использованы в разных периодах и этапах познания. Учитывая это, в § 1 кратко рассмотрены логические аспекты познания (изучение единичного, выявление свойств и особенностей, установление закономерностей, обобщение накопленного знания и т.п.) на разных этапах познания. Далее приведены результаты гносеологического анализа семи работ по КИД. При их анализе обращалось внимание на использованные методы познания, степень корректности вывода нового знания, степень полезности полученного знания для разработки теории и методики КИД.

В двух работах М. Таубе 2'3- одного из первых создателей КИД -обобщены накопленные к концу 50-х годов знания о КИД. Анализ этих работ показывает, что многое из того, что известно о КИД в настоящее время, было известно уж тогда. Были известны и отрицательные моменты в КИД. Тогда же сформировалось убеждение, что ослабить отрицательное влияние некоторых факторов КИД (например, субъективизм) можно путем автоматизации этого процесса.

Анализ работы группы исследователей из Японского центра научно-технической информации4, в которой предлагается поаспектный метод КИД, показывает, что выбор аспектов осуществляется субъективно. В ней нет никакого теоретического обоснования.

В работе С. Робертсона упоминается о попытках разработки теории КИД в США5. Анализ теорий Купера и Хартера, пересказанных в ней, убеждает, что формулировка предположений осуществляется без аргументации, т.е. логически некорректно. Предположения сформулированы без учета знаний о тексте и интеллекте. В работе нет упоминаний о положительных результатах использования этих теорий.

В. Марцишевский в своей работе изложил предварительные результаты разработки теории КИД6, на основе которой предполагалось разработать методику КИД. Теория строится на основе исчисления Лесневского и алгебраической теории полурешетки. Используя эти модели текста, получен ряд выводов дедуктивным путем. Однако автор не приводит обоснования правомерности использования этих моделей, которые с точки зрения лингвистики текста описывают лишь

2 Taube M. et. al. Studies in coordinate indexing.- Washington: Documentation inc., vol. 5, 1959,- 178 p.

3 Taube M., Jaster J., Murrey B. The state of the art of coordinate indexing.-Washington: Documentation inc., 1962.

4 Nakai H. et. al. A proposal for standartization for content analysis, abstracting and indexing.// Proceeding of the 9-th national convention for the study on information and documentation.-Tokyo: JICST, 1972.

5 Robertson S. Indexing theory and retrieval effectiveness// Drexel library quartery.- 1978.-vol. 14.-N2 2.

6 Марцишевский В. От понятия темы предложения к понятию ключевого словаII НТИ. Сер. 2 - 1976,- № 11.- С. 18 - 25.

несущественные свойства текста. Эти недостатки не позволяют использовать эту работу для разработки методики КИД.

В работе Б.В. Якушина сделана попытка разработать теоретические основы КИД7. В ней приведено три алгоритма квазипредметизации, которые, как считает автор, могут быть использованы для разработки методов автоматического КИД. Однако в ней многие гипотезы и предположения вводятся без достаточного обоснования, а некоторые термины определены субъективно. Эти и другие причины дают основания считать, что эта работа не может стать теоретическим фундаментом КИД.

Диссертационная работа Е.И. Анно посвящена разработке метода автоматического КИД8. В ней приведены алгоритмы морфологического анализа слов и синтаксического анализа предложений, а также алгоритм формирования ПОД. Разработка последнего алгоритма основывается на оригинальных идеях. Однако в работе нет обоснований, на каких теоретических или эмпирических положениях они базируются. Вызывают сомнения высокие значения коэффициентов точности и полноты поиска (74% и 85% соответственно), полученные в результате испытаний разработанной системы.

Анализируя упомянутые и другие работы, можно сделать следующие выводы. Изучение КИД прошло все этапы эмпирического познания еще в 50-х годах, а в 70-х годах делались попытки разработки теории КИД. Эти теории строились в основном в гипотетико-дедуктивной форме. Вначале они разрабатывались в рамках теории информационного поиска, однако в дальнейшем для этой цели стали использовать знания о тексте. Тем не менее, многие исследователи, за исключением В. Марцишевского, не смогли понять важность знания темы текста для разработки теории КИД. Кроме того, во всех этих работах не наблюдается корректное обоснование идеи, умение пользоваться положениями методологии науки. Видимо, все это стало причиной спада активности познания КИД, который стал наблюдаться в 80-х годах.

§ 2. Как говорилось в § 1, попытки создать теорию КИД не привели к заметному изменению знания о КИД. Чтобы преодолеть создавшееся положение, необходимо привлечь методы познания более высокого уровня, предусмотренные в методологии науки. Ввиду этого в § 2 рассмотрены виды и пути построения теории КИД. Сделан вывод, что теорию КИД следует строить в форме аксиоматики, т.к. лишь в этом случае появляется возможность корректно провести доказательства, а это повышает вероятность получения верного знания. Кроме того, вводимые в такую теорию теоретические понятия, абстракции позволяют представлять сложные рассуждения в компактной форме, получать информационно-емкие выводы и, тем самым, глубже проникать в суть изучаемого явления.

В преодолении трудностей создания теории может оказаться полезным обращение к методологическим принципам, служащим в качестве руководящей идеи, ориентира для создаваемой теории. Чтобы найти какой-

7Якушин Б.В. Алгоритмическое индексирование в информационных системах,- М.; Наука, 1978,- 143 с.

Анно Е.И. Исследование и разработка экспериментальной системы автоматического индексирования. Дис. на соиск. уч. ст. канд. тех. наук,- М.: ВИНИТИ, 1977.-197 с.

либо принцип, соответствующий поставленной задаче, в § 2 диссертации изучен процесс свертывания текста с помощью идеальной модели. Выяснилось, что, поскольку его свертывание происходит вследствие взаимодействия интеллекта с текстом, то феномен КИД должен изучаться с использованием понятий наук о тексте и интеллекте, т.е. на стыке лингвистики текста, психологии и, конечно, теории информационного поиска. То, что в изучении сложного явления необходимо применять взаимодополняющие классы понятий, было сформулировано известным физиком Н. Бором под названием принципа дополнительности.

Разработка теории должна начинаться с уяснения её идеи. В составе теории идея выступает как исходная мысль, центральное положение, объединяющее понятия и суждения теории в целостную систему. Имея в виду это, в § 2 сформулирована идея теории КИД.

Поскольку аксиоматическая теория строится с использованием силлогистики, то сначала необходимо сформулировать два утверждения, истинность которых не вызывает сомнения. Затем на основе этих утверждений, с соблюдением правил силлогизма, выводится новое утверждение, называемое теоремой. Для получения нового знания о КС в качестве первого утверждения можно использовать определение понятия КС, в котором устанавливается отношение между понятиями КС и темы. Тогда в качестве второго потребуется выбрать такое утверждение, в котором устанавливалось бы отношение между понятием темы, а также понятием некоторого слова (или слов), признак которого позволит находить КС и с помощью которого можно будет выразить тему документа. Поскольку такое утверждение еще не найдено, то его следует выявить путем исследования темы.

Обычно в определении понятия КИД не акцентируется то, что с помощью набора КС можно выразить не только тему всего документа, но и темы его разделов. Если бы набор КС выражал только тему документа, то в его поисковый образ достаточно было бы включить всего два - пять КС. На самом же деле ПОД состоит в среднем из 8 - 12 КС. Ясно, что эта разница может быть восполнена КСми, выбранными дополнительно из нескольких разделов документа. Поскольку в документах содержится достаточно большое число разделов, то такие дополнительные слова должны выбираться только из разделов с существенной информацией. Следовательно, в ПОД нужно включать КС, выбранные из заглавия и заголовков разделов с существенной информацией. Это положение также следует обосновать в теории.

В § 2 приведены перечень положений КИД, выявленных эмпирическим путем, а также некоторые положения о тексте, выявленные в процессе эмпирического познания. Эти утверждения могут быть использованы для формулирования постулатов, идеи теории и т.п. Они же могут быть использованы в качестве фактов, подтверждающих те или иные выводы, полученные дедуктивным путем.

§ 3. Выше было высказано, что для выявления свойств КС предварительно нужно изучить природу темы текста. С этой целью вначале проанализированы определения понятия темы, приведенные в различных литературных источниках. Выяснилось, что одни авторы понятие темы связывают с мыслью, знанием, а другие - с выражением.

Такое расхождение в понимании говорит о недостаточной изученности этого объекта. Замечено также, что во многих определениях понятие темы соотнесено с понятием предмета. Чтобы внести ясность в понимание природы темы, проведено мысленное моделирование, позволяющее получить серию умозаключений. Его можно представить в следующем виде.

Известно, что тема формируется в мозгу человека в результате обработки информации. Но продукт обработки информации должен быть информацией. Следовательно, тему нужно связывать с информацией. Известно также, что тема выражается одной фразой. Объем информации этой фразы намного меньше информации первичного текста. Следовательно, тема формируется в результате свертывания первичной информации. В процессе же обработки первичной информации, согласно психологическому закону устойчивости произвольного внимания, субъект сосредоточивает свое внимание на некоторое время на том, что важно для него. Но то, на что направлено внимание субъекта, называется предметом мысли (речи, текста). Иначе говоря, во время обработки информации внимание субъекта будет направлено на предмет. Согласно закону кратковременной памяти, это приведет к появлению следа в мозгу, отражающего предмет, и, следовательно, запоминанию его на некоторое время. Предмет мысли обозначается одним словом или устойчивым словосочетанием. Но во фразе, выражающей тему, содержится несколько слов. Это значит, что в теме отражаются предмет и, видимо, его существенные признаки. Итак, на основе приведенной серии умозаключений можно сформулировать следующее утверждение: тема - это свернутая информация, отражающая предмет (мысли, текста) и его существенные признаки. Далее фразу, отражающую тему, будем называть тематической.

Приведенное утверждение проясняет в какой-то степени природу темы. Однако все же остается неясным, что же, кроме предмета, отражается в теме. Получить более полное представление о теме можно только путем формулирования соответствующей гипотезы. В диссертации приведен вариант гипотезы формирования темы. Аргументирование этой гипотезы осуществляется на основе представления современной психологии о внутренней речи. Ниже приведен сокращенный вариант гипотезы для случая порождения текста.

В процессе формирования темы выделяется два этапа: этап формирования зачатков темы, что происходит в результате обдумывания содержания порождаемого текста, и этап созревания темы, во время которого устанавливаются связи между следами зачатков тем и вспомогательных сведений. При обдумывании уясняются предмет документа и его базис (т.е. то, к чему относится предмет мысли), форма документа и т.п. Затем мысленно определяется структура текста, в частности, количество подчиненных субтекстов (например, количество параграфов в главе). Далее уточняются предметы и базисы субтекстов верхнего (первого) уровня, а по ним - субтекстов второго уровня и т.д. В результате такого процесса в мозгу формируются кратковременные следы этих предметов и базисов.

Второй этап может быть начат при условии сохранения этих следов и сведений о документе, а также уяснения степени подробности формируемых тем. Тогда формирование тем начинается с уяснения предметов и базисов субтекстов нижнего уровня. По полученным результатам уточняются предметы и базисы вышестоящих субтекстов и всего текста. При необходимости повышения степени подробности темы производится поиск вспомогательных сведений. И в заключение все следы предметов, базисов и вспомогательных сведений интегрируются и, тем самым, формируется структура, отражающая тему текста и темы его субтекстов.

Тема, как разновидность семантической информации, обладает всеми признаками такой информации. В частности, тему можно выразить словесно с помощью того или иного языка. Такое выражение, как уже говорилось, будет называться тематической фразой. Наблюдения показывают, что такая фраза может находиться либо вне текста, либо внутри него. Внетекстовую тематическую фразу принято называть заглавием (текста) или заголовком (субтекста). Что же касается внутритекстовой, то она условно названа аннотативной фразой. Последняя встречается в аннотациях и индикативных рефератах. Аннотативные фразы обычно начинаются с глаголов типа "исследуется", "анализируется". Общеизвестно, что в заглавии отражается тема. Поэтому предмет, базис и вспомогательные сведения, отраженные в теме, в заглавии должны иметь соответствующие словесные выражения. Их будем называть предметным, опорным и вспомогательным словами соответственно. Поскольку заглавие документа, кроме функции выразителя темы, выполняет также функцию репрезентанта документа, то нередко в него включается и слово, характеризующее форму документа (например, стандарт, обзор), или действие, выполненное автором (анализ, исследование). Такие слова будем называть аспектными.

На основании сформулированной гипотезы выведено три следствия. Приведем одно из них: в заглавии в общем случае содержатся слова, обозначающие предмет и его базис (или иначе -предметное и опорное слова), а также вспомогательное и аспектное слова. Их будем называть обобщенно информативными словами. Заметим, что все эти четыре вида слов могут быть обнаружены по признакам, которые будут рассмотрены далее. А это обстоятельство подтверждает косвенно правильность приведенной гипотезы.

§ 4. То, что было выявлено четыре вида информативных слов, позволяет изучить структуру заглавий и выявить семантико-синтаксические признаки таких слов. Это, в свою очередь, позволяет классифицировать заглавия. Ниже описано шесть типов заглавий, выявленных в результате анализа большого массива документов по машиностроению. Следует заметить, что отнесение заглавия к какому-нибудь типу зависит от того, к какой лексической категории относится предметное слово этого заглавия. Ввиду важности знания таких категорий в диссертации приведен список лексических категорий, разработанный путем анализа таких списков, предложенных разными исследователями. В предлагаемом списке предусмотрены такие категории, как: объекты,

процессы (действия, операции, методы), явления, свойства, величины, атрибуты объектов и некоторые другие.

Для описания структуры заглавия предлагается использовать следующую нотацию. Предметное, опорное, вспомогательное и аспектное слова предлагается обозначать буквами п, о, в, а соответственно, причем в виде верхнего индекса в конце соответствующего слова. Устойчивые словосочетания заключаются в круглых скобках, а название безымянных предметных слов - в квадратных скобках. Если в заглавии встречается один и тот же вид информативных слов дважды и более раз, то соответствующее буквенное обозначение будет сопровождаться порядковыми числами, начиная от 1.

К первому типу относятся заглавия, предметы которых относятся к категории свойств. В таких заглавиях сначала приводится предметное слово, а затем - одно опорное. Каждое из этих главных слов может сопровождаться вспомогательным словом (-ами) в функции дополнения или определения. Если нужно включить аспектное слово, то оно приводится в самом начале. Обстоятельство обычно приводится в конце заглавия. Следующий пример иллюстрирует заглавие этого типа:

1. Исследованиеа ползучести" (жаропрочных сплавов)0 при (высоких

температурах)в. Аналогичным образом строятся заглавия, предметы которых относятся к категориям величин, явлений и атрибутов. Если в документе рассматривается какое-либо явление, носитель (базис) которого не упоминается, то в соответствующем заглавии опорное слово не приводится.

Второй тип заглавий характеризуется тем, что их предметные слова принадлежат к категории процессов (действий, методов). В этом случае после предметного слова приводится обычно два опорных слова, обозначающих те вещи, которые участвуют в данном процессе, например:

2. Обработкап (зубчатого колеса)01 (червячной фрезой)02.

К третьему типу относятся заглавия, предметы которых принадлежат к категории отношений. В таких заглавиях приводятся слово, обозначающее отношение (его называют иногда релятором), и слова-корреляты, связанные этим отношением. В качестве реляторов часто используются такие слова, как: применение, влияние, зависимость. Пример этого типа:

3. Применениеп вертолетадля транспортировкип2 леса0. Однако порядок следования слов в таких заглавиях может быть изменен, например:

За. Транспортировка"1 леса0 с применением" вертолета"2.

Рассмотрим заглавия четвертого типа. Их особенность состоит в совмещении предметного и опорного слов. Такие заглавия встречаются в текстах, в которых описываются какие-либо объекты, т.е. когда объект рассматривается с разных сторон. Приведем пример:

4. (Состояние развития)а (газовых турбин) п'°.

Пятый тип заглавий используется, когда внимание человека фиксируется на двух неоднородных или равноценных предметах. В таких случаях приводится два предметных слова, связанных союзом И, например:

5.НадежностьпЛ и долговечностьп2 гидроприводов0 экскаваторовв. Заглавия шестого типа характеризуются тем, что их предметные

слова из-за отсутствия подходящего термина для обозначения предмета формируются в виде словосочетания. При этом сначала приводится термин, являющийся родовым и имеющий широкое понятие, а затем -термин, косвенно характеризующий этот предмет, например:

6. [Устройство для штабелирования]" ящиков0.

В этом примере второй термин в предметном словосочетании обозначает действие, совершаемое этим устройством.

В § 4 сопоставлено строение заглавий, записанных на русском, английском и японском языках и имеющих одинаковый смысл.

§ 5. В § 5 рассмотрены свойства, признаки и другие особенности КС. Сначала рассмотрены результаты анализа определений понятия КС. Поскольку выяснилось, что этот объект представляется достаточно разнообразно, то были выбраны критерии, сформулированные на основе правил формальной логики, и найдено с их помощью более точное определение понятия КС, а именно:

КС - это термин, используемый для выражения темы текста. (1) Это определение хотя и позволяет представить себе природу КС, но все же использовать его с пользой для практики индексирования нельзя. Чтобы углубить знание о КС, предлагается использовать силлогистику, о которой говорилось в § 2. Для этого выберем два следующих утверждения в качестве посылок:

Тема выражается информативными словами. (2)

КС выражает тему. (3)

Заметим, что первое утверждение сформулировано на основе следствия гипотезы формирования темы, а второе - на основе определения (1). Однако для удобства применения правил силлогистики переформулируем эти утверждения:

Все выразители темы есть информативные слова. (4)

Ключевое слово есть выразитель темы. (5)

Тогда по правилам дедуктивного умозаключения получим следующую теорему:

Ключевое слово есть информативное слово. (6)

Однако поскольку в определении (1) утверждается, что КС должны быть терминами, то для получения более точной теоремы утверждения (3) и (5) следует переписать в следующем виде:

КС, являющееся термином, выражает тему. (За)

КС, являющееся термином, есть выразитель темы. (5а)

На основе утверждений (4) и (5а) получим исправленную теорему: КС является информативное слово-термин. (7)

На рис.1 приведена диаграмма, с помощью которой интерпретируется теорема (7). В ней латинской буквой I обозначено множество информативных слов заглавия, а буквой Т - множество терминов. В зоне

пересечения В этих множеств содержатся, согласно этой теореме, КС. Из этой же диаграммы следует, что слова, входящие в зоны А и С, не являются ключевыми. Для выяснения видов и особенностей последних было проведено индексирование большого массива документов.

В результате установлено, что неключевыми являются фиктивное, экстенсивное и избыточное слова. Они обобщенно названы порочными словами. Фиктивное слово - это такой нетермин, точный смысл которого можно понять лишь после чтения соответствующего текста. Экстенсивное слово - это Рис. 1. Диаграмма лексического порочное слово, объем поня-состава заглавия. тия которого превышает тот,

который мог бы быть, если существовало релевантное слово, с помощью которого можно обозначить предмет текста. Избыточное слово - порочное слово, без которого можно уяснить смысл заглавия.

Поскольку порочные слова не могут быть ключевыми, то при КИД их следует выявлять и исключать из ПОД. Это третье свойство КС можно отразить в посылке и вывести скорректированную теорему, а именно: Ключевыми словами являются непорочные информативные

слова-термины. (8)

На основании этой теоремы можно вывести ряд следствий, в частности, следующее:

Предметное слово, если оно является термином и непорочным, считается ключевым словом. (9)

КС, включаемые в ПОД, имеют разные ценности (приоритеты) с точки зрения возможности обеспечения выдачи данного индексируемого документа. Назовем такое свойство весомостью КС. Оно позволяет говорить, например, что КС, имеющее максимальную весомость, будет всегда участвовать в поиске данного документа, а КС с нулевой весомостью - никогда. Хотя вывести критерий для количественной оценки весомости КС теоретическим путем невозможно, тем не менее изучение генезиса того или иного вида информативных слов на основе гипотезы формирования темы позволяет получить следующие суждения о весомости информативных слов:

• предметные слова имеют максимальную весомость, и поэтому их нужно включать в ПОД всегда;

• опорные слова имеют в общем случае высокую весомость, и, следовательно, их также нужно включать в ПОД;

• вспомогательные слова имеют различную весомость и оцениваются более сложным путем (см. ниже);

• аспектные слова имеют обычно нулевую весомость.

В определении весомости вспомогательных слов могут быть полезными следующие оценочные суждения:

• вспомогательные слова в форме дополнения и определения, относящиеся к предметному слову, имеют высокую весомость;

• вспомогательное слово, поясняющее другое вспомогательное, имеет меньшую весомость, чем поясняемое;

• вспомогательное слово в форме обстоятельства, поясняющее всю тематическую фразу, имеет высокую весомость.

При КИД приходится решать: нужно ли включать в ПОД все вспомогательные слова, содержащиеся в тематической фразе? Для получения ответа на этот вопрос необходимо исследовать используемость КС при поиске документов с помощью модели поиска.

Для иллюстрации координации КС при поиске документов с использованием дескрипторного языка применяется диаграмма Эйлера-Венна (см. рис. 2). Область Оа обозначает подмножество документов в некотором поисковом массиве, в ПОД которого содержится КС "А", а область ОЬ - КС "В". Затененная зона Ос обозначает подмножество документов, выделившееся в результате пересечения множеств Оа и ОЬ.

В ПОД этого подмножества содержатся КС "А" и "В" одновременно. Тогда этот рисунок можно интерпретировать следующим образом. Если в этом поисковом массиве провести поиск документов по двум координирующимся КС "А" и "В", то в выдаче окажутся документы из подмножества Ос. Заметим, что здесь 'ис. 2. Схема, представляющая собой модель рассматривается идеаль-поиска документов по двум КС - А и В. ный случай поиска.

Введем следующие обозначения: Ыфа) и Ы(ОЬ) - количество документов в множествах Оа и ОЬ, Ы(Ос) - количество документов в подмножестве Ос, т.е. в выдаче ИПС, Ы(Огшп) - количество документов в меньшем множестве (на рис. 2 - ОЬ), Т(6а) - частота использования КС "А" (т.е. сколько раз оно было употреблено при КИД в течение года), Т(Оо) частота использования КС "В", ДОс) - частота совместного использования КС "А" и "В", И -ретроспекция поискового массива (т.е. продолжительность хранения документов в нем), Кс=К(Ос)/Ы(Огтп) - коэффициент совместного использования пары (тройки и т.д.) КС. Обычно 0<Кс<0,5. Если считать, что в течение Я лет значения ^Оа), ^ОЬ) и ((Ос) не изменяются, то имеют место следующие соотношения:

Ы(Оа)=РМ(Оа), Ы(йЬ)= ^ДОЬ), 1Ч(Ос)=[*.ДОс).

Поисковый массив

Изучение частотных словарей показывает, что частота использования КС обычно изменяется медленно. Поэтому для приблизительного расчета N(00) такое допущение не вызовет значительной погрешности. Из вышеприведенного соотношения между Кс, Ы(Ос) и М(Оггнп) следует, что Ы(0с)=КС'Ы(0тт). Но Ы(0тт)=^Ц0т'т), где ^Оггш) - частота использования КС, входящего в ПОД меньшего из пересекающихся множеств (в данном случае - РЬ). Тогда получим:

М(0с)=К»1М(0пмп) < р]. (1)

Здесь [Б] - допустимый объем выдачи. Заметим, что формулу (1) можно использовать и для определения объема выдачи при поиске документов по трем и более КС. Но в этом случае будут другие значения Кс, причем значительно меньшие, чем в случае поиска по двум КС.

Если провести расчеты объема выдачи ИПС по формуле (1), приняв различные исходные данные, то можно выяснить следующее. В случае поиска документов с использованием двух КС, причем при условии, что одно из них при КИД используется редко (например, 1(0тт)=Ю раз в год), документы в поисковом массиве хранятся не очень долго (например, Я=5 лет), а эти два КС совместно используются нечасто (например, Кс=0,1), то в выдаче окажется всего несколько документов. Если в этом случае в поисковое предписание добавить ещё одно КС (но тогда Кс, как утверждалось выше, будет еще меньше, например, Кс=0,1*0,2=0,02), то выдача окажется весьма незначительной (для упомянутого случая: Ы(0с)=0,02«5«10=1, т.е. один документ). Но это может привести, как известно, к заметной потере релевантных документов. Поскольку в ПОД должны входить, в первую очередь, предметные и опорные слова, то при указанных условиях вспомогательное слово окажется лишним. В табл. 1 приведены результаты расчетов Ы(Ос) по формуле (1) для случаев поиска документов по двум КС. Из этой таблицы можно узнать, что в ПОД есть смысл включать все вспомогательные слова, выбранные при КИД, если частота использования предметного или опорного слова значительна, если они совместно используются достаточно часто и если величина К не мала.

Таблица 1. Количество документов в выдаче Ы(Ос) при поиске по двум КС.

Частота использования КС, ^Отт) раз в год Кол-во документов в поиск, массиве с 5-летней ретроспекцией 5*7(Отт) Кол-во документов в выдаче ИПС с 5-летней ретроспекцией при Кс

0,5 0,2 0,1 0,05

100 500 250 100 50 25

60 300 150 60 30 15

40 200 100 40 20 10

20 100 50 20 10 5

10 50 25 10 5 3

5 25 13 5 3 1

В исследовательской или изобретательской практике приходится сталкиваться с ситуацией, когда автор статьи или изобретения не в

состоянии выбрать какой-либо термин для обозначения открытого им явления или объекта изобретения. В таких случаях, т.е. когда из-за дефицита лексики для данного безымянного предмета невозможно выбрать соответствующий термин, автору приходится придумывать для него новое название, либо пользоваться приемом формирования имени. Кстати, такой прием был описан в предыдущем параграфе при рассмотрении структуры шестого типа заглавий. Следует иметь в виду, что часть таких нетерминов в дальнейшем заменяется общепризнанными названиями, т.е. терминами (например, термин "штабелер" вместо "устройство для штабелирования", "запоминающее устройство" вместо "устройство для запоминания информации"). Поскольку названия безымянных предметов не являются терминами, то, согласно теореме о КС, они не могут быть выбраны в качестве КС. Поэтому при КИД приходится прибегать к какому-либо приему замещения. Если в тематической фразе в качестве предметного или опорного слова приведено авторское название, заимствованное из существующей пексики, то оно рассматривается как страховочное КС (поскольку есть вероятность, что оно может стать термином). Но в этом случае нужно дополнить его термином, который по отношению к первому является синонимом или же ближайшим родовым словом. Если же в качестве предметного слова приведено словосочетание, состоящее из экстенсивного слова и термина, характеризующего рассматриваемый безымянный предмет, то для ПОД выбирается родовое слово-термин (при /словии, что объем его понятия невелик), или термин, характеризующий этот безымянный предмет, и родовое слово-термин (если объем его понятия велик, т.е. когда он обобщает большое число видовых терминов).

В диссертации рассмотрены также вопросы выбора идентификаторов при КИД, даны рекомендации по включению их в ПОД.

§ 6. Известно, что при поиске документов малый объем ПОД приводит к потере релевантных документов, а большой объем ПОД -появлению информационного шума. Это означает, что для каждого документа должен существовать оптимальный объем ПОД. Ниже попытаемся получить утверждения, которые позволили бы прояснить эсобенности ПОД и на основе которых можно вывести формулу для определения необходимого объема ПОД.

При формулировании идеи теории КИД, приведенной в § 2, было зысказано, что в ПОД включаются КС, выбранные не только из заглавия, но и заголовков некоторых разделов текста, содержащих существенную 1нформацию. Такие разделы будем называть информативными. Теперь ¡ыберем следующее утверждение, приведенное в некоторых облигациях9, в качестве постулата:

I. При КИД выражаются не только тема документа, но и

сопутствующие темы. Сформулируем еще одно очевидное утверждение: >. В результате КИД формируется ПОД.

Черный А.И. Введение в теорию информационного поиска. - М.-. Наука, 1975,- С. 16.

Тогда на основе этих утверждений, а также с учетом понятия информативного раздела, получим следующее:

3. ПОД (дескрипторный) выражает тему документа (т.е. всего текста) и темы его информативных разделов.

Далее введем термин "синтагма" и второй постулат:

4. Синтагма - это совокупность КС, выбранных из одной и той же тематической фразы.

5. КС, выбранные из тематической фразы, в совокупности выражают тему соответствующего текста или его субтекста.

На основе двух этих утверждений получим:

6. Синтагма выражает тему текста или его субтекста. Исходя из утверждений № 3 и № 6 можно вывести следующее:

7. В ПОД включаются синтагма текста и синтагмы его информативных разделов.

И наконец, на основе утверждения № 7 и определения № 4 получим теорему о ПОД:

8. ПОД содержит КС, выбранные из тематической фразы всего текста и тематических фраз информативных разделов этого текста.

Заметим, что в работе автора [2, § 5] эта же теорема доказана другим путем. Утверждение № 7 можно записать в виде математического выражения, используя символику теории множеств:

9. под = С0IIС^ и С2 и....иск,

где С^ = {а, Ь, с,...п} - синтагма ¡-го информативного раздела, 1 = 1, к; а, Ь, с,..., п - элементы подмножества С^, т.е. КС; I) - знак

объединения. Со в выражении 9 представляет собой синтагму всего текста.

На основе выражения № 9 можно получить формулу для определения объема ПОД. Если в ПОД нет повторяющихся КС, то этот объем можно определить по следующей формуле:

М(ПОД) = Ы(С0) + Ы(С!) + М(С2) + .... + М(Ск), (2)

где М(Сц) - объем синтагмы всего текста, N(0^ - объем синтагмы ¡-го информативного раздела. Если же в ПОД есть повторяющиеся КС, то формулу (2) следует переписать в следующем виде:

М(ПОД)=М(С0)+М(С1)+.......+М(Ск) - (Ма+Мь+...), (3)

где Ма - число повторений КС "А" в других синтагмах, Мь - тоже, но КС "В" и т.д.

Из приведенных формул следует, что объем ПОД в значительной степени зависит от количества информативных разделов в документе. Это обстоятельство выдвигает, естественно, вопросы: сколько информативных разделов нужно выбирать при КИД, и вообще, как можно выделить такие разделы?

Чтобы ответить на второй вопрос, необходимо прочесть весь текст и оценить его информацию. Однако это потребует немало времени и практически нецелесообразно. Но поскольку информацию текста кратко

выражает его тема, а последняя выражается заглавием или заголовком, то поиск информативных разделов можно осуществлять по заголовкам субтекстов. Однако при этом потребуется учесть особенности строения соответствующего текста.

В настоящей диссертационной работе показано, что если предметные слова субтекстов, подчиненных вышестоящему субтексту, однородны, то в качестве предметного слова вышестоящего субтекста выбирается родовое слово по отношению к предметным словам подчиненных субтекстов. Но в таком случае предметные слова субтекстов верхнего уровня с однородной структурой будут отличаться абстрактностью. А это обстоятельство приводит к затруднению оценки информативности субтекстов верхнего уровня по их заголовкам. В этом случае их информативность следует оценивать по заголовкам подчиненных субтекстов. Заметим, что такую структуру текста имеют обычно очерковые статьи, обзоры. Следует иметь в виду и следующее. При восприятии предметного слова человек может судить о ценности информации соответствующего субтекста косвенно, например, по интенсивности его использования в публикациях, по возрасту термина, выбранного в качестве предметного слова, по актуальности обозначаемого им события.

Для выявления информативных разделов может быть полезным другое свойство текста. Оно связано с методом структурирования текста. Если при написании текста его субтексты могут располагаться произвольно, на усмотрение автора, то их информация чаще бывает равноценной. Поэтому при КИД с таким текстом следует выбирать все субтексты верхнего уровня (за исключением введения и заключения) в качестве информативных разделов. Так что объем ПОД такого текста может оказаться значительным." Если же субтексты располагаются по заранее разработанной таблице или правилам, т.е. если применяется поаспектный метод индексирования, то выбор информативных разделов может осложниться. Это объясняется тем, что заголовки текстов с такой структурой обычно состоят из одних аспектных слов, непригодных для оценки информации соответствующих субтекстов. В таком случае необходимо составить полноценные заголовки для тех разделов, наличие ценной информации в которых можно узнать, например, по её новизне, повышенному интересу к ней. Так, в статьях, в которых приведены результаты теоретического и/или экспериментального исследования, встречаются иногда заголовки типа: "методы исследования", "средства исследования". В соответствующих субтекстах нередко содержится ценная информация. Из таких субтекстов и нужно выбрать предметное, опорное и вспомогательное слова.

В § 6 диссертации рассмотрен принцип ранжирования КС в ПОД. Выяснено, что КС в ПОД следует располагать не хаотично, а в определенной последовательности. В частности, множество ключевых слов ПОД разбивается на синтагмы, а КС в синтагмах располагаются также, как и в соответствующих заголовках и заглавии (за исключением аспектных слов, которые следует располагать в конце синтагмы).

Понятие ложной координации КС в теорию информационного поиска было введено еще в начале её развития и изучено достаточно подробно. Тем не менее, введение понятия синтагмы, а также понятие так называемой валентности слов позволяет несколько углубить знание об этом явлении. Согласно лингвистическому учению валентность слов есть способность языкового элемента сочетаться с другим языковым элементом. Поэтому в ПОД каждое КС должно сочетаться не с любым КС, а с определенным (-ми) КС, чтобы сочлененные КС по смыслу соответствовали изначально предусмотренной теме текста. Если же пара (тройка) КС, сочетаясь, порождают смысл, не соответствующий ни теме текста, ни теме его субтекста, то такая пара при поиске документов может привести к вредным последствиям.

Рассмотрим случай, когда одно КС из такой паразитной пары находится в одной синтагме, а второе КС - в другой синтагме. Пример такого случая представлен на рис. З10.

ПОД =

С1

С2

сбор

апельсины

■ Марокко

хранение I_

перевозка-

•лимоны _I

Рис. 3. Пример междусинтагматической ложной координации КС

В этой схеме три КС в верхней строке принадлежат синтагме С1, а КС в нижней строке - С2. Сплошные линии между словами обозначают действительные, т.е. изначально предусмотренные связи, а пунктирные -паразитные связи. Из этой схемы видно, что документ с таким поисковым образом может быть выдан и в ответ на запросы "сбор лимонов", "перевозка апельсинов", "хранение лимонов в Марокко". Все три темы, вытекающие из сочетаний этих КС, не предусмотрены в этом документе. Такой вариант ложного сочетания можно назвать междусинтагматическим. Его можно устранить введением указателя связи. Рассмотрим другой случай ложной координации, которую по аналогии назовем внутрисинтагматической. На рис. 4 представлен пример такого случая.

Г

1

Износ нейлоновые— подшипники—редукторы— (возд. компрессоры)

■ ■

Рис. 4. Пример внутрисинтагматической ложной координации. Из схемы видно, что ПОД с такой синтагмой может ответить на несоответствующий (неконформный) теме документа информационный запрос: "подшипники современных воздушных компрессоров".

10 Примеры, приведенные на рисунках № 3 и № 4, взяты из книги А Н. Черного (см. сноску на стр. 15).

Рассмотрим еще один вид негативной координации КС. Назовем её псевдоконформной координацией. Под этим словосочетанием будем понимать сочетание КС, которое формально не является паразитным, но по существу приводит к нежелательным последствиям. Так, если провести поиск документов с вышеприведенным ПОД по запросу: "Подшипники современных редукторов", то документ с вышеупомянутым поисковым образом будет выдан как релевантный. Но этот запрос предполагает ответ, объем темы которого намного шире темы рассматриваемого документа. Иначе говоря, документ с указанным заглавием может и не содержать то, что интересует потребителя информации.

Теоретические рассуждения показывают, что внутрисинтагма-тическую и псевдоконформную координации устранить невозможно.

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ.

1. Предложенная гипотеза формирования темы позволила выявить, что в тематических фразах в общем случае содержатся четыре вида информативных слов, а именно: предметное, опорное, вспомогательное и аспектное слова.

2. Доказано, что ключевыми словами могут быть информативные слова-термины.

3. Выявлены признаки КС.

4. Выявлено три вида источников КС. Ими являются заглавия всего текста, заголовки разделов текста и аннотативные фразы.

5. Выявлено три вида неключевых слов. Ими являются экстенсивное, фиктивное и избыточное слова. Обобщенно они названы порочными словами.

6. Выявлены и описаны шесть типов заглавий, их структуры и особенности.

7. Проведены расчеты объемов выдачи идеальной ИПС при различных входных параметрах, чтобы уточнить целесообразное количество вспомогательных слов в ПОД.

8. Описан феномен безымянного предмета и предложен метод выбора КС для таких предметов.

9. Выявлены и описаны особенности и структура ПОД.

10. Выведены формулы для определения целесообразного объема ПОД.

11. Установлена возможность использования заголовков разделов текста для оценки информативности последних.

12. Выявлено существование двух типов текстов, а именно: тексты с поаспектно фиксированными структурами и тексты со свободно компонуемыми структурами. Установлены также характер влияния этих типов на особенности заглавий и заголовков, а также отношения между этими типами и видами документов.

13. Установлено существование междусинтагматической и внутрисинтаг-матической ложной координации.

14. Выявлена и описана псевдоконформная координация КС.

15. На основе знаний, полученных в данной диссертации, разработана методика КИД.

Основные результаты работы изложены в следующих публикациях:

1. Ханжин А.Г. Тема, заглавие и индексирование IIНТИ. Сер.2.1986.-№ 7,-С. 22-27.

2. Ханжин А.Г. Опыт построения теории координатного индексирования документов // НТИ. Сер. 2.-1989.-№ 10.-С.19-24.

3. Ханжин А.Г. К разработке методики координатного индексирования документов//НТИ. Сер. 2.-1992.-№ 9.-С. 10-15.

4. Ханжин А.Г*. Разработка методики координатного индексирования документов. Часть 1.// НТИ. Сер.2.-1995.-№ 8.-С.22- 26, 30.

5. Ханжин А.Г. Разработка методики координатного индексирования документов. Часть 2.11 НТИ. Сер.2-1995.-№ 9.-С.14-19.

6. Ханжин А.Г. Расширение поисковых возможностей документальных баз данных//НТИ. Сер. 2.-1988.-№ 11.-С. 27-34.

7. Ханжин А.Г. О рефератах, обеспечивающих высокую полноту отбора ключевых слов II НТИ. Сер. 1.-1990.-№ 6.-С. 24.

Текст работы Ханжин, Анатолий Григорьевич, диссертация по теме Теоретические основы информатики

РОССИЙСКАЯ ' МИНИСТЕРСТВО НАУКИ И

АКАДЕМИЯ НАУК ТЕХНОЛОГИЙ

РОССИЙСКОЙ ФЕДЕРАЦИИ

ВСЕРОССИЙСКИЙ ИНСТИТУТ НАУЧНОЙ И ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ

Ханжин Анатолий Григорьевич

ИССЛЕДОВАНИЕ И РАЗРАБОТКА ТЕОРЕТИЧЕСКИХ ОСНОВ КООРДИНАТНОГО

ИНДЕКСИРОВАНИЯ ДОКУМЕНТОВ

Специальность 05.13.17 -Теоретические основы информатики

Диссертация на соискание ученой степени кандидата технических наук

Москва 1998

ОГЛАВЛЕНИЕ

Введение ........................................... 3

§ 1. Гносеологический анализ знания о координатном индексировании документов ..................................................6

§ 2. Методологические вопросы разработки теории координатного индексирования документов ..................................16

§ 3. Понятие темы и процесс её формирования ....................24

§ 4. Типы заглавий и их структуры ..........................................31

§ 5. Понятие ключевого слова и его свойства ....................38

§ 6. Особенности и структура поисковых образов документов ...............................................53

Заключение ......................................................................................65

Список литературы ......................................................71

Приложения

1. Список сокращений....................................................................74

2. Словарь терминов ......................................................................75

3. Методика координатного индексирования документов ... 78

4. Список лексических категорий ...........................................97

ВВЕДЕНИЕ

Создание большого числа автоматизированных информационно-поисковых систем (МПС) привело к широкому применению координатного индексирования документов (КИД). Однако применение дорогостоящей техники и привлечение значительного числа индексаторов в таких системах не могли не вызвать вопросы повышения эффективности их функционирования, в частности, эффективности КИД. Поэтому вполне естественно предположить, что расширение сферы применения КИД приведет к интенсивному исследованию этого процесса.

Факты же свидетельствуют, что информатика уже в начале своего развития уделяла большее внимание автоматизации КИД, нежели теоретическому изучению глубинной сущности этого процесса. Отсутствие же теоретического фундамента КИД привело к тому, что до сих пор оно осуществляется интуитивным путем и без необходимой индексаторам научно обоснованной методики.

В настоящее время КИД чаще осуществляется по правилам, приведенным в документе, выдаваемом индексаторам и называемом обычно инструкцией. В ней приводятся рекомендации по выявлению ключевых слов (КС), правила выбора лексических форм КС, правила формирования поискового образа документа (ПОД) и т. д. При этом для нахождения КС в индексируемом документе индексатор может воспользоваться лишь такими признаками, как: КС -"слова и словосочетания документа, существенные для описания содержания документа", или "КС можно найти в таких фрагментах текста, как: заглавие, введение, заключение, ...." С 8]. Если искать по такой рекомендации слова, существенные для описания содержания документа, например, во введении, то у индексатора непременно возникнет вопрос: является ли данное слово сущест-

венным. Поскольку других конкретных признаков, по которым он мог бы решать свою задачу, в таких инструкциях нет, то ему остается выбирать КС, полагаясь лишь на свою интуицию. Ясно, что если так осуществлять КИД, то в ПОД могут войти ненужные для поиска слова в качестве КС, а нужные КС - отсутствовать. Но это, как известно, приводит к снижению эффективности функционирования МПС. Сказанное означает, что в информатике, а точнее в познании КИД существует проблема.

Актуальность работы определяется тем,что в настоящее время нет ни надежной теории КИД, на основе которой можно было бы разрабатывать методику КИД, ни самой методики, позволяющей целенаправленно выбирать КС и компоновать ПОД. Если учесть, что сфера применения КИД расширяется, а требования к качеству индексирования все больше повышаются, то решение этой проблемы становится важным делом для информатики. Исходя из сказанного, в настоящей диссертационной работе формулируется следующая цель.

Целью настоящей диссертационной работы являются разработка теоретических основ КИД, позволяющих расширить и углубить знания о КИД (в частности, выявить признаки и свойства КС), и разработка методики КИД с использованием полученных знаний.

ОСНОВНЫЕ ЗАДАЧИ РАБОТЫ.

Сформулированная выше цель достигается в настоящей работе решением следующих задач:

1) гносеологический анализ научных работ, в которых приведены существенные результаты исследований КИД;

2) методологическое обоснование выбора формы и содержания теории КИД;

3) уточнение природы и понятия темы;

- 5 -

4) выявление видов и структур заглавий;

5) выявление видов и свойств КС, а также их признаков;

6) выявление особенностей и принципов формирования ПОД.

Каждая из этих задач решается в соответствующем параграфе

(§1 -- 96).

Существование вышеупомянутой проблемы говорит о том, что познание КИД еще не достигло того уровня, при котором становится возможным объяснять неизученные стороны этого процесса, выводить необходимые для практики знания. Ретроспективный анализ развития знания о КИД показывает, что в ходе его изучения была пройдена эмпирическая стадия и начался этап разработки теории КИД. Однако попытки разработать теорию КИД не привели к существенному изменению знания о нем. Это можно объяснить отчасти тем, что при её разработке слабо учитывались учения методологии науки, достижения смежных наук. Следовательно, для преодоления этого барьера необходимо применить методы и формы познания более высокого уровня по сравнению с ранее использовавшимися. Поскольку полноценную теорию разработать сразу не возможно, то сначала нужно разработать основу теории КИД, а затем постепенно достроить её.

Научная новизна работы заключается в том, что в данной диссертации впервые сформированы теоретические основы КИД, причем с привлечением аксиоматического метода, способствующего получение теории высокого уровня, а также лингвистики текста, психологии, формальной логики.

Практическая значимость настоящей диссертации состоит в том, что полученные в ней новые знания позволяют решать различные практические задачи, в частности, подготавливать нужные для индексаторов методики и пособия. На основе этих знаний разработана методика КИД.

- б -

§ 1. ГНОСЕОЛОГИЧЕСКИЙ АНАЛИЗ ЗНАНИЯ О КИД

Как показывает гносеология науки, познание какого-либо феномена "начинается с выявления отдельного, отдельных явлений, их особенности и переходит к отражению их взаимосвязи, взаимодействия и вызываемого им изменения (движения) последних (отдельных предметов, явлений)" Е9, с. 1653. Затем выделяется общее, осуществляется движение от менее общего к более общему. В процессе такого движения выявляются качественные и количественные характеристики исследуемого объекта. Далее осознается причинно-следственная связь и т. д. [93. На разных этапах познания используются разные методы познания. На раннем этапе познания используются эмпирические методы, а на этапе изучения причинно-следственной связи - теоретические. Кроме того, на всех этапах познания могут использоваться логические и математические методы.

Познание КИД, в общем-то, шло по вышеупомянутому пути и началось, по всей вероятности, с изучения лексикологических аспектов КС. Затем было изучено влияние синонимии и многозначности на эффективность поиска документов. Далее были изучены количественные аспекты КИД, например, целесообразное количество КС в ПОД. В дальнейшем стали изучаться пути повышения эффективности поиска при использовании информационно-поискового языка (ИПЯ) дескрипторного типа. В ходе познания КИД использовались такие эмпирические методы, как наблюдение, описание, эксперимент..(в том числе и умственный эксперимент). Использовались, очевидно, и логические методы (например, анализ-синтез), и математические (например, математическая статистика). В отдельных случаях, например, при изучении распределения КС в текстах индексируемых документов, ис-

пользовались теоретические методы.

Ниже приведены результаты гносеологического анализа нескольких работ по КИД. При их анализе обращалось внимание на использованные методы познания, степень корректности вывода нового знания, степень полезности полученного знания для разработки теории КИД.

Одним из первых исследователей КИД заслуженно считается М. Таубе. В книге [10], написанной под его редакцией, приведено достаточно обширное знание о КИД, полученное обобщением результатов эмпирических и теоретических исследований. Из этой книги следует, что уже в 50-х гг. было известно отрицательное влияние синонимии и омонимии КС, а также ложной координации КС на эффективность поиска документов. Для снижения же таких негативных последствий предлагалось использовать указатели связи и указатели роли. Важно и то, что тогда же стало ясно, что все эти указатели не могут полностью исключить возможность появления информационного шума в выдаче ИПС. В этой же книге приведены рекомендации по использованию заглавий индексируемых документов в качестве источников КС.

В книге СИЗ, написанной М. Таубе совместно с другими авторами, многие сведения о КИД, приведенные в книге С103, повторяются. Новыми можно считать сведения о целесообразном объеме ПОД. Рассмотрены и пути автоматизации КИД. Анализируя работы М. Таубе, можно заметить, что на данном этапе познания все вопросы, связанные с КИД, решались в пределах знания об информационном поиске, а решение проблемы КИД сводилось к разработке методов автоматического КИД.

В работе группы исследователей из Японского центра научно-технической информации рассмотрены методы анализа текста, реферирования и КИД С123. Авторы считают, что тексты докумен-

тов можно разбить на участки (items), каждый из которых отражает какой-либо аспект. Считается также, что, зная эти аспекты, можно сформулировать необходимые для реферата фразы, найти КС, представляющие содержание того или иного участках текста. Для облегчения нахождения аспектов текста предлагается использовать схему универсальной аспектной структуры текста и таблицу пояснения особенностей этих аспектов. Для некоторых аспектов даются рекомендации по выбору КС. Кроме того, обязательным источником КС считается заглавие и подзаголовок документа.

В этой работе нет доказательства того, что найденные таким методом КС в совокупности выражают тему индексируемого документа (что необходимо согласно определению понятия КИД). Практика показывает, что не все значащие слова в заглавии могут быть выбраны в качестве КС. Деление текста на аспектные единицы осуществляется субъективно, без теоретического обоснования. Существуют виды текстов документов (например, обзоров), для которых этот поаспектный метод КИД практически непригоден.

Важность разработки теории КИД понимали исследователи США. Судя по публикациям, в США в 70-х гг. было предложено несколько таких теорий. Некоторые из них описаны в статье Ро-бертсона [133. В ней же проанализированы теория Купера и теория бартера. Та и другая теория строятся на основе предположений, которые, в свою очередь, основываются на 4 - 5 допущениях. Некоторые из них кажутся слишком умозрительными, упрощенными. Например, допускается, что информационные запросы могут содержать лишь одно слово. Все предположения строятся без аргументации и без учета важных свойств текстов и человеческого интеллекта.

Большой интерес представляет собой работа польского исследователя В. Марцишевского С14]. В ней приведены предварительные результаты разработки теории КИД, на основе которой предполагалось разработать в дальнейшем методику КИД. Идея этой теории состоит в том, что, зная закономерность распределения темы и ремы предложений в тексте и закономерность доминирования темы предложения в текстовой единице (например, абзаце, параграфе), можно выделить доминирующие термины, выражающие темы текстовых единиц. При этом для моделирования закономерности распределения тем предложений он предлагает использовать исчисление Лесневского, представляющее собой синтез исчисления предикатов с некоторыми положениями лингвистики текста. А в качестве модели доминирования темы предложения выбрана алгебраическая теория полурешетки. Затем, из числа найденных доминирующих терминов, которые выражают, как считает автор, темы тех или иных текстовых единиц всех уровней, отбираются только те, которые представляют текстовые единицы до заданного уровня (считая от верхнего уровня) и которые считаются ключевыми словами составляемого ПОД.

Анализируя работу В. Марцишевского, можно заметить следующее. Прежде всего обращает на себя внимание то, что автор хорошо понимает, что выявить свойства КС можно только на основе знания о теме текста. Для этого он, используя такие методы теоретического познания, как моделирование, дедукцию, исследует свойства темы. Однако при этом допускает ряд неточностей. Так, он рассматривает понятие темы то как выражение, то как термин. Специалисты же по лингвистике текста тему относят не к знаковому феномену, а к феномену информации. В работе нет доказательства правомерности использования исчисления Лесневского и алгебры полурешетки в качестве моделей

- 10 -текста. В работе встречаются неточности в изложении, некоторые из которых отмечены редактором этой статьи в сносках. Если бы даже автору удалось построить свою теорию до конца, то всё равно она не могла быть использована для разработки методики КИД, поскольку просматривать все предложения текста подряд и выявлять в них доминирующие термины - практически неосуществимая работа для индексатора в условиях ограничения времени индексирования.

Несмотря на наличие некоторых огрехов, в этой статье можно выделить и рациональные моменты. Справедливой представляется мысль о том, что в любой текстовой единице можно выделить доминирующий термин. Это значит, что любая текстовая единица, в частности, и абзац, имеет свою тему. Это положение согласуется с лингвистикой текста. Далее, в статье дается следующее определение темы текстовой единицы: тема - это "выражение, которое однозначно характеризует то, о чем говорится в данной единице" С14, с. 23]. С точки зрения лингвистики текста, как было замечено выше, тема относится к феномену информации. Кроме того, согласно формальной логике, выражение "то, о чем говорится в тексте (речи)" относится к понятию предмета текста (речи). Учитывая сказанное, это определение можно скорректировать в следующем виде: тема - это информация о предмете текста (речи). Такое определение более точно отражает сущность понятия темы.

В книге Б. В. Якушина С153 также разрабатываются теоретические основы КИД. В ней приведено три алгоритма квазипредме-тизации, которые могут быть использованы, как считает автор, для разработки методов автоматического КИД. Как и в работе В. Марцшпевского, считается, что КС должны выбираться из текста индексируемого документа. Все алгоритмы сложны, и поэтому для

"ручного" индексирования непригодны. В книге многим терминам, устоявшимся в информатике и других науках, автор дает свои определения, причем без особой необходимости. В ней, например, термин "тема" имеет три разных определения С15, с.33, 108, 108]. По-разному определяются и некоторые термины теории информационного поиска. Так, термин ПОД в одном месте (стр. 21) рассматривается как "совокупность понятий о главных

предметах (темах) документа......", а в другом месте (стр.

120) говорится, что "возможны различные варианты использования темы в качестве поискового образа документа". Из этих толкований следует, что КСми, из которых составляется ПОД, могут быть и понятия, и темы. Очевидно, что такого не может быть.

В работе имеется немало гипотез и предположений, введенных без логически корректного обоснования. Так, метод называющих пар строится на основе следующей гипотезы:

"Базисный термин тем более существен, чем большее количество поясняющих его слов обнаружено во всех фразах текста" [15, с. 933.

Здесь словосочетание "базисный термин" понимается "как такой дескриптор, который выражает конкретное понятие, могущее быть самостоятельным запросом" С15, с.91]. Такими терминами могут быть предметные заголовки в предметных указателях С15, с.91]. Утверждается также, что поисковый образ можно вырабатывать как набор базисных терминов по какому-либо алгоритму С15, с.92]. В терминах данной диссертационной работы вышесказанное можно перефразировать следующим образом.

Согласно вышеприведенному утверждению Б. В. Якушина, ПОД представляет собой набор базисных терминов. В данной диссертации ПОД рассматривается, как и во многих монографиях по ин-

формат же, как совокупность КС, используемых для выражения темы документа. В настоящей диссертационной работе приводится обоснование (см. § 5), что Й