автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Лингвистическое обеспечение документальной АСНТИ геологоразведочной отрасли

доктора технических наук
Пожариский, Иосиф Фомич
город
Москва
год
1993
специальность ВАК РФ
05.13.17
Автореферат по информатике, вычислительной технике и управлению на тему «Лингвистическое обеспечение документальной АСНТИ геологоразведочной отрасли»

Автореферат диссертации по теме "Лингвистическое обеспечение документальной АСНТИ геологоразведочной отрасли"

РГ6 од

КОМИТЕТ ПО ДЕЛАМ НАУКИ, ВЫСШЕЙ ШКОЛЫ И ТЕХНИЧЕСКОЙ ПОЛИТИКИ

РОССИЙСКОЙ ФЕДЕРАЦИИ РОССИЙСКИЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И СИСТЕМ АВТОМАТИЗИРОВАННОГО ПРОЕКТИРОВАНИЯ

На правах рукописи

ПОЕАРИСКЙЙ Иосиф Фомич

УДК 002.513. 5: 55

ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДОКУМЕНТАЛЬНОЙ АСНТИ ГЕОЛОГОРАЗВЕДОЧНОЙ ОТРАСЛИ

Специальность 05.13.17 - теоретические основы информатики

Автореферат диссертации на соискание ученой степени доктора технических наук

Москва - 1993

Работа .выполнена во Всесоюзном научно-исследовательском институте экономики минерального сырья и геологоразведочных работ (НИЭДО)

ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ - доктор технических наук,

академик Российской Академии естественных наук ПОПОВ ЭДУАРД ВИКТОРОВИЧ

.доктор филологических наук КОЛЧИВСКШ МАРК ЛЬВОВИЧ

- доктор философских наук ШНЕЙДЕР ШИЙ АНАТОЛЬЕВИЧ

Ведущее предприятие - ВНИИ ИНФОРМАЦИИ И ТЕХНИКО-ЭКОШМИ- ■ ЧЕСКИХ ИССЛЕДОВАНИЙ В ПРОШИЛЕННОСТИ (ИЕФОРИЭЛЕКГРО)

Защита состоится " ^ £ " 1993 года в/^час. 00 мин. на заседании специализированного совета Д 064.48.01 в РосНИИ ИТиАП по адресу: 129090, Москва, ул. Щепкина, 22

С диссертацией можно ознакомиться в спец. совете РОСНИИ ИТиАП

Автореферат.разослан " " 1993 г.

Ученый секретарь специализированного совета доктор технических наук

ЗАЙЦЕВА Ж. Н.

ОНЦАЯ ЖРАКГЕРИСТ'Ш. РАБОТЫ Актуальность проблемы

Вопросы сбора, хранения и обработки различной, в тс5м" числе и документальной, информации являются ванныаи-составляющими геологических исследований и в значительной мере определяют возмояность успешного их проведения. Рассматривая отрасль под данным углом зрения, следует признать, что основной если не единственной ее продукцией является информация. Именно к этой категории ценностей, создаваемых человеком, доднеы быть отнесены все получаемые геологам! сведения о составе горных пород и руд, строении и истории развития отдельных регионов и Земли в целом, закономерностях размещения, строении, размерах и условия^ формирования кесторондений и т.д. и- т.п., Создазтся эта информация, в значительной мере, путем рассмотрения под Ееобходшлым углом-зрения и преобразования узе имеющейся, накопленной в ходе предшествующих исследований соответствующих объектов. Специфическими чертами геологии, определяющими больше объемы накапливаемой информации являются размеры объекта исследования (Земля), разнообразие применяемых методов и средств его изучения ,

I »■

а также величина отрезка времени изучаемого геологами (4,0-4,5 1.ищ.лет). Специальными исследованиями установлено, что в середине 80-х годов в Шре насчитывалось 5128 периодических изданий по геологии. Сотеяглп тысяч измеряются количества еаегод- ' но производимых в стране анализов горных пород и руд, а такге результатов других видов их изучения: описаний в естественном залегании и горных выработках, лабораторного изучения их разнообразных СВОЙСТВ.

— У-

Обилие ее и насущная необходимость использования этой информации в повседневной работе геологов создавали и создают мощный социальный заказ на разработку различных ШО используемых многочисленными абонентами, являющимися одновременно и генераторами инфортции. По-видимому не случайно тленно в геологии полутали широкое развитие инфоршционно-поисгозые системы на кар-» тах с краевой, информацией, хорошо зарекомендовавшие себя при решении сашх различных геологических задач. Раньше н шире, .чем в смежных горнодобывающих отраслях, появляются в геологии современные средства обработки. НГИ -автоматизированные системы.

Актуальность теш диссертационной работы, в определенной степен?.вытекает из той роли, которую играет в АСНШ ее линг-вивтическое обеспечение (10), а танке специфики современного этапа развития автоматизированных систем обработки НГИ. ..

Подводя итоги десятилетнего периода проведения ксследова- . ний, по автоматизированной обработке информации з СССР А.И.Ми- " хайлов, АЛЛерный и Р.С.Гидяревскай писали, что: "оснознне проблемы создания'И соверпенствования АСйХН тлеют логико-семан- ', тическпй34^ и социально-психологический характер". Несмотря на солидный возраст этого высказывания, оно не потеряло актуальности и в настоящее время. Доказательством является практика создания многочисленных АПИС з проэедоий с этого момента период времени. Ввод их в действие всегда созпадает с завершением работ по созданию главного элемента ЛО - информационно-поискового тезауруса.

Специфическими чертами текущего этапа развития АСНШ являются широкое развитие практики проведения ретроспективных поис-

' Термины "семантическое" и "лингвистическое" (обеспечение) являются синонигаыи. В 70-х годах был более распространен первый из указанных вариантов, а с начала 80-х - второй.

— Д. -

коз з крупных банках данных, в тог.: числе з рекпме теледоступа, а такяе ппрокое знедренпе персональных 23'.,I. Пользователи создают с их помощью разнообразные, в том числе л документальные, системы. Успех реализации обеих операций в значительной мере, определяется наличием праззл и пособий для создания эффективного • ЛО систем различных рангов, тезаурусов высокой сег.2Лтической силы, четких правил формирования поисковых предписаний.

Цель работы

Глазными целями работы были:

1. Создание оптп.\2льного типового комплекса лингвистических средстз обеспечивающего эффективную работу крупной полпте-матической АСНТИ отраслевого ранга, еозмоености быстрого ввода ее в действие и дальнейшего совершенствования.'

2. Разработка теоретического обоснования, приемов и средстз создания отдельных составляющих этого комплекса, а таксе типовых элементоз, которые могли бы быть использованы з других АСНТИ непосредственно или после незначительной модификации. Наиболее ваяной задачей является создание КПТ высокой семантической силы..-Для ее решения требуются эффективные правила и приемы выбора ключевых слов, их лексикографической обработки и установления менду еими парадигматических отношений.

3. Ликвидация несоответствия менду возможностями расширения поисковых предписаний в большинстве действующих в стране ШШ и требуемого для проведения эффективных информационных поисков по запросам спепдалистов-геологоз. Главной причиной возникновения указанного несоответствия в геологических АШ1С является обилие терминов определяющих пространственное ж временное положение объектов изучения и запросов.

4.Определение оптимальных путей дальнейшего' совершенствования отраслевой АСНГИ. Создание предпосылок, для ее развитая в плане лингвистического обеспечения.

Научная новизна работы

В диссертации иачонены результата суммирования и анализа обширного опыта, накопленного в процессе создания и совершенствования ОАСНТИ Мингео СССР и сменных отраслей, а такге исследований в области теории инфорттики. Отдельные положения и выводы предыдущих исследований .были развиты и использованы для получения новых выводов и направлений использования. К их числу относятся:

- применение фасетно-категориальной схемы для разработки типологии лексических единиц ИНГ, установления менду ниш парадигматических отношений, оптимизации процесса создания тезауруса;

- использование результатов изучения кнфорг.£цнонных потребностей абонентов'для совершенствования общей структуры АСНГИ, контроля полноте лексики ИНГ и ограничения глубины его иерархии:

- разработка толкового дескрииторного слозаря морфем (сщслокесущг: частей слодннх слов);

К полностью оригинальна!.! теоретическим разработкам азтора пршадлеаат: -

- разграничение сфер использования дескрипторнах п классификационных языков. Область» обязательного использования первых являются термины категории "Штерпя"; с помощью вторых успешно р< иаатся задачи передачи аспектов документов и запросов, относящихся к категории "Пространство" и "Время";

-к-

- разработка принципов создания и форм специализированных рубрикаторов "Пространства" и "Времени";

- создание вар!1антов методики анализа геологической информации в АСНГИ;

- устаковлекие системной природы лингвистического обеспечения АСНГИ;

- вывод формулы количественного определения семантической силы ИНГ.

Апробация работы

Основные пслокенля работы докладывались и обсуждались в 1979-1991 гг. на Всесоюзных, межотраслевых конференциях и сепша-рах, з топ числе на: ^

- симпозиуме "Диалоговые и фактографические системы информационного обслунизания. 1.1., (Звенигород), 1979 г.

- П Всесоюзной Еаучно-технической конференции. М., 1978 г.

- 17 Всесоюзной научно-технической конференции. г.Москва (Суздаль), 1983 г. -

- П Всесоюзной конференции "Систешшй подход в геологии".

М., ШНГ, 1986 г.

■■ - Всесоюзной конференции "Информатизация геологической отрасли". Суздаль, 1991 г.

Практическая реализация результатов

Комплекс лингвистических средств, перечисленных в табл.1, уне много лет (с 1985 г.) обесценивает функционирование Отраслевой АСНГИ Ыднгео СССР. Все они созданы под руководством и при непосредственном участи:! автора, с использованием его теоретических разработок.

-(Г-

С помощью указанных средств были оперативно введены в действие новые специализированные и региональные центры Отраслевой •системы (по гидрогеологии при ВСЕГИНГЕО, пос. Зеленый; по геофизическим методам поисков при институтах "йхгеофизика" в г. Баку и "ВНИИгеофизика" в Москве; региональные центры при ПГО Центргеология, Якутгеология, Запсибгеология). В 1988 г. автором и руководимым, им небольшим коллективом была введена в промышленную эксплуатацию, модернизированная по его предложениям, система автоматического индексирования документов Скобки ОС ЕС с развитым комплексом лингвистических средств. Это кардинально улучшило технологические параметры и возможности комплектования ОАСНГИ, обеспечило совместимость всех входящих в ее состав ЧАШС специализированных и региональных центров. Создание высокоэффективного Ж) и введение его в режим промышленной эксплуатации позволили начать решение ряда принципиально новых задач: организации и проведения наукометрических исследований, двуязычного индексирования документов, установления случаев дубли-роваийя геологических исследований.

Публикации по теме диссертации

Основные результаты полученные в процессе работ, послуживших основой диссертации, изложены в 30 публикациях /1-30/.

Структура и овьем работы .

Диссертация состоит из вводной главы, содержащей общгю ее характеристику, шести глав, заключения и списка литературы. Общий объем - 266 страниц. В тексте имеется 32 таблицу и 40 рисунков.

-б"

СОДЕРЖАНИЕ РАБОТЫ

ОАСНТИ Ыингео СССР создается с конда 60-х годов. В ее развитии вьделяется 4 этапа. На первом она представляет собой сеть из зосьми АШ1С, автоношо функционировавших из-за несовместимости в основном лингвистического и, з меньшей мере, г.атематичес-кого и техкпко-техЕологического обеспечения. Отдельные АИПС создавались -з научно-исследовательских институтах и при Министерствах геологии союзных республик.. Впоследствии они обрели соответственно статусы специализированных и региональных центров.

Глазной негативной особенностью этапа было отсутствие в отрасли единой точки зреиия на принципы построения 1ШТ высокой семантической силы. 3 результате был:: созданы тезаурусы двух несовместимых типов: .ТШТ специализированных и региональных центров, уже доказавшие сзоз работоспособность в промышенном рекиме с одной стороны и Отраслевой тезаурус по геологии - с другой. Это, з свою очередь, повлекло за собой образование в отрасли двух групп работников АСНГИ, придернивающихся альтернативных точек зрения по вопросу принципов создания ее единого ЛО.

Тем не менее, при ретроспективном анализе ситуации отчетливо видно, что именно на этом этапе были созданы основные предпосылки для развития и совершенствования ОАСНТИ. Главными из них являются:

1. Ввод в действие локальных инфоргацяонных центров ОАСНШ, появление коллективов квалифицированных специалистов информационного профиля, в том числе-в области создания ЛО.

2. Организация информационного обслуживания большого количества абонентов на оснозе локальных ИНГ. • .'.,

2. Формулирование общих принципов подхода к выбору и лек-сико-графической обработке терминов ИПГ, индексированию докумен-

тов и запросов на базе единого ШШ "Реферат",' реализованного на ЭВМ Мннск-32.

4. Апробация локальных ИНГ в практической работе, проведение рада их редакций; создание распределенного тссива лексики, достаточной для передачи содержания документов и информационных запросов практически всех тематических направлений геоло- | гии. Наличие, такого массива явилось основной предпосылкой для 'последующего создания единого интегрального 10 ОАСНШ и. достижения совместимости ИПС.

5. Проведение теоретических разработок и практической апробации основ построения ИБТ высокой семантической силы: получение убедительных аргументов в пользу необходимости использования в тезаурусах преимущественно однословной лексики, разработка приемов установления парадигматических отношений меаду ЛЕ.

Второй, к соналению предельной краткий, этап развития ОАСНШ охватывает период с 1977-по 1980 гг. Главной характерной его особенностью следует считать создание состоявшей из представителей всех центров ОАСНШ Семантической комиссии, кото? рая стала одновременно: центром обобщения известных и разработ-. ки новых теоретических полонений; органом координации исследований, а такае непосредственного руководства работами по созданию единого ИДЯ ОАСНГИ. Членом ко:диссии являлся и азтор настоящей работы.

Основные результаты, полученные в этот отрезок времени, заключаются в:

- разработке основ и комплекса приемов интеграции тезаурусов автономных ИПС 0АСНГИ/Г7, 20/;

- создании нового варианта единого отраслевого ШШ Базового отраслевого-тезауруса (БОТ) /20, 30/;

-8-

- разработке первого варианта тематического-рубрикатора ОАСНГИ;

- проведении опытной эксплуатации новых лингвистических-средстз ОАСНГИ при работе ее в ренике совместимости /I, 2/.

Негативной особенностью этапа является его кратковременность! достигнутые результаты на протяЕении длительного'отрезка времени не использовались в масштабе ОАСНГИ в целом.^Причиной явился перевод ИПС Отраслевого центра на ЭВМ серии БС, что на определенный отрезок времени вообще' сняло с повестки дня вопрос о функционировании ОАСНГИ в резике совместимости.

Специфику третьего этапа развития 10 ОАСШИ (1981-1985 гг.) определила общегосударственная ориентировка на комплектование фондов всех АСНГИ страны путем адаптации внешних ЕД генерируемых в крупных Всесоюзных центрах (ВИНИТИ,, ВБТИЦ, Ш, ЩНШ и др.).

-С одной стороны, получение, з принцше готовых к поиску, массивов документов является большим благом поскольку сникает тяжелое бремя предкашинЕой подготовки и ввода в ЭВМ. С другой стороны - порокцает немалые проблемы поскольку и на сегодняшний день в центрах-генераторах не достигнуто единообразие правил выбора и лексико-графической обработки лексических единиц ПОДов и даке простановки униаяцированных кодов единого для всех рубрикатора ГАСНТИ. Многочисленные неудачные попытки -организации обслуживания на основе внешних БД создаваемых методом "децентра-лизированного индексирования" привели к мысли о необходимости введения в действие системы автоматического индексирования документов (АИД). Этим и характеризуется четвертый этап развития ОАСНГИ,в котором она находится и в настоящее врем. Система АИД решает вопросы совместимости АКПС, изменяет характер комплектования, открывает новые, чрезвычайно широкие возможности

развития и соверпенствования системы /5, 18/.

Глава I содержит описание общих принципов построения 10, обеспечивающего функционирование ОАСНТН в рент® совместимости. Основным прингрпом дейтсвия ОАСНГИ является одноразовый ввод документов, поступающих в составе внешних БД в Отраслевой центр системы, обработка их системой ШЖ ж распределение полученных материалов ыевду специализированными и региональными центрами в соответствии с информационными потребностями их абонентов. Успешное решение этой задачи стало возмсвннм благодаря комплексному подходу, наличию опыта работ, накошенного в предыдущие этапы развития и теоретическим проработкам основных вопросов:

- исследованию специфики геологического ЕЯ и учета его особенностей при построении ШШ;"

- изучению информационных потребностей абонентов и использованию результатов для созёрпенствования 10 системы;

- разработке принципов достижения совместимости швду центрами системы, объединения функционирующих в них ИНГ;

- разработке правил выбора .и лексикографической обработки терминов для наполнения тезауруса, с ориентировкой на преимущественное использование элементарзыых лексических единиц;-

- созданию универсальных правил установления парадигматических отношений м:езду лексическими едлнпдами ИНГ;

- разработке фасетЕО-категориальной схема и применению ее" на различных этапах создания ИШТ.

Основным результатом исследований является комплекс лингвистических средств, показанный в табл. I.

Целенаправленное исследование геологической терминологии показало значительное тематическое ее разнообразие, а такте, отмечавшееся и ранее рядом исследователей, широкое развитие яз-

N £

■S

с

а

S

сс

5

1 1 -1 Го 1 « SB 1 И 1 + X 1 © 1 id i о v i i i il i l

i = i § 1 i S ! 3 ! 1i « i © « + i i i i i i 1 i i

о ° t 1ое g 1 = 1 ËgÇËs ' з 1 я 1 о d о о я II 1 © * I 1 i i i i ill i

c . . i о 1 i о H» • О И" О — 1 1 3=5 I + I + + + 1 + - 1 t-^T i + + i i + + +

¡ :°¡il !s 1 к© + ♦ * j3 . i z i g к 1 « ©© © i ■ .+

о ;s i = i ci k ó яя i H-iiii:^,©. + + +. + + ©© © i i +

S О 1 £ч 1 § 1 О 1 S= tD gyH Il i" ! Ill ;+!++©! + + i + i i i i

lo 1 g 1 1 — г о О о*- 1 g i ä i § Sis ,»•++•• + i i i i © i ©

1 н 1 JL S • 1 с gi-o iii i + © i

g. " ft г: I I ocj 1 £ ■ ,1й ,11 + 111 + i i i i i + +

! g! i /1 § § _ g g S / i • й 5 QÜ H / О Э С ícC >> / 1 g. О Oo_ / Я & 2 ! 4 / ¡S = / §2 / I О НО 52 / H tí S o / 1E S a / 1 О Л H о о / Я Х5 О 3 fci f 1 о >i О S* _ / е С, ft г п / ' § й _ с н ,е / 1 a S s з S S £ / H 2 ft Я Q / IOOOO^CÍS ' л зон / он s^aáft&p / on; o q a ft я я я / 00..000ЛЧЧЧ f coii41=íE-ia.oüd о Ё § СЗ О Ü С >i О. О H 3 < п г? Sil 5 3 я - ¿ о о о г ооо 3 3 4 3 s s * ~ о lis III H H H S S ä о R S _ s «= Sa 2 « « СчО ООН он X о >3<= о с о so « S X я с, _ о S Л О К'О ugo So О О J= сз Ä к е>га tr Ci, F о sort s й c« * « о о о ot-i a о EH H XD^ S К Я =Э =5ХЭ 0 К Д но H 1 « сзо. orto н 1 g ¡1 «8 к> о к 3 >» о а о« ra X е; rj fto о 3 ¿i Ф Г=Н =

■рс/Олъс- # ** эплэел* oe Oj'oeo if«- * * о© е о

3 И 1 i ansLZzuKCzc I^Síd ' , 1 -¿оки

Е?

о

Зо S

СО (4

* If

.С.

о с.

§ 3

U 51

©I

h О 5 п г: о

в.

а

Е

ö о к

с U о d о

сЗ tr

*0 0

о

лений полисемии, неупорядоченность и многозначность многих тер- ' минов. Специфической чертой геологического ИПЯ является обилие лексических единиц, передающих аспекты пространственного и временного положения объектов изучения и запросов / 28 Так, например, в документах релевантных запросу.о территории Европейской части СССР, соответствующий аспект может быть передан.терминами схем деления пространства, основанных на различных прин- • ципах: административном (Московская область), геоморфологичес- -ком (Валдайская возвышенность)^ геолого-тектоническом (Московская синеклиза). В итоге в подчинении дескрипторов такого ранга,: как Европейская часть СССР и многих других, насчитывается несколько сотен нижестоящих. Это создает серьезные затруднения при проведении поисков с применением ППП, в которых возможность расширения запроса ограничивается 100-150 терминами (УСС, АСОД, Диалог-2 и др.), а также ухудшение параметров работы систем типа П0ИСК-1, работающих на принципе'инверсных файлов.

Результатами исследований в указанных направлениях является установление обязательности применения в БОТ подчинения многих дескрипторов нескольким родовым понятиям. Только такая парадигматика обеспечивает возможность проведения поисков по запросам различных тематически направлений геологии.

Негативные явления, связанные с обилием терминов категорий "Пространство" и "Время" удалось устранить созданием соот-

ветствующих специализированных рубрикаторов. Их 4-5-значные буквенно-цифровые коды, с уппехом заменяют многосотензде ."семантические цепи" дескрипторов и кардинально сокращают объемы необходимого расширения поисковых предписаний.

Изучение информационных потребностей абонентов заключалось в сборе и обработке представительного (4100 единиц) массива запросов, находящихся на обслуживании в информационных центрах ОАСНГИ. Основным результатом проведенных в этом направлении исследований было создание массива лексики запросов, который ' использовался для:

- контроля полноты лексического состава БОТ;

- выбора оптимальной глубины иерархии ИПТ (дескрипторы, находившиеся в парадигматических структурах ниже единиц'лексики запросов, вводились в качестве синонимов, в классы условной эквивалентности вышестоящих родовых понятий;

- уточнения тематических границ потребностей специалистов отрасли и детальности запрашиваемых сведений на уровне словарного состава запросов;

- определения ряда частных параметров информационных потребностей специалистов: частоты и уровня использования территориальных и стратиграфических привязок объектов в запросах, потребности в сведениях по аппаратурным разработкам, техническим средствам и т.д.

Результаты изучения информационных потребностей могут быть с успехом использованы при создании и совершенствовании организационно функциональной структуры АСНГИ, оптимизации схемы движения потоков информации и справочно-информационного обслуживания.

Согласно решения Семантической комиссии возможность работы ОАСНГИ в режиме совместимости должно обеспечиваться:

- использованием в ОАСНГИ единого комплекса дескрипторных ИПТ (БОТ и локальных ИПТ), а также классификационных ИПЯ;

- общностью формы представления ключевых слов в словниках базового и локальных ИНГ (при автономии парадигматических отношений в каждом из них);

- применением единой методики индексирования документов;

- наличием единого отраслевого обменного формата документов с фиксированным расположением в нем семантических элементов;

- функционированием отраслевой службы ведения ИПЯ, осуществляющей контроль за единством лексического состава всех ИПТ и рубрикаторов ОАСНШ.

В дальнейшем практически все эти решения, включая и задачи ведения ИПЯ, стали обеспечиваться функционированием системы АИД, введенной в действие в Отраслевом центре.

Важным результатом работы Семантической комиссии явилось формулирование и ввод в действие системы правил, выбора и лексикографической обработки терминов, включаемых в ИНГ,регламентирующих их состав, приемы снятия омонимии и форму представления. Узловым вопросом "Правил..." является ориентировка на преимущественное использование однословных терминов, "разбиение" всех словосочетаний не соответствующих сформулированным признакам их устойчивости (наличия однословного синонима или общепринятой аббревиатуры, случаев, когда общее значение словосочетания не эквивалентно сумме значений его компонентов или когда один из терм'инов, входящих в словосочетание не имеет самостоятельного хождения "в геологической литературе").

Те же самые условия определяли необходимость "разбиения" сложных слов - представления их частей (имеющих большую частоту употребления) в виде самостоятельных терминов. Впоследствии указанные подходы: к словосочетаниям и сложным словам нашли отражение в ГОСТ на ШТГ 7.25--80.

Предпочтительность использования в ИПТ однословных терминов или, в более широком плане - элементарных лексических единиц, явилось результатом обобщения многолетнего опыта разработки и совершенствования ИПТ в центрах ОАСНГИ. Была установлена прямая зависимость между .сокращением количества "неоднословных" терминов ИПТ и повышением параметров проводимых с их применением информационных поисков /17/.

В дальнейшем, в процессе создания БОТ и других элементов 10 ОАСНГИ, показанных в табл. I, эти положения были развиты и углублены. В качестве двух основных решений на этом пути могут быть указаны:

1. Отказ от снятия омонимии терминов пометами. Экспериментальными" исследованиями было установлено, что это с успехом заменяет использование в запросах тематического рубрикатора, а также семантическое окружение омонимичных терминов /12, 17/. Эти действия существенно повысили семантическую силу ИПТ, сделали его более экономичным, повысили стабильность лексического состава и гибкость парадигматической структуры.

2. Широкое использование'частей сложных слов в качестве самостоятельных дескрипторов. Роль диссертанта и руководимого им коллектива, в данном! случае, заключается в значительном увеличении количества лексических единиц этого типа, изучению различных аспектов применения при индексировании и в информационном поиске /9, 18/Уи руководства по использованию /10, II/.

"Разбиение" сложных слов ведет к повышению семантической силы ИПГ. В первую очередЬ при этом возрастает экономичность тезауруса, что объясняется использованием одних и тех же лексических единиц в образовании самых различных понятий (био-сфе-ра, био-масса, атмо-сфера и т.д.). Те же действия ведут и к возрастанию универсальности лексических единиц, что также явля-

ется важным параметром семантической силы ИПТ. Пкроко используемая в геологических поисках морфема "Микро"- (микро-форма, микро-трещина, микро-палеонтология) не менее часто встречается и в терминах других научных направлений (микро-ЭВМ, микро-процессор, микро-фильм и т.д.). Оба качества (экономичности и . универсальности) возрастают при группировке морфем в классы условной эквивалентности. Так, наличие одного дескриптора ГИДРО- и его синонимов позволило вывести из БОТ 96 имевшихся там ранее сложных терминов: .

ГИДРО- проницаемость

с водо- упорность влаго- насыщение

устойчивость поглощение и т.д.

Такие сложные терлины как "литостратиграфия", "биостратиг-графия" и "ритмостратиграфия" иллюстрируют еще одно важное следствие ориентировки на отделение морфем - сближение лексики ПОД и языка запросов. Абонент, задающий вопрос "Стратиграфия..." должен получить в ответе документы, содержащие сведения о схемах расчленения стратифицированных толщ, полученных любым методом; изучения фаунистических остатков (биостратиграфия), ритмич^ ности толщ (ритмостратиграфия) или их литологического состава (литостратиграфия). После "разбиения" соответствующих сложных слов в каждом ПОД появится ускоряющий и облегчающий поиск термин "еГРАТИГРАФИЯ".

Возрастание стабильности лексического состава ИПТ происходит также в связи с тем, что после разбиения в ДОД помещаются основополагающие понятия: имена фундаментальных наук (гео-хи-мия, гео-ботаника), названия основных свойств материи (электрометрия, грави-метрия, магнито-метрия), лексические эквиваленты

крупных частей геологического пространства (лито-сфера,гидросфера). Это делает возможным экономичную передачу многих понятий комбинациями уже существующих в ИНГ лексических единиц, а также дает,уже подтвержденную примерами,гарантию того, что с их помощью будут образованы.и новые термины. Это можно проиллюстрировать появившимися сравнительно недавно терминами: сейсмостра-тиграфия, магнитостратиграфия-, возникшими в 90-х годах названиями : атмоэлектрогеохимические (аномалии) и биолитосейсмостра-тиграфические (исследования в Тихом океане).

Полный перечень и группировка морфем даны в "Методических указаниях по работе с морфемами ИПЯ-геология". Они представляют собой толковый дескрипторный словарь морфем, построенный в соответствии с ГОСТ на ИПТ, и снабженный правилами пользования этим руководством /10/.

В процессе работ по созданию ИПТ в центрах ОАСНГИ был установлен оптимальный комплекс парадигматических отношений состояний из трех типов: синомимии, родовидовых и ассоциативных. При составлении БОТ выделились 2 типа синонимии: имманентная (лексические варианты и общепринятые сокращения) и факультативная. Последняя применялась лишь в тех случаях, когда потенциальные синонимы не имели самостоятельного поискового значения. Это устанавливалось путем сравнения с терминами упомянутого выше массива лексики запросов. Наличие в самостоятельном запросе предопределяло необходимость придания термину ранга дескриптора.

На первых этапах разработки ИПТ в ОАСНГИ родовидовые связи (и в меньшей степени ассоциативные) устанавливались исходя из

-/у-

научных классификаций различных объектов изучения, а также стратиграфических схем. В дальнейшем были выработаны и утверждены Семантической комиссией два варианта правил установления отношений между единицами ИПГ /17/. В основу использованного при создании БОТ, положен единый сквозной принцип - анализа семантики каждого понятия и оцределения комплекса признаков, которыми обладает отражаемый этим понятием предмет, явление, процесс и т.д.

Сильные (родовые) парадигматические отношения по этим правилам соответствуют отношениям "род-вид", реже "часть-целое" между понятиями. Они1 устанавливаются в случае, если видовое понятие при потере одного из своих признаков переходит во вполне определенное родовое понятие

Минерал —магнетит (магнетит широко распространенный

минерал горных пород),

Железо —»■ магнетит (магнетит - основной полезный компонент руд железа).

Ассоциативные связи реализуются в случае, когда с сокращением количества признаков переход .происходит-только при соблюдении каких-то дополнительных условий, не столь однозначно, как в вышеуказанных:

железо титаномагнетит (титаномагнетит является рудой

железа, при высоких содержаниях и благоприятных геогра-фо-экономических условиях).

Созданная диссертантом в процессе составления БОТ фасетно-категориальная схема дает возможность выделить шесть крупных групп терминов (категорий): "обьевты", "время", "пространство", "процессы", "признаки" и "идеальные конструкции" (имена наук, гипотез, методов исследования). Эти подразделения первого уров-

-ЛР-

ея включают 8 подкатегорий и 41 фасет /17/. Применение фасетно-' категориально!* схемы дает еозмодность упростить многие последующие операпри по составлению тезауруса либо интеграции локальных ШЕЕ: выявление случаев нарушения правил лексикографической обработки терминов, установления парадигматических отношений, .' генерации в машинном рензшз локальных ШЕЕ, оптимизации процесса составления поисковых предписаний и др. /17, 29/.

Наиболее значимым результатом проведения фасетно-категориаль-ного анализа является выделение трех крупных груш лексики, отвечающих основополагающим философским категориям:].Ьтерии (материальным объектам и неразразно связаннымис ними названиями признаков и процессов), а такие .Пространства* и времени" -' объективных форм существования Материи. Это позволило разработать типологию лексических единиц геологического ШШ /28/ и, что более ваяно, явилось предпосылкой для создаяия оригинальных лингвистических средств: специализированных рубрикаторов пространства и времени.

Описанию последних практически полностью посвящена глава 2. Возможность построения рубрикаторов становится ясной при рассмотг рении характера парадигматических отношений соответствующих терминов, наиболее ярко проявляющегося в графическом их изображении. Эти лексические единицы образуют классические "деревья" - результат деления каждого родового, (вышестоящего) понятия на определенное, заранее известное число видовых и полностью отвечающие требованиям,. предъявляемым к корректным классификациям. Деление каждого вышестоящего понятия вернее, территории, которой оно отвечает) производится по единому основанию (размер, площадь) и по одио1<у и тол*у ае принципу (часть-целое). Выдергиваются требования непрерывности и соразмерности деления, а такге четкости границ выделенных классов. Это, естественно, выте-

-19-

кает из того, что нет территорий, относящихся одновременно к двум государствам шш не принадлежащих ни одному из них. Границы континентов, стран и ах частей изображены на многочисленных картах и однозначно понишатся всеми /3, 29J

Указанные обстоятельства позволили создать эффективный рубрикатор пространства, подучивший в соответствии с традиционной для геологов терминологией; название "Классификатор территориальных привязок" / 8/. Он состоит из систематической и алфавитной частей, причем первая, в свою очередь расгвдается на три раздела адмишстратизно-географического, структурно-тектонического £з пределах суши) деления и географических единиц акваторий океанов и морей.

Административно-географический раздел имеет максимальную , глубину пять уровней иерархии. Подразделения его верхнего уровня индексируются буквами "А" - территория СССР, "Б" - зарубежные территории и "В" - акватории. Наиболее дробными единицами его являются: в пределах СССР - области, а зарубежных территорий - отдельные тосударстза. В пределах США выделены группы штатов, Канадн к Ицции - отдельные штаты; детализация акваторий - до отдельных корей.

Раздел структурных Ïтектонических) сризязок позволяет выделять части Земли, различающиеся характером! раззитая л возрастом образования земной коры: древние s молодые платформа (индексы Г11 и Г12),.складчатые геосинклинальные сооружения различного возрасту; байкалвды'(Г20), календонлды (Г22) и т.д. Всего рубрикатор территориальных призязок содержит 505

единиц (375 административно-географических и 130 структурных).

»

Неотъемлемой его частью является альбом, содержащий дезять схем крупных регионов: материков (Австралия, Африка и др ) и круп-

вых их частей (Азиатская часть СССР, зарубежная Европа). Основу кавдой схемы составляет штриховое изображение тектонического строения данной территории; административное ее деление дано на прозрачной накладке. Перечень выделенных территориальных единиц (административных и структурных) дан на полях.кавдой схемы в алфавитном порядке. С помощью этого пособия индексатор запроса монет обеспечить выдачу Еа него документов, в которых территориальная принадлежность передается терминами как структурного деления (Московская синеклиза, Балтийский щит), так и административного (Московская область, Финляндия, Норвегия, Карельская АССР и др).

Подраздел "Акватории" построен на основе деления Ыпрозого океана ка 5 частей (океанов с принадлежащими им окраинными морями) и группу внутриконтинентальнах гарей. В ряде случаев выделяются промежуточные иерархические уровни, такие как Дальневосточные моря СССР, Австрало-Азиатские моря и более мелкие единицы акваторий - проливы, зализы и т.д. Для традиционных группировок морей, выделяемым по отличным от "географического" основаниям (приливные моря, шельфовые моря и др.), указываются совокупности кодов морей, входящих в данную группу.

•Как показала практика, использование рубрикатора территориальных привязок позволяет достичь высоких показателей работы ИПС. Содержащиеся в нем 505 единиц, без зсякого ущерба для параметров информационного поиска, заменяют 4950 территориальных привязок, образующих соответствующий раздел тезауруса (см. табл.2) Использование средств локирования позволяет кардинально сократить размеры поисковых предписаний и, в большинстве случаев укладываться в допустимые ППП их разнеры. Они становятся предельно лаконичными: AI» - Азиатская часть СССР, Вж - зарубежный и

-su-

т.д., не требуют вообще никакого расширения и в то же врет обес? печивают выдачу всех относящихся к данным регионам релевантных документов..

По аналогичным принципам построен рубрикатор возраста геодо* гических образований /7/; 157 его кодов с успехом заменяют 1359 дескрипторов и синонимов БОТ, составляющих соответствующий фасет категории "время".

Положительные результаты многолетней эксплуатации рубрикаторов позволяют рекомендовать их в качестве типовых проектных решений для создания единой системы рубрикаторов информационной службы страны /14/. Ее должны составить классификационные взаимодействующие ШИ, составленные с использованием различных оснований деления - для "времени" это гагут быть различия об- . щественно-политическзх формаций, предметов материальной культуры, уровней эволюции органического мира; для"пространства" -различия геоморфологии регионоз, их почв, климата, экологичес- ' ких обстановок и др.

Глава 3 посвящена описанию БОТ - главной составляющей лингвистического обеспечения ОАСНГП. В нем реализованы все охарактеризованные выше приемы и методы создания ШН высокой сешнти-• ческой силы. Показатели и характеристики отдельных лексических групп тезауруса сведены в таблице 2.

Лексической базой БОТ явились тезаурусы спегралнзнрованных ж региональных центров, проверенных в многолетней практической работе; многие из них проши 2-3 редакции. В Отраслевом центре - месте создания БОГ, эта лексика прошла, дополнительную проверку на соответствие выработанным правилам лексико-графзческой обработки; из нее были выбрана "пересекающиеся" общеязыковые и общеотраслевые термины^-также спецлексика всех представленных тематических направлений геологии, независимо от пересечения.

-

Табл. 2

I с: а ш < % е- ПоЗразЗеленц* tpacem- мо-китегориальной. схемы а состав групп Количественные показатели Качественные zaракте растили.

/ ИорфШШЯ ЛЕ ЛвдЗигни п. (mtlfltcflrtiu) перспектив Smxoítíani Kf&czup.u ЗескриппйШ кттрм и преооразвВ. при IScSt í ИПС роль В информационных поисках

/ / / крхичеагЛа.

X а x е». i Категории: 1. о5гекты Zпроцессы 1 признака Чмшьные конструкции та в, о г.о г ограничены 1г*.оЪразон ноВые конст-рукцшиз известных тер MAWBtLHOP' ®вн) омонимия М снимается дейапбием тематичкк рубрикатора- Контроль та ИПТ, помещают пи шщ расширение ПП при поймах ирй и Рй Во Вех блоках. Испомцнт-с* Эдорипторы Всех ypoiHtH

« с», tea 2 ^ I g -i- Категория япрсстранстВз* Фасеты Нефаричесхие единицы 2.ясвайалвкты возраста тм-тонических движений. «959 31,0 М 8" ж .. 1¡ . i § в s &3 is*. ш т S «, Е в £ с g « а о Ll Igl |цОО -с с с поиски ИСИпв кедом BawHotam. рубриялтсроВ j при. поисках РП tiomífAwuvx за* просох чрк-расша-оенйя Ш поиск toteeх блоках; В запросах испвь-уцктся дескрипторы Верхних уробней

é Категория «Время" Фасеты 1. Возраст гедлогических образовании ZBpeMX тектонических гВи>«мий изо 0,5 я,а иг - 7

s а ^ I I й марка приборсВуматери-наоВ, реаг ентсз, стамксВ названа* кора.мгй, свод» экенил, крупных устано" Вок и т.З. Зкяш шыат преимутлЗняс-л ойные 5¡/x¿m» uuf^&xvwn^! цш и o&tiptB. нет 3 ж ЭР л ж «i & а «» * ■ é>¿ П19| ¡lili PPt Sua c* a s|34 f!Pl а «с используются 3 поасхах РЯ ,на прямое со5поЛ1ни$т

г" назВ&ния месторождения, населенных пинктсВ, рек. озер, мелких злементсо ртяра (isp, вп&Зия а mi) сотня nwei» преинуцеапВ. саоВосочетни*

'Зля групп 1,П дп- количеств fiS б íojoBqh ompaaeloM тезаурусе погеалогиа', MlüuYipynn ¡ тезаурус не ¡мпчены (изВестны ¡принципе, используются I Зокуяеятах)

рииврии» категории^ материя |3-Z?Cf пространства •.*•'.! Вренм

Затем были- последовательно реализованыы этапы составления ИПТ: распределение по подразделениям фасетно-категориальной схемы, установление парадигматических связей ( в начале между терминамикавдого фасета, а затем межфасетные и меккатегори-альные), ввод в ЭВМ, экспериментальная проверка-проведение поисков на представительном политематзческогд массиве документов, регистрация в АСБИЯ, передача в промышленную эксплуатацию /I, 2/. В настоящее время БОТ о фор:,иен в виде трех тошв, два из них включающие лексику второй и третьей групп табл.2, представляют собой специализированные тезаурусы территориальных и возрастных привязок; здесь концентрируется подавляющее большинство устойчивых, не подлежащих "разбиению" словосочетаний. Каждая единица специализированных ИПТ (дескриптор или'синоним)

сопровождается кодом соответствующего рубрикатора. В случае _ совпадения (полного или более чем на 75%) площадей административных и. структурных единиц, около данного дескриптора проставлены комбинации из кодов обоих типов. Термины, отвечающие мелким территориальным единицам, снабжаются кодами вышестоящих лексических единиц, соответствующих дескрипторам используемым в подавляющем большинстве запросов (3-го и 4-го уровня). Для определения глубины иерархии (в данном случае классификационных ИПЯ) использовались результаты изучения информационных потреб- ~ ностей абонентов /13/.

Поскольку в настоящее время простановка кодов рубрикаторов пространства' и времени осуществляется ЭВМ в процессе проведения автоматического индексирования документов, эти специализирован. ные тезаурусы используются, главным образом, для получения отдельных справок и ведения ИПГ. В повседневной работе при формировании поисковых предписаний используются, практически, только рубрикаторы территориальных и возрастных привязок /б, 8/.

Термины первой группы образуют "собственно ИПГ" (дескрип-торный или вербальный ИПЯ). Именно при его составлении и находит основное применение весь арсенал средств достижения высокой семантической силы ИПГ, охарактеризованный в главе I. Именно к нему адресуются и реализуются пожелания использования преимущественно элементарных однословных -терминов, морфем и ограниченного количества устойчивых словосочетаний.

Наиболее ярко различия между частями БОТ видны при рассмотрении схем парадигматических отношений. Лексические единицы .специализированных тезаурусов образуют типичные многоуровневые "деревья" соответствующие корректным, соответствующим правилам их построения, классификациям. Во втором случае ("Собственно

ИПГ") ш ввдим классические семантические сети, являющиеся ■ результатом "пересечения" большого количества классификаций. Характерными особенностями последних является их праггатический характер; они основаны на результатах изучения свойств групп объектов,, вакных для решения определенных задач. Как правило эти классификация не отвечают формальным требованиям (единства основания деления, непересекаемости-классов,'соразмерности деления и т.д.). Это естественно объясняется бесконечным многообразием форм существования'материи, ее "неисчерпаемостью", ко-• торыа, в свою очередь, порождают множество аспектов изучения,1 приемов и штодов исследования как различных, так и одних и тех же объектов. Это может быть наглядно проиллюстрировано на примере простого объекта - шноэлементного минерала - алмаза. С позиций физической химии он представляет собой одну из моди- . фикацяй углерода, обладающую определенной кристаллической структурой и физическими свойствами; в классификации минералов зани-г.ает свое место в классе самородных, а по показателю твердости, играющему важную роль в диагностике и в производстве абразивов, входит в наивысший десятый класс. В "петрографической классификации" алмаз относится к группе прозрачных изотропных минералов. Вторую, большую часть прозрачных минералов, как известно, составляют анизотропные, их дальнейшее деление производится по показатели двупрелогмения и осностп. Дзуосные минералы, в свою очередь, делятся на "положительные" и "отрицательные" и т.д. в классификации полезных ископаемых алмаз включен з две группы -нерудных полезных ископаемых: драгоценных камней и абразивного сырья. При оценке алглаза в ювелирном деле ведущую роль играют наличие или отсуствле включений, оттенки цвета. Эти качества, вместе с размерами и формой кристаллов, определяют цзну, которая является

-Л5-

важнейшим параметром выделения различных групп кашесамоцвёт- ' ного сырья.

Глава 4 посвящена автоматическому индексировании документов (АИД). Главным побудительным мотивом ввода АИД было, под- ' твераденное анализом и многочисленными неудачными попытками, осознание. невозможности организации полноценного сцравочно-инфортционного обслуживания на основе документов.нисходящего, и восходящего потоков. Главными препятствиями на этом пути были различия принятых в центрах-генераторах, правил выбора, .. " форм представления ключевых слов и других поисковых элементов записей документов. В то не время само наличие БД на Ж яви-. . лось благоприятной предпосылкой к осуществлению этой операции.

Для реализации процессов АИД был выбран разработанный в. Информэлектро и впоследствии усовершенствованный по предлоге- . неям диссертанта ШШ Скобки ОС ЕС. Этот выбор определили пшгаокге.; функциональные возможности ШШ, главными из которых являются:

- модульность, способность к взаимодействию с различными

ИПС;

- быстродействие; расход машинного времени на индексирование одного документа у ШШ Скобки колеблется в пределах 1,2- . 3,0 секунды, в зависимости от объема документа ж быстродействия ЭВМ; ' к'

- широкие возможности анализа сложных слов, опознания до семи самостоятельных частей (основы слова, трех префиксов ж трех флексий); ' '

- возможность дозаписи к индексируеышгтермияаи новых зна-.чений, выраженных как словами, так и кодаш рубрикаторов.

Два последних пункта показывают, что система Скобки представляет собой эффективную поддержку решений, принятых при создании

-не-

ЛО ОАСНГИ. С ее помощью реализуются практически все позитивные особенности построения и теоретические разработки.При АИД осуществляется, выбор только устойчивых словосочетаний, "разбиение" сложных слов, использование вспомогательных рубрикаторов простран^ ства и времени,"семантические развертки". Последние представляют собой замену идентификаторов, выбранных из лексических групп 1У и У табл. 2. имеющимися в ШЙ терминами,всесторонне характеризующими данный объект. Пример "развертки" показан в п.9 табл. 3.

■ • Табл. 3

В й!Фрагменты индексируемых¡Результаты АН п/п!текстов (названий и ре-!(запись в ПОД) !фератов работ) !. ! ! Притлечания

I ! 2 ! 3 ! • 4

I.

...ниннецу девону ...Упала ...

2.

3.

... рудных провянщи, полей и узлов....

.оловоносный... . оловос сдеркащий.

руда железо

.железорудный... •микросейсиокаоотаа.. .глдсро- сексмо- каротаж

5.

.м-нпе

девон кпкний Д1333 территориальные и Упал АЗ зозЬастные привяз-

ки помещаются в ПОД в.нормализованном виде и дополняются индексами оубрикатошз птюстданства и вте-кёни

составляются необходимые (заданные з слозаое) словосочетаний .

сложные слова "раз-бпзаатся", лексемы -носкость, -поеный пшзодятся к одного деегшиптору -косность

отделяется до трех самостоятельных префиксов, они помещаются з ПОД в заданной форме

раеппфтюзываэтея и индексируются сок-* ращения,з том числе окказиональные

провинция рудная поле рудное узел Ьудный

олово -косность олово -носность

месторождение

4

5 4

-6.

.к содержанию К и р

?» ... взаимодействие. ...цроисхоздение..

8. ...в качестве... ...о качестве...

с оде шание калии углерод

сзязь генезис

качество

9. .. .Цурунтау... или месторождение ...Дурунтаусское (руд- золото коренной ное поле)... эндогенный Уз-

бекская ССР А134

латинские обозначения элементов индексируются (отличаются от птэеддо гов на русском языке), заменяются соответствующими терминами

синонимы (полные) могут быть заменены дескрипторами

словосочетание "в качестве", имеющее сымсл наречяя(как) и ряд подобных ему поя АИД "гасится", а существительное "качестзо" индексируется и поменяется в ПОД

при индексировании имен месторождений дописываются (внесенные в словарь) наззания ведущих кошонентоз руд, генетический тип и территориальная привязка

Указанные в табл. 3 преобразования терминов осуществляются с помощью словарей основ, словосочетаний и префиксов, составляющих "ядро" лингвистического обеспечения-системы Скобки. Объем словарей, осуществляющих в настоящее время, операции АИД в ОАСНТИ соответственно равен II400, 6920 и 560 единицам. Дразда эти цифры дают лишь общее представление о количестве терминов, которыми "оперирует" систет АИД поскольку все элементы словосочетаний .и значительное количество/префиксов являются в то ке время и единпдами словаря основ.

_ Основой для составления первого ("исходного") варианта словарей послужили: I).базовый отраслевой тезаурус - из него была

— АР-

заимствована основная масса т.н. "смысловых" терминов, названий геологических объектов, процессов и методов, признаков, имен наук; 2) специализированные тезаурусы территориальных и возрастных привязок; 3) методическое руководство по работе с морфемами /10/ - послужившее источником большинства префиксов для наполнения одноименного словаря.

Возможности ППП Скобки позволили существенно расширить состав и количество элементов на которые разделяются при индексировании сложные слова. Начало было положено.использованием уже в "исходных" словарях дескриптора -НОСЮСТЬ (синонимы —НОСНЫЙ, -ОНОСНЫЙ, -ЕНОСНЫЙ), который является традиционным в ОАСНГИ высокоэффективным средством, обеспечивающим гибкость и экономичность ИПГ /7/. Дня сохранения этой особенности построения ИПЯ действующих центров, указанные лексемы были введены в качестве дескрипторов в словарь основ. Использование возможностей трансформации терминов в процессе АИД позволило свести результаты их индексирования к одному дескриптору -НОСНОСТЬ. Названия элементов и минералов, являющихся полезными ископаемыми - объектами поисков и оценки, были введены в словарь префиксов (помимо нахождения их в словаре основ). В результате этих действий широко распространенные термины "разбиваются" и представляются в виде элементарных частей - дескрипторов:

НЕФТЕГАЗОНОСНОСТЬ —НЕЗГЬ ГАЗ -НОСНОСТЬ ЖШЕНОСШЯ — ЛИТИЙ -НОСНОСТЬ и т.д.

В дальнейшем в список "основ",получивших условные названия дескрипторов-флексий были включена."-зация, (-изация.-изированный); -оид; -подобный(-видный;-оподобный) некоторые другие.Зтим была создана предпосылка для существенной экономии объема ИПГ и словарей АИД с одновременным повышением стабильности и универсальности

лексического состава словарей,а также способности "восприятия"

-19-

вновь возникающих терминов. Механизм этих действий показан на рис. I.

МЕГА-, ПЛАТНО-, ГРАНИТ - единицы словаря префиксов ГРАНИТ, ПОДОБНЫЙ - единицы словаря основ

Рис. I. Использование термина ГРАНИТ в качестве основы и префикса.

В подтверждение правомерности подобных действий можно при-. вести три соображения:

- термины ПЛАГИОГРАШГ, МЕГАГРАНИТ и т.п. отражают тонкие нюансы состава или степени изменения гранитов практически не влияющие на определение релевантности документов подавляющему большинству запросов;

- всегда сохраняется возможность построения ПП при котором будут выданы только эти, частные, понятия (плагиогранит=плагио-+ гранит; гранитизация=гранит+ -заций и т.д.), использование при этом оператора "нахождения рядом "гарантирует стопроцентную точность выдачи;

- ППП Скобки обладает способностью "защиты" от разбиения сложных слов: если внести в словарь основ термин гранитизация он не будет "разбиваться" несмотря на наличие необходимых для этого элементов.

щ

ОБИДНЫЙ ОПОДОБНЫЙ ИЗАЩЯ ИЗИРОВАННЫй

-ПОДОБНЫЙ

- JO-

Ввод в действие системы АИД обеспечивает успешное функционирование ОАСНГИ и открывает большие возможности дальнейшего ее совершенствования. В числе наиболее важных результатов введения АИД следует назвать:

1. Создание полноценного (с максимально возможной полнотой и без дублирования) входного потока документов'и проведение операций индексирования с применением единого ИПЯ. Решаются проблемы одноразового ввода документов в ОАСНГИ и внутрисистемной совместимости, которые были сформулированы уже более 10-ти лет назад, но, до введения АИД, были также далеки от решения, как и в момент возникновения. Высокая скорость АИД делает возможным включением в фонд ОАСНГИ не только традиционно используемых источников, но и документов представляющих несомненный интерес для геологов из БД, подготавливаемых в смежных отраслях.

2. Возможность достижения высоких параметров информационных поисков по запросам абонентов с применением унифицированных методик подготовки поисковых предписаний. Это было доказано экспериментальным сравнением результатов поисков в массивах документов подготовленных методами"интеллектуального" (ручного) индексирования и АИД /5/.

3. Комплектование единого фонда геологических работ в ЭВМ создает предпосылки для решения задач наукометрического и прогностического характера /22/.

4. Наличие в ЭВМ массива рефератов геологических работ, проводимых как в Мингео СССР, так и в смежных отраслях, открывает возможности выявления и предотвращения дублирования исследований. Примеры успешного решения этой важной задачи были получены уже в процессе 'опытной эксплуатации системы; АИД.

5. Новым и важным направлением развития лингвистического обеспечения АИД является разработка словарей двуязычного индексирования. В результате обработки по этим словарям лексические единицы ПОД заменяются терминами на иностранном (английском) языке. Операция производится модифицированными программами 1ии1 Скобки, с помощью специальных словарей.

Результатом работы охарактеризованной системы является "квазииностранный" документ у которого ПОД состоит из терминов на английском языке, а прочие элементы записи: реферат, библиографическое описание - на русском.

Глава 5 посвящена инструктивно-методическим и вспомогательным средствам, обеспечивающим возможность выполнения отдельных операций обеспечивающих функционирование ОАСНГИ; анализа БД и результатов информационных поисков, предмашинной подготовки документов, ведения комплекса лингвистических средств. Наиболее

<• * т

важные элементы этой группы показаны в табл. I.

В заключительной 6-ой главе приводится характеристика теоретических разработок диссертанта:

I. Методика анализа и прогнозирования геологической информации в АСНГИ. Сущность ее заключается в рассмотрении и обработке результатов поисков в представительном массиве документов. Это дает возможность получения ряда пераметров геологоразведочных работ:

- степени обеспечения отдельных видов работ сопровождающим научным обоснованием;

- распределения исследований по тематическим направлениям

и территориям;

- ЗХ-

- выявления прогрессивных направлений исследований, оценки состояния разработок отдельных проблем.

Последнее направление представляет собой комплекс приемов анализа различных статистических данных: распределения документов по годам издания, построения графиков первых производных и рассеяния информации, а также изучения динамики внутренней тематической структуры подмассивов документов принадлежащих к различным возрастным интервалам. Методика не претендует на завершенность. Публикации по этому вопросу /22, 25/ представляет собой характеристики первых результатов и намечающихся путей решения узловых вопросов.

2. В следующем разделе главы обосновывается правомерность отнесения ЛО к разряду системных объектов, главной особенностью которых является взаимодействие между составляющими их элементами, дающее возможность оптимизировать каждый из них и повышающее возможности системы в целом. В качестве характерных могут быть приведены примеры взаимодействия между ИНГ и классификационными ИПЯ с одной стороны, фасетно-категориальной схемой и результатами изучения информационных потребностей абонентов с другой. Действие тематического рубрикатора, снимает омонимию лексических единиц ИГТГ, что позволяет минимизировать количество включаемых в него словосочетаний и повысить семантическую силу. Рубрикаторы пространства и времени по существу "порождаются" тезаурусом. Причем возможность выделения соответствующих его частей обеспечивается наличием и направленным использованием фасетно-категориальтой схемы. Использование при составлении ИГТГ (особенно путем объединения локальных те-

заурусов) указанных выше вспомогательных средств позволяет оптимизировать ряд важных процессов, обеспечивает полноту лексического, состава, позволяет частично алгоритмизировать построение парадигматической структура.

3. Формула определения семантической силы ИПТ дает возможность получения количественных показателей этого важнейшего параметра ИПТ, зависящего от соответствия его ряду требований: гибкости, экономичности, универсальности, богатства словарного состава, широты развития и степени использования пара-' дигматических и синтагматических отношений между словами. Логика и принцип расчета заключается в вычислении значения дроби, числитель и знаменатель которой оцределяют, соответственно, позитивные и негативные особенности конкретного ИПТ:.

В разделе главы последовательно рассматривается роль каждого показателя в создании семантической силы ИПТ, приводится порядок их расчета и обоснование положения в формуле. Важный позитивный элемент - тематический диапазон ИПТ определяется как румма производных от количества подразделений рубрикатора ГАСИГИ. Включение одного подразделения первого уровня оценивается в I балл. Дрля отдельного подразделения второго уровня определяется как частное от деления едишпр на количество подразделений второго уровня. *-;

Также к позитивным показателям относятся количества парадигматических связей, коэффициент синонимии; к негативныл -количество "неоднословных" терминов (словосочетаний, слов с пометами и др.).

Полученная в результате ряда последовательных преобразований форг.ула расчета семантической силы ИНГ выглядит следу-

вщим образом:

Р • ЦД • (РВ+О, 9АД)

К

сс 0,001 > (СЧ+СМШ+АБ) ' где

Р - тематический диапазон, СЧ - словосочетания, НД- количество синонимов - СС - сложные слова,

(недескрипторов), СП - слова с пометами,

Д - количество дескрипторов, АБ - аббревиатуры. РВ- родовидовые, связи, АД- ассоциативные связи,^

Правомерность использования формулы подтверждается расчетами величины Ксо для трех вариантов'отраслевого тезауруса по геологии. Устанавливается прямая зависимость между величиной коэффициента семантической силя и эффективностью использования ИПТ при проведении информационных поисков и других операциях.

4. В заключительном разделе главы автор формулирует свои представления об оптимальных путях дальнейшего совершенствования Отраслевой АСНГИ. Главными из них являются:

1. Организация взаимодействия между документальными, и фактографическими ИПС, как в отрасли, тал и с внеотраслевыми АСНГИ (горнодобывающих и других смежных отраслей, АН СССР, центрами-генераторами документальной информации ГАСНТИ).

2. Достижение максимально возможной унификации лингвистического обеспечения документальных и фактографических систем. Использование в системах обоих типов унифицированных элементов ЛО. Примерами могут быть охарактеризованные выше рубрикаторы пространства и времени.

— Зо —

_3. Организация одноразового ввода документов и фактогра- * фичееких данных, многократное и многоцелевое их использование. Предпочтительным является ввод данных в ЭВМ непосредственно с. анализирующих устройств.

Создание и функционирование такой системы создаст качест-' венные изменения возможностей решения всего 1фуга задач геологоразведочной отрасли: от обработки полевых материалов отдельных партий до рассмотрения различных вопросов использования сырьевой базы в целом.

ЗАКЛЮЧЕНИЕ

Главными основания!,а для соискания ученой степени доктора наук автор считает результаты многолетних (1974-1991 гг.) исследований реализованных в ввде конкретных лингвистических средств обеспечивающих в настоящее время функдаонирование АСНГИ геологоразведочной отрасли.

Роль соискателя в ооздании каздого из них отражена в графе 2 таблицы I.

Вздвигаеыые для защиты тезисы, по глубоко^ убеждению автора, применимы не только для геологоразведочной АСНТИ, а могут быть основой разработки и совершенствования ДО других систем , от щ>упных политематических отраслевого ранга до небольших,

V V >

реализуемых для решения частных задач'на персональных ЭВМ. Они сводятся к перечисленным нике шести пунктам:

I. Оптимальным типовым 10 интегрированной АСНГК отраслевого ранга является система, представляющая собой комплекс средств состоящих из:

- группы дескрипторных ИПЯ (локальных ИНГ, обслуглвающих отдельные крупные тематические направления и Базового тезауруса,

~зе>-

выполняющего, общеотраслевые и нормативные функции, обеспечивающего обработку политеттических запросов, функционирование систем АИД, автоматизированных изданий и др.);

- грушш классификационных ИПЯ (теттического рубрикатора и рубрикаторов пространства и времени), обеспечивающих высокую экономичность цроцесса передачи соответствующих аспектов содержания документов и запросов; '

- инструктивно-методических и вспомогательных материалов, главную роль среди которых играют: фасетно-категориальная схема и результаты изучения:информационных потребностей абонентов.

2. Наиболее ванннш видами внутрисистемного взаиыодейст-впя между элементами лингвистического обеспечения, а также ЛО

*

выделом и программным обеспечением ИГО, являются:

- взаимодействие между классификационными и дескрипторныщ 1ШЯ (снятие омонимии треминов ИПТ тематическим рубрикатором, замена групп терминов относящихся к категориям "Пространство"

и "Время" кодам* одноименных рубрикаторов;

- использование фасетно-категорпальной схеш для организации лексики ИПТ, обособления групп терминов обеспечивающего комфортные условия для построения дескршторного ИБН, создания рубрикаторов пространства и времени, алгоритмизации процессов установления паредпгЕатнческих отношений;

- использование результатов изучения информационных потребностей абонентов для контроля полноты лексического состава ИПТ

и построения его парадигматической структуры;

- учет возможностей программного обеспечения ИПС (в частности использования грамматических средств) при формировании правил выбора и лексикографической обработки терминов ИПТ и других операциях создания элементов ЛО.

_ 3. Основными предпосылками создания ИНГ высокой семантической силы, заключающейся в его высокой экономичности, гибкости и универсальности, а такие стабильности лексического состава, являются:

- ориентировка на включение в ИПТ элементарных однословных терминов и только устойчивых словосочетаний;

- использование морфем в качестве отдельных дескрипторов;

- отказ от снятия омонимии терминов nor.ieTai.ci (реляторами);

- создание и последовательное выполнение единых правил установления парадигматических отношений неаду лексическими единицами ИНГ.

Надежным средством контроля за результатами действий по совершенствованию ИНГ является расчет его семантической силы по формуле, разработанной автором. . ,

4. Создание Е использование специализированных рубрикаторов пространства и времени кардинально улучшает технологичес-•кие параметры АСНГИ. Главным эффектом является ликвидация противоречат .между возможным расширением поисковых цредписанлй во многих действующих ПШ и необходимым для проведения информационных поисков по запросам специалистов.

5. Система АйД Скобки ОС ЕС, дадифпцированная в соответствии с предлояенияш диссертанта, является мощным инструментом поддерккд решений, направленных на создание оптимальной структуры ЛО и строения его элементов. Она обеспечизает:

- "разбиение" сложных слов;- использование только ограниченного количества необходимых

словосочетаний;

- практическую реализацию взаимодействия мезду дескриптор-

ныш ЙПЯ и специализированными рубрикаторами пространства II времени;

- полную гарантию однозначности и воспроизводимости репе- * ниц, принимаемых з процессе индексирования.

6. Основными направлениями дальнейшего развития документальной геологоразведочной ОАСНТИ представляются:

- организация взаимодействия (главным образом на основе единства 10) с фактографическими теологически!,® АШС;

- установление связей и обмена- информацией с АСНТИ добывающих сырьевых отраслей и других систем, содержащих геологическую инфорглщю.

Этим делана быть создана единая система сбора, обработки, хранения и использования национальных инфортционных геологи-

ч

ческих ресурсов. Наличие такой системы долено качественно изменять возможности решения ряда задач;

- обработки первичных геологических данных;

. - анализа и прогнозирования геологической информации;

- предотвращения дублирования исследований;

- создания баз знаний, экспертных систем и других возможностей использования ЗК,1 для обработки геологической информации.

• Публикаций! по теме диссертации

- -1. Вишнякова I.B., 1Упьницкий Л.Л., Понарпский И.Ф. и др.

Результаты опытной эксплуатации лингвистического обеспече- . ния ОАСНГЙ при работе в режиме совместимости. - Экспресс-информация, ВИЭЖ, вып. I. Сер. НТИ в геологии, 1981.

2. Вишнякова Л .В., Гульнидаий Л.Л., Пожариский И.Ф. и др. Совместимость шформадаонно-поисковых языков ОАСНГП йянгео СССР. ЭИ'КШЗ, сер. НШ в геологш, вып. 4, 1981.

3. Вишнякова Л.В., Ирзун Л.Н., Пожариский И.©. Вспомогательные рубрикаторы ИПЯ-Геология. Экспресс-информация. ВИЭМС, Серия НТИ в геологии, вып. 7, 1982.

4. Городецкий Б.Ю., Зевахина Т.е., Пожарлсюш И.Ф. и др. Методика сеиантико-статистического анализа базового отраслевого .тезауруса по геологии. ЭИ ВИЭЖ, сер. НТИ в геологи^ вып. 5, 1981 , е.. 1-5.

5. Гудышщскй Л.Л., Некрасова В.М., Пожариский И.Ф. и др. Опытная эксплуатация системы автог.атического индексирования (АИД).' В сб. "Информатизация отрасли геологии и разведки недр и система научно-технической информации" Е-ШЗ, М., 1990, стр. 39-56.

6. Классификатор возраста геологических образований (приложение к рубрикатору по геологии ОАСЙЕИ Шнгео СССР)'. - Пожа-риский И.Ф., Федотова Л.В. - М., ЕШС, 1986.

7. Классификатор территориальных привязок (приложение к рубрикатору по геологш ОАСНТИ Шнгео СССР). - Покариский ILS., Федотова"Л.В.,, Ирзун Л.Н. - IL, 1986.

. 8. Классификатор территориальных привязок (вторая редакция). -Пожарисккй И.Ф., Федотова Л.В., Яковлева Н.И. - М., БИЭШ, 1987, с.50.

9. Ковалева Н.И., Лебедева О.С., Поаариский И.Ф. Совершенствование фасетно-категориальной схемы геологической лексики. Экспресс-пниорг.ация ВНИИ экон.глин.сырья и геол.-развед. работ (БИЭГ.Ю), сер. НЕЙ в геологии, вып. 4, 1982, с.1-4.

10. Ковалева Н.И., Погарискый И.Ф. Методическое руководство по работе с морфетми ИПН-геологии (толковый дескрипторный ■словарь морфем). ВИЭМС, М. ,'1987.

II-. Ковалева Н.И., Покариский И.Ф. Выделение морфем в ИПЯ-Гео-логия. - Экспресс-информация. ВИЭМС. Сер. НТИ в геологии, вып. I, 1982, с. 1-6. Vj

12. Козлова О.Н., Лебедева О.С., Покариский И.Ф. Использование рубрикатора в отраслевой АСНТИ. ЭИ ВИЭМС, сер. НТИ в геологии, вып. I, 1982.

13. Колгина А.Н., Лазарев В.Н., Покариский И.Ф. и др. Использование результатов изучения информационных потребностей при совершенствовании лингвистического обеспечения ОАСНТИ. Экспресс-информ. ВШИ экон.мин.сырья и геол.-развед.работ. Сер. НТИ в геологии, вып. 3, 1980.

14. Кристальный Б.В., Покариский И.Ф., Федотова Л.В. Об отражении характеристик места и времени в классификационных ШИ - рубрикаторах. HIÏI, сер. 2, И II, 1987.

15. Методические указания по индексированию запросов по геологии для проведения ИРИ в ШС "СИРИУС". Составители: Гуль-ницкий Л.Л., По.-карпскпй И.Ф.

16. Методические указания по подготовке документов для ввода в ИПС "СИРИУС". Составители: рульницклй Л.Л., Понарпскай И.Ф., Î.Î., Ж'1ЭШ, 1987.

17. Молоканов A.A., Поглриский И.5., Константинов H.S. п др. Отраслевая АСКТИ Млнгео СССР. НТИ в геологии, обзор, 1980, ВИЗMC, 69 с.

18..Некрасова B.JL, Пархоменко В.Ф., Поларисклй И.О. и др. Автоматическое индексирование документов. Эксцресс-шформ. БЕШ экон.ппнер. сырья е геол.-разв. работ, сер. HUI в геологии, вып. 6, 1987.

19. Некрасова В.Л., Позариский И.О. Некоторые воцросы создания базового отраслевого тезауруса интегрированной ACHTÍI.. -

В кн.: Тез.. докл. Всес. конф. "Проблемы автоматизированной . обработки НГИ". Секция 2, !>!., 1978, е.. 96-98.

20. Некрасова В.Л., Пояариский И.5. Лингвистическое обеспечение интегрированной отраслевой системы. Тез. докл. XI научн,-семинара "Системные последов. ГАСНТИ", Алш-Ата, IS81.

21. Новые данные по минерально-сырьевой базе Тихого океана. • Ы.Ф.Еременко, И.&.Псеариский, В.Г.Скокоз и др. Обзор. Сер. Морская геология и геофизика. М., В1ШС, 1976, 60 с.

' 22. Посарпскпй И.8. Анализ документальной геологической информации в АСНШ. "Сов.геол.", й 6, 1982, с.10-17. ' 23. Понариский И.». Взаимодействие комплекса лингвистических средств и программного обеспечения интегрированной АСНТИ. •"НГИ", сер. 2, вып. II, IS82, с. 1-10.

24. Понариский Й.Ф. О лексическом составе ПОТ, НГИ, сер. 2, Г/8, 1989.

25. Поглриский И.Ф. О системном психозе к формированию национальных геологических пнйормащонных ресурсов. П Всесоюзн. конф. "Системный подход в геологии". Тез .докл. ч.1, М., 1986, с. 107-108. ■

26. Понариский И.О. Определение семантической силы ИНГ. HTÍI, сер. 2, й 6, 1982, с. 21-25.

27. Погариский II.Ф. Структура имен геологических наук и методов. Советская геология, & Э, 1983.

28. Пскарпскпй И.О. Типы лексических единиц ИПЯ, НШ, сер. 2, ."2 8, 1983, с. 24-28.

29. Позарпский И.Ф. Фасетно-категэриальная схема как средство совершенствования лингвистического обеспечения АСБТИ. НТИ, сер. 2, Л 5, 1985.■

30. Поларнскнй И.Ф. Лингвистическое обеспечение интегрирован- ной АСНТИ (на примере ОАСНТЙ Мингео СССР. Тез.докладов

и Всесошзн. конф., г.Москва, 1983.

Подп.к печ.21.04.93.3.197 т.80 . Типография ШЭЫС