Автоматизированный отбор лексики в информационно-поисковый тезаурус на основе анализа терминологических словарей

Мамедова, Масума Гусейн кызы

Научная и техническая информация

автореферат диссертации по документальной информации, 05.25.01, диссертация на тему:Автоматизированный отбор лексики в информационно-поисковый тезаурус на основе анализа терминологических словарей

кандидата технических наук: Мамедова, Масума Гусейн кызы
город: Киев
год: 1983
специальность ВАК РФ: 05.25.01

Диссертация по документальной информации на тему «Автоматизированный отбор лексики в информационно-поисковый тезаурус на основе анализа терминологических словарей»

Оглавление автор диссертации — кандидата технических наук Мамедова, Масума Гусейн кызы

Сокращения 4 ВВЕДЕНИЕ

ГЛАВА I. МОДЕЛИРОВАНИЕ ЛЕКСЖО-СЕМАНТИЧЕСКИХ СИСТЕМ КАК ОСНОВЫ ИНФОРМАЦИОННО-ПОИСКОВЫХ ТЕЗАУРУСОВ

§1. Терминологическая лексико-семантическая система и тезаурус.

§2. Проблема выбора модели словаря.

§2.1. Основные требования к модели ЛСС как объекту системного подхода

§2.2. Семантическая сеть как модель ЛСС

§2.3. Формальное описание семантической сети

§3. Выделение количественных параметров терминологической лексики для оценки лексических единиц ЛСС и их отбора в ИПТ.

§4. Формальное описание модели информационного поиска.

ГЛАВА 2. АВТОМАТИЗИРОВАННЫЙ ОТБОР ЛЕКСИКИ В ИНФОРМАЦИОННО-ПОИСКОВЫЙ ТЕЗАУРУС НА ОСНОВЕ АНАЛИЗА

ТЕРМИНОЛОГИЧЕСКИХ СЛОВАРЕЙ.

§1. Задача минимизации ИПТ по составу.

§2. Отбор лексики в совместимые словари

§3. Формальное описание задачи выбора оптимального словаря.

§4. Оценка степени семантической совместимости словарей.

§5. Количественные параметры терминов и их взаимосвязь с эффективностью информационного поиска

§6. Экспериментальная апробация методики отбора лексики в информационно-поисковый тезаурус

§7. Выводы.

ГЛАВА 3. АВТОМАТИЗИРОВАННАЯ СИСТЕМА АНАЛИЗА ТЕРМИНОЛОГИИ

§1. Общая структура АСАТ, ее назначение и функции

§2. Машинная реализация АСАТ.

§3. Функционирование АСАТ.

§4. Структура и состав программного обеспечения

АСАТ.

Введение 1983 год, диссертация по документальной информации, Мамедова, Масума Гусейн кызы

Одна из отличительных черт научно-технического прогресса на современном этапе - ускоренный рост интенсивности и объема информационного потока. Приостановить рост объема информации невозможно. Увеличивающаяся специализация исследований ведет к увеличению объемов публикуемых материалов. Трудность ориентации в громадном объеме недостаточно упорядоченных материалов часто приводит к дублированию исследований, сопровождающемуся необратимыми потерями времени, материальных средств и интеллектуальных ресурсов. Поэтому выделение поиска информации в самостоятельную проблему является жизненно обусловленной необходимостью.

Утвержденные ХХУ1 съездом КПСС "Основные направления экономического и социального развития СССР на I98I-I985 годы и на период до 199 года" предусматривают дальнейшее совершенствование методов и средств управления народным хозяйством с целью повышения эффективности общественного производства. В связи с этим указывается на необходимость широкого применения автоматизированных систем управления, расширения научно-исследовательских и проектно-конструкторских работ с применением ЭВМ, совершенствования средств и систем передачи и обработки информации .

В условиях информационного "взрыва" повышение эффективности управления в общем случае и эффективности управления в области научных исследований и разработок, в частности, может быть достигнуто путем автоматизации процессов переработки информации и внедрения в экономику информационно-поисковых сис-

Основные направления экономического и социального развития СССР на I981-1985 годы и на период до 1990 года. - Политиздат, 1981. - 95 с. тем (ИПС), которые в настоящее время используются в различных автоматизированных системах организационного управления (АСОУ) в качестве основного звена информационно-справочной системы, в качестве банка данных для различного рода задач в АСОУ, в качестве хранилищ библиографической информации в НТИ и т.д.

ИПС обеспечивают переработку массовой технико-экономической информации при решении задач планирования, производства, учета и распределения, служат целям информационного обслуживания специалистов в области науки, техники и гуманитарных дисциплин.

Под информационно-поисковой системой в ее абстрактном виде понимается совокупность информационно-поискового языка (ИШ) (с правилами перевода с естественного языка (ЕЯ) на этот язык и наоборот) и критерия смыслового соответствия между поисковым образом документа (ПОД) и поисковым образом запроса (ПОЗ) [5l].

ИШ - это формализованная семантическая система, предназначенная для выражения смыслового содержания документов и информационных запросов с целью отыскания в массиве таких документов, которые отвечают на поставленный информационный запрос [бб] .

Единого подхода к систематизации ИШ не существует. Они сравниваются по самым различным основаниям в зависимости от целей исследований [в, 9, 20, 29, 32, 35, 51] . Однако к любым ИШ предъявляются следующие основные требования: I) запись на ИШ должна допускать одно и только одно толкование, т.е. ИШ должен быть однозначным; 2) обладать достаточной "семантической силой", т.е. позволять выражать в его терминах (с необходимой степенью полноты и точности) любой текст, составленный на ЕЯ, для описания смыслового содержания документа и информационного запроса в данной предметной области; 3) допускать формализацию процедуры перевода с ЕЯ на данный язык и, наоборот, а также формализацию информационного поиска [ 36 ] .

Составными элементами ИПЯ обычно являются информационно-поисковый тезаурус, в котором в явном виде перечислены все используемые лексические единицы ИПЯ с указанием парадигматических отношений, грамматические средства ИПЯ, правила применения информационно-поискового языка при обработке документов и запросов.

Наиболее сложной и существенной частью ИПЯ является информационно-поисковый тезаурус. Термином "тезаурус" или "дес-крипторный словарь" обозначается упорядоченный список лексических единиц, достаточно полно представляющий лексику исследуемой предметной области с указанием в явном виде связей между лексическими единицами.

Тезаурусы применяются в качестве инструмента терминологического контроля в процессе анализа и индексирования документов и информационных запросов, а также в процессе автоматизированного поиска информации. Функциональная роль тезауруса в ИПС предъявляет высокие требования к качеству подготовки тезауруса, от степени совершенства которого в основном зависит эффективность поиска.

Актуальность проблемы. В настоящее время большая часть литературы, посвященной применению ЭВМ в ИПС, относится к области автоматизации поиска. Вопрос о применении ЭВМ для автоматизации построения ИПЯ, прежде всего словарей, менее исследован. Но эта проблема уже нашла отражение во многих работах как отечественных исследователей [в, 12, 17, 21, 29, 38, 58, 59 ] , так и зарубежных [94, 96, 97, 99, 102, 103, 104, 106, 108] и интерес к ней возрастает .

Краткий анализ литературы и уже созданных тезаурусов [б, 13, 18, 37, 52, 57, 63, 67, 73, 79, 83, 84, 87 ] убеждает нас в том, что на современном этапе развития автоматизированных систем научно-технической информации решение проблемы информационного поиска возможно только при условии создания специальных словарей - информационно-поисковых тезаурусов. Без смысловых словарей (тезаурусов) автоматизированные системы обработки информации не могут выполнить сложнейших операций по анализу содержания документов, и, следовательно, не могут развиваться далее определенного, достаточно низкого предела. При этом современные ИПС, работающие на ЭВМ 3-го и 4-го поколений, требуют совершенствования структуры тезауруса.

Обычно тезаурусы (даже при отраслевой ориентации) вручную составляются в течение нескольких лет, а за это время многое меняется в проблематике и лексике данной отрасли, что зачастую приводит к необходимости корректировки словарей еще до начала их эксплуатации. Этим вызвана важность исследований, направленных на формализацию, а затем и автоматизацию ряда процедур ручного труда при составлении и корректировке дескрипторных словарей - тезаурусов. Автоматизация позволяет значительно ускорить ввод тезаурусов в эксплуатацию, избежать трудоемкого, малопродуктивного ручного труда и, что самое главное, придает им более мобильный характер, позволяющий реагировать на те или иные изменения со значительно меньшим опозданием [i] • Таким образом, задача автоматизации составления тезауруса становится I

Достаточно подробно обзор и анализ методов построения тезаурусов приводится в работах [29, 51, 77] . одной из основных при создании ИПС и АСУ, поэтому разработка методов автоматизированной подготовки ИПТ является проблемой актуальной, в настоящее время еще практически до конца не решенной.

Процесс построения тезауруса независимо от метода сводится к следующим процедурам:

1) предварительный отбор лексических единиц (составление списков ключевых слов (КС), словников);

2) построение классов условной эквивалентности (для устранения синонимии, полисемии и омонимии и перехода к ДИПЯ), т.е. приведение лексических единиц (ЛЕ) к заданной стандартной форме;

3) установление заданных семантических отношений.

Каждая из этих задач может быть решена с применением ЭВМ.

Степень автоматизации решения задач с применением ЭВМ может быть различной. В некоторых случаях ЭВМ осуществляет только первичную обработку исходных данных, после которой все решения принимаются специалистами. Например, для выбора ЛЕ осуществляется подготовка частотных словарей словоформ [вj ; для построения гнезд вычисляется матрица частот совместной встречаемости ЛЕ (матрица "термин-документ", матрица "термин-термин") |72] . В некоторых случаях ЭВМ обеспечивает частичную автоматизацию решения, выдавая несколько вариантов решения, удовлетворяющих заданным критериям. Выбор одного из вариантов выполняет специалист.

Наиболее трудоемкой задачей при формировании ИПТ является отбор лексики,от удачного решения которой зависят параметры не только самого тезауруса, но и ИПС в целом.

Автоматические (формальные) методы отбора лексики в тезаурус предполагают выполнение всех операций по отбору лексики без участия человека, начиная от ввода в ЭВМ представительной коллекции текстов до получения словаря в форме, доступной человеку (в печатной форме, на экране дисплея и т.д.).

Существующие методы автоматического построения тезауруса (отбора терминов), основанные на статистической обработке текстов (статистические методы), являются наиболее перспективными, но их использование ограничено из-за больших затрат на ввод, достаточно сложного математического обеспечения, необходимости применения очень мощных ЭВМ и значительного времени. Статистические методы предусматривают составление с помощью ЭВМ частотных словарей словоформ, выявление статистических закономерностей лексики, отбор ядра лексики (списка специфичных для отрасли слов) по частотным параметрам, выбор наиболее информативных слов из ядра лексики (опорных словоформ), построение контекстных окружений опорных словоформ и таблиц их встречаемости со словами текстов, выбор терминов по таблицам встречаемости^].

Другим весьма важным этапом построения тезауруса является установление парадигматических отношений. Степень разработанности парадигматических отношений, являясь существенной характеристикой ИПТ, наиболее определяет эффективность информационного поиска.

Существующие способы автоматического установления парадигматических отношений, называемые дистрибутивно-статистическими, основаны на допущении, что слова, встречающиеся вместе в осмысленном тексте, семантически связаны между собой. Следовательно, анализируя величины совместной встречаемости слов в тексте,можно судить о степени связанности по смыслу и восстановить ассоциативную структуру в источнике сообщений [б, 31, 50, 80, 8l] .

Величина совместной встречаемости (или факт совместной встречаемости) слов в тексте является достаточно простой, но грубой мерой связанности слов. При ее использовании не учитываются различия в абсолютных частотах рассматриваемых слов. Согласно этой величине частые слова ассоциируются со всеми другими словами, а редкие - с небольшим количеством слов и притом в слабой степени [72, 95, 98, 100 ] .

Достоинство формальных (автоматических) методов состоит в том, что формальные методы обеспечивают достаточно объективное отражение связей в языке (но не в сознании отдельного специалиста). В формируемые списки слов включаются термины, связанные с исходным словом только статистически, но не обязательно семантически. Статистические отношения основаны исключительно на относительной частоте, с которой слова встречаются, и поэтому основаны на природе фактов, описанных документами.

Сопоставительный анализ методов построения ИПТ показывает, что в настоящее время наиболее .рациональными и практичными являются автоматизированные методы, сочетающие опыт и терминологические знания специалистов с автоматизацией нетворческих процессов [29, 51, 77] .

Перспективность автоматизированных методов формирования ИПТ определила и возможности современных пакетов прикладных программ типа АСОД, П0ИСК-1, ПОИСК-4 и т.д., которые позволяют производить автоматизированный отбор лексики в тезаурус. При этом ЭВМ печатает список всех словоформ, а человек выделяет те слова, которые, по его мнению, заслуживают включения в тезаурус. Каждая словоформа, встретившаяся в текстах вводимых документов, снабжается некоторыми статистическими данными (число содержащихся в базе данных документов, в которых встретилась эта словоформа, и общее число ее употреблений в этих документах). Несомненно, подобные сведения облегчают человеку принятие решения о включении или невключении дескриптора в ИПТ. Однако нельзя забывать о том, что статистические данные становятся надежными лишь при достаточно большом объеме выборки, причем по мере увеличения объема обработанного массива процесс пополнения тезауруса замедляется, но не прекращается. Поэтому тезаурус, построенный на основании частоты употребления слов в базе данных ИПС, должен подвергаться постоянной корректировке, адаптации к изменяющейся базе данных до тех пор, пока объем последней не станет достаточно большим, а частотные характеристики слов - достаточно надежными. Чем шире тематика ИПС, тем более трудоемок и длителен процесс создания тезауруса. Кроме того, хорошо известно, что одни частотные характеристики не могут служить критерием отбора лексики.

Развитие ЭВТ и рост обрабатываемой информации в современных ИПС вызывает соответствующий рост объема тезаурусов, сложности и динамичности их структуры. А это, в свою очередь, связано с повышением трудоемкости подготовки тезаурусов, удовлетворяющих предъявляемым к ним требованиям высокого качества. С увеличением объема ИПТ в значительной мере усложняется пользование тезаурусом и увеличивается время, необходимое для обработки информации. С другой стороны, при подготовке ИПТ следует исходить из необходимости исключения кардинальных изменений в лексике ИПТ при расширении или изменении базы данных (в пределах одной и той же тематической области) с целью предотвращения вторичного индексирования ПОД и ПОЗ и ограничиться внесением минимального количества изменений и дополнений, так как дополнения и, в особенности, изменения вызывают большие затраты труда и средств. В этом плане перспективным представляется подход, который позволял бы априори, до накопления базы данных, определять основной состав тезауруса. Это даст возможность избежать существенной перестройки лексического состава ИПТ при расширении или изменении базы данных. В то же время накопление данных о частоте употребления отдельных слов позволит в последующем учесть и статистические критерии.

Вариант такого подхода к формированию ИПТ предложен в диссертации и основан на максимальном использовании терминологии ЕЯ, зафиксированной в энциклопедиях, толковых терминологических словарях, сборниках рекомендуемых терминов и т.д.

Преимущество применения толковых терминологических словарей в практике построения тезаурусов отмечены в ряде исследований [24, 58, 64, 69, 82] . Как исходный материал дефиниции терминов использованы разными исследователями для разных целей, например, для автоматического обнаружения и представления семантических компонентов значения термина [20, 64] , для установления парадигматических отношений, выделения иерархических рангов ^58, 82] и т.п.

В данном исследовании основное внимание уделено проблеме автоматизированного отбора лексики в ИПТ на базе терминологических словарей (терминологических лексико-семантических систем) , моделирование которых дало возможность выявить ряд количественных и качественных параметров терминологии, позволивших оценить значимость терминов как потенциальных элементов ИПТ.

Цель и задачи исследования. Целью диссертационной работы является разработка и исследование метода автоматизированного отбора лексики в ИПТ на основе анализа терминологии ЕЯ. В соответствии с поставленной целью в работе решаются следующие задачи:

1. Исследование терминологических лексико-семантических систем как основы информационно-поискового тезауруса.

2. Выбор и исследование модели лексико-семантических систем (ЛСС), позволяющей эксплицитно отражать семантические связи между лексическими единицами системы и семантическую структуру лексики (в том числе терминологии).

3. Исследование количественных параметров терминологии и выделение среди них таких, на основе которых целесообразно проводить отбор лексики в ИПТ.

4. Разработка методики отбора лексики в ИПТ с учетом выделенных количественных параметров терминологии, позволяющей максимально использовать готовый продукт - терминологию ЕЯ, зафиксированную в терминологических словарях, ГОСТах, сборниках рекомендуемых терминов и т.д., и повысить качество ИПТ.

5. Разработка на основе выбранной модели автоматизированной системы анализа терминологии, предназначенной для вычисления параметров, позволяющих оценить значимость терминов.

Методика исследования заключается в системном подходе к анализу лексики, использовании методов моделирования, применении аппарата теории графов и теории множеств для формального описания задач, содержательной интерпретации результатов.

Научная новизна работы состоит в том, что впервые разработан метод автоматизированного отбора лексики в ИПТ, рассматривающий формирование лексического состава ИПТ как оптимизационную задачу, а именно, как задачу минимизации объема ИПТ при сохранении приемлемой эффективности поиска; исследованы количественные параметры терминологической лексики и выделены те из них, на основе которых целесообразно проводить отбор лексики в ИПТ; разработана автоматизированная система анализа терминологии (АСАТ), позволившая решить ряд теоретических и прикладных задач как по анализу и коррекции терминологических и толковых словарей, так и по анализу и коррекции ИПТ.

Практическая ценность и реализация результатов работы. Показаны пути отбора лексики в ИПТ на базе ЭВМ с использованием терминологических словарей. Практически реализована автоматизированная система анализа терминологии, позволяющая производить анализ и коррекцию терминологических словарей, отбор лексики в ИПТ на основе количественных параметров, полученных обработкой соответствующей терминологии, анализ и коррекцию тезауруса.

Работа велась в рамках НИР "Создать и ввести в эксплуатацию автоматизированную информационно-справочную систему АПН (АСУ "Справка"), выполняемой отделом документальных ИПС Института кибернетики АН УССР по постановлению Госкомитета СССР по науке и технике (номер государственной регистрации 01820070808), использовалась при разработке второй версии тезауруса по общественно-политической тематике.

Автоматизированная система анализа терминологии используется Институтом языкознания АН Азерб.ССР при составлении и коррекции терминологических словарей. Экономический эффект, полученный за счет повышения производительности труда при подготовке (коррекции) словарей, сокращения времени* идущего на чисто механическую работу, за счет улучшения качества словаря, составляет более 68 тысяч рублей.

Результаты диссертационной работы использованы в Азербайджанском научно-исследовательском институте научно-технической информации и технико-экономических исследований для проведения экспериментов по выбору из отраслевых словарей ключевых слов с целью индексирования ими постоянно действующих запросов абонентов республиканской системы избирательного распространения информации "Азери-2" и рекомендованы для реализации в промышленном масштабе республиканской АСНТИ Азерб.ССР.

В настоящее время методика отбора лексики в ИПТ, предложенная в диссертации, используется Специальным проектно-конст-рукторским бюро - СПКБ АСУТП Промстрой Минпромстроя Азерб.ССР для разработки информационно-поискового тезауруса по строительству.

Апробация работы. Результаты работы докладывались и обсуждались на семинаре "Применение ЭВМ для разработки и упорядочения терминологии" (Киев, 1979 г.), на Республиканской конференции "Научно-технический прогресс и проблемы терминологии" (Львов, 1980 г.), на симпозиуме по вычислительной лингвистике и смежным дисциплинам (Таллин, 1980 г.), на семинаре "Статистическая оптимизация преподавания языков и инженерная лингвистика" (Чимкент, 1980 г.), на семинарах "Лингвистические проблемы проектирования информационных систем" Научного совета АН УССР по проблеме "Кибернетика" (Киев, I978-I98I гг.), на Республиканской конференции "Проблемы развития и совершенствования республиканской системы научно-технической информации" (Баку, 1983 г.), на Всесоюзном симпозиуме "Семиотические модели коммуникации, представления знаний и вывода рекомендаций в экспертных системах" (Махачкала, 1984 г.).

Публикации. Основное содержание диссертации отражено в работах [41 - 48, 101 ] .

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы (108 наименований) и трех приложений, изложена на 144 страницах, содержит 7 рисунков, 10 таблиц. Приложения на 44 страницах.

Заключение диссертация на тему "Автоматизированный отбор лексики в информационно-поисковый тезаурус на основе анализа терминологических словарей"

ЗАКЛЮЧЕНИЕ

Проведенные исследования и полученные результаты позволяют сделать следующие обобщения и выводы.

1. Для построения ИПТ в какой-либо области знаний исходным материалом эффективно могут служить терминологические словари соответствующих предметных областей.

2. В качестве модели терминологических лексико-семантичес-ких систем целесообразно выбрать семантическую сеть, которая дает возможность эксплицитно представить семантическую структуру лексики и допускает формализацию.

3. Автоматизация процедуры построения семантической сети терминологии позволяет выработать ряд количественных параметров и характеристик, служащих основой для отбора лексики в ИПТ.

4. Разработана методика отбора лексики в ИПТ с учетом количественных параметров терминологии, которая сведена к решению задачи минимизации исходного словаря.

5. Отбор лексики в ИПТ, соответственно, минимизацию исходного словаря (терминологической лексико-семантической системы), удобно проводить с использованием понятия совместимости словарей. С целью выбора оптимального словаря (искомого тезауруса)

- построено семейство совместимых словарей;

- выбрана количественная мера оценки степени семантической совместимости словарей (исходного и редуцированных);

- определены критерии отбора оптимального словаря среди семейства совместимых словарей.

6. Определена зависимость между результатами информационного поиска и степенью семантической совместимости информационно-поисковых тезаурусов, используемых при поиске.

7. Определен оптимальный состав (объем) ИПТ.

8. Разработана автоматизированная система анализа терминологии, осуществляющая построение лексической сети терминологии, анализ лексической сети, вычисление ряда количественных характеристик и параметров терминологической лексики, позволяющих с их учетом производить объективный отбор лексики в тезаурус, решать ряд теоретических и прикладных задач как по анализу и коррекции терминологических словарей, так и по анализу и коррекции информационно-поисковых тезаурусов.

9. Проведена экспериментальная апробация предложенной методики отбора лексики в ИПТ на основе анализа терминологических словарей.

10. Система программного обеспечения автоматизированной системы анализа терминологии представляет собой комплекс алгоритмов и программ, обеспечивающих реализацию системы в операционной системе ДОС/ЕС, а также - ДОС/АСВТ М-4030.

Библиография Мамедова, Масума Гусейн кызы, диссертация по теме Научная и техническая информация

1. Аветисян Д. 0. Проблемы информационного поиска. - М.: Финансы и статистика, 1981. - 208 с.

2. Аветисян Д. 0., Зуюс И. К., Нашлюнас Р. А., Саруханян Л. Ф. Опыт построения и эксплуатации республиканских автоматизированных систем научно-технической информации. М.: ВИНИТИ, 1974. - 29 с.

3. Актуальные проблемы терминологии по информатике и документации. М.: ВИНИТИ, МФД 569, 1979. - 124 с.

4. Антопольский А. Б. Лингвистическое описание и оценка информационных языков. Автореф. дис. . канд. филол. наук. -М., 1969. 24 с.

5. Антопольский А. Б. 0 лингвистическом подходе к оценке информационно-поисковых языков. Научные и технические библиотеки СССР, 1971, вып. 3, с. 14-17.

6. Арапов М. В. Некоторые принципы построения словаря типа "Тезаурус". НТИ, 1964, № 4, с. 19-23.

7. Басакер Р., Саати Т. Конечные графы и сети. М.: Наука, 1974. - 366 с.

8. Белоногов Г. Г., Богатырев В. И. Автоматизированные информационные системы. М.: Советское радио, 1973. - 322 с.

9. Белоногов Г. Г., Котов Р. Г. Автоматизированные информационно-поисковые системы. М.: Советское радио, 1968. - 182 с.

10. Белоозеров В. Н., Вайсберг А. М., Антопольский А. Б. Метод оптимизации языка индексирования. В кн.: Вопросы информационной теории и практики. - М., 1979, вып. 40, с. 96-104.

11. Блауберг И. В., Юдин Э. Г. Становление и сущность системного подхода. М.: Наука, 1973. - 272 с.- 146

12. Бобров А. И. Метод формального выделения наиболее информативных ключевых слов из текста реферата. Труды НИИ управляющих машин и систем, вып. У1, 1972, с. 238-247.

13. Варга Д. Методика подготовки информационных тезаурусов. -В кн.: Сборник переводов по вопросам информационной теории и практики. М., 1970, № 17, 108 с.

14. Вычислительная техника. Терминология: Сборники рекомендуемых терминов. М.: Наука, 1974, вып. 87. - 52 с.

15. Глушков В. М., Скороходько Э. Ф., Стогний А. А. Оценка степени совместимости информационно-поисковых языков документальных ИПС. НТИ, сер. 2, 1978, I, с. 14-19.

16. Горькова В. И., Шишова JI. А. Модели структуризации термино-системы. В кн.: Актуальные проблемы терминологии по информатике и документации. - М., ШД 569, 1979, с. 45-93.

17. ГОСТ 18383 73. Тезаурус информационно-поисковый. Общие положения. Форма представления.

18. Иванова Н. С. К вопросу об автоматическом построении тезауруса. НТИ, сер. 2, 1969, № 6, с. 17-19.

19. Илиев Л. Математика как наука о моделях. Успехи математических наук, 1972, 27, вып. 2(164), с. 203-211.

20. Информационно-поисковая система "БИТ" / Отв. ред. А. А. Стогний. Киев: Наукова думка, 1968. - 219 с.

21. Казаков Е. Н. Исследование процесса построения информационно-поискового тезауруса с применением ЭВМ. Автореф. дис. . канд. техн. наук. М., 1976. - 20 с.

22. Казаков Е. Н., Копылов В. А. Динамический способ построения информационно-поисковых систем. НТИ, сер. 2, 1974, № 5, с. 20-28.

23. Казаков Е. Н., Копылов В. А. ИПЯ для автоматизации системы- 147 тематического поиска информации в широкотематическом массиве документов. В кн.: Информационные процессы и их автоматизация. - М., 1973, с. 49-85.

24. Кент Адлен. Информационно-поисковые системы. М.: ВНИИЭМ, отделение научно-технической информации, стандартизации и нормализации в электротехнике, 1965. - 245 с.

25. Кияк Т. Р., Котиков Ю. С., Скороходько Э. Ф. Количественные оценки соотношения между значением и смыслом лексических единиц (на примере терминологии). НТИ, сер. 2, 1974,1. I, с. 5-12.

26. Кобрин Р. Ю. О принципах терминологической работы при создании тезаурусов для информационных систем. НТИ, сер. 2, 1979, Я 6, с. 1-9.

27. Кобрин Р. Ю. Терминосистема как информационный язык. К проблеме построения ЙПС на естественном языке. В кн.: Семиотические проблемы языков науки, терминологии и информатики. - М., 1971, с. 640-756.

28. Колчинский М. Л. Автоматизированная система информационного обслуживания "Сетка". Информационный бюллетень выставки-смотра "НТИ-74", 1974, № 3, с. 25-28.

29. Копылов В. А. Построение автоматизированных информационно-поисковых систем. М.: Энергия, 1974. - 145 с.

30. Королев Э. И. 0 типологии языков автоматизированных информационных систем. В кн.: Современное состояние теории и практики машинного перевода и автоматизации информационных процессов. - М., 1977, с. 73-87.

31. Королев Э. И. Применение дистрибутивно-статистического метода в лингвистическом обеспечении автоматизированных ИПС. -НТИ, сер. 2, 1977, Jft I, с. 27-31.

32. Котов Р. Г., Якушин Б. В. Языки информационных систем. М.: Наука, 1979. - 304 с.

33. Краткое методическое пособие по разработке и упорядочению научно-технической терминологии. М.: Наука, 1979. - 128 с.

34. Кристофидес Н. Теория графов. Алгоритмический подход. М.: Мир, 1978. - 432 с.

35. Крое Р.-К., Гардэн Ж.-К., Леви Ф. СИНТОЛ: универсальная модель информационного поиска. В кн.: Сборник переводов по вопросам информационной теории и практики. - М., 1968,10, 178 с.

36. Кулик А. Н. Информационные сети и языковая совместимость дескрипторных ИПС. М.: Советское радио, 1977. - 248 с.

37. Кулик А. Н. Тезаурус научно-технической терминологии. Характеристика. Анализ распределения лексики. НТИ, сер. I,1974, Jfe 9, с. 26-34.

38. Ланкастер Ф. У. Информационно-поисковые системы. М.: Мир, 1972. - 308 с.

39. Лахути Д. Г. Поисковая система "Пусто-Непусто-2". В кн.: Труды III Всесоюзной конференции по ИПС и автоматизированной обработке научно-технической информации. - М., 1967, т. I, с. I0I-I05.

40. Линейное и нелинейное программирование. Киев: Вища школа,1975. 372 с.

41. Мамедова М. Г. Автоматизированная система оценки и коррекции терминологического словаря. В кн.: Научно-технический прогресс и проблемы терминологии. Тезисы докладов Республиканской конференции, Львов, май 1980. - Киев, 1980,с. 123-125.

42. Мамедова М. Г. Автоматизированное построение ИПТ: некоторые- 149 аспекты терминологической работы. В кн.: Материалы семинара "Статистическая оптимизация преподавания языков и инженерная лингвистика". - Чимкент, 1980, с. 87-88.

43. Мамедова М. Г. Автоматизированный отбор лексики в информационно-поисковый тезаурус на основе анализа терминологических словарей. В кн.: Проблемы развития и совершенствования республиканской системы научно-технической информации. -Баку, 1983, с. 81-82.

44. Мамедова М. Г. Об одном подходе к оптимизации информационно-поискового тезауруса по объему. В кн.: Методы и опыт проектирования и построения автоматизированных информационных систем. - Киев, 1981, с. 10-17.

45. Мамедова М. Г. Один подход к автоматизации проектирования информационно-поискового тезауруса. В кн.: Вопросы проектирования баз данных сложной логической структуры. - Киев, 1980, с. 9-18.

46. Мамедова М. Г. Создание автоматизированной системы анализа терминологии на основе сетевой модели. В кн.: За технический прогресс. - Баку, 1980, вып. II, с. 19-22.

47. Мамедова М. Г., Скороходько Э. Ф. Автоматизированная система анализа терминологии. НТИ, сер. 2, 1981, I, с. 14-18.

48. Мамедова М. Г., Скороходько Э. Ф. Автоматизированная система анализа терминологической лексики. В кн.: Структурная и прикладная лингвистика. - Киев, 1981, вып. 9, с. 54-59.

49. Марусенко М.А. Системный подход к научно-технической терминологии. -НТИ, сер. 2, 1983, № I, с. 1-5.

50. Маршакова И. В. Построение информационно-поискового тезауруса методом дистрибутивно-статистического анализа. НТИ,сер. 2, 1977, № 5, с. 11-15.

51. Михайлов А. И., Черный А. И., Гиляревский Р. С. Основы информатики. М.: Наука, 1968. - 756 с.

52. Молчанова Т. В. Ведение информационно-поискового тезауруса. НТИ, сер. 2, 1977, В 4, с. 23-27.

53. Морозов К. Е. Математическое моделирование в научном познании. М.: Мысль, 1969. - 212 с.

54. Негуляев Г. А., Покрас Ю. Л., Колесникова Л. И. Автоматизированный отбор лексики для информационно-поискового тезауруса. НТИ, сер. 2, 1973, $ 2, с. 16-24.

55. Никитин П. И. Автоматизированные системы обработки и поиска документальной информации. М.: Статистика, 1977. - 136 с.

56. Оре 0. Теория графов. М.: Наука, 1980. - 336 с.

57. Палатова Р. П. Структура тезауруса по трубопроводному транспорту. НТИ, сер. 2, 1973, Jfc I, с. 18-21.

58. Першиков В. Ф., Станиславская Э. В. Использование дефиниций при установлении парадигматических отношений в дескриптор-ных информационно-поисковых языках. В кн.: Проблематика определений терминов в словарях разных типов. - Л., 1977, с. 167-173.

59. Покрас Ю. А. Разработка и исследование метода формализованного построения информационно-поискового тезауруса. Авто-реф. дис. . канд. техн. наук. М., 1971. - 36 с.

60. Политический словарь. 2-е изд. - М.: Политическая литература, 1958. - 704 с.

61. Попов И. И. Некоторые модели оценки и оптимизации информационных систем: оценка качества лингвистического обеспечения. НТИ, сер. 2, 1981» № 6, с. 7-14.

62. Попов И. И., Романенко А. Г., Сумароков Л. Н. Теоретико-множественное моделирование информационных систем. В кн.:

63. Вопросы информационной теории и практики. М., 1979, вып. 33-34, с. 16-63.

64. Пробст М. А. Тезаурус и информационный поиск. НТИ, сер. 2, 1979, Я 9, с. 14-20.

65. Пшеничная Л. Э. Тезаурус в документальной ШС. Киев: Наукова думка, 1977. - 118 с.

66. Реформатский А. А. О реальности модели. В кн.: Проблемы лингвистической типологии и структуры языка. - Л., 1977, с. 3-10.

67. Садовский В. Н. Методология науки и системный подход.

68. В кн.: Системные исследования. Ежегодник 1972. М., 1977, с. 94-1II.

69. Сидорченко В. Д. Семантическая структура тезауруса: современное состояние и направление ее совершенствования. НТИ, сер. 2, 1976, № 9, с. 3-12.

70. Скороходько Э. Ф. Лингвистические проблемы обработки текстов в автоматизированных ИПС. В кн.: Вопросы информационной теории и практики. - М., 1974, вып. 25, с. 5-120.

71. Скороходько Э. Ф. Семантические связи в лексике и текстах. В кн.: Вопросы информационной теории и практики. - М., 1974, вып. 23, с. 6-II6.

72. Солтон Дж. Динамические библиотечно-справочные системы. -М.: Мир, 1979. 558 с.

73. Сцепинский Ю. Е. Программные средства и организация данных в информационных системах. М.: Наука, 1977. - 232 с.

74. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. М.: Советское радио, 1973. - 560 с.

75. Тезаурус научно-технических терминов/ Под общ. ред. Ю. И. Ше-макина. М.: Воениздат, 1972. - 671 с.

76. Теория передачи информации. Терминология: Сборники рекомендуемых терминов. М.: Наука, вып. 94. - 24 с.

77. Тьюарсон Р. Разреженные матрицы. М.: Мир, 1977. - 189 с.

78. Универсальная информационная система "Кристалл" / Р. А. Ба-зманджян, Н. А. Девиль, Н. Ж. Еминиджян и др. Ереван: АрмИНТИ, 1969. - 59 с.

79. Черный А. И. Введение в теорию информационного поиска. -М.: Наука, 1975. 237 с.

80. Черный А. И. Информационно-поисковые языки: типы, принципы построения, совместимость. НТИ, сер. 2, 1978, lb I, с. 1-10

81. Черный А. И. Общая методология построения тезаурусов. НТИ, сер. 2, 1968, №. 5, с. 9-32.

82. Шайкевич А. Я. Выделение классов слов и парадигм посредством дистрибутивно-статистического метода. В кн.: Труды МГПИИЯ. Прикладная лингвистика. - М., 1976, вып. 18, с. 96134.

83. Шайкевич А. Я. Гипотезы о естественных классах и возможность количественной таксономии в лингвистике. В кн.: Гипотезав современной лингвистике. М., 1980, с. 319-357.

84. Шелов С. Д. Об одном подходе к информационному тезаурусу. -НТИ, сер. 2, 1982, №7, с. 6-10.

85. Шемакин Ю. И. Тезаурус в автоматизированных системах управления и обработки информации. М.: Воениздат, 1974. - 188 с

86. Шехтман Н. А. Об одном принципе расширения и углубления тезауруса. НТИ, сер. 2, 1981, № 7, с. 10-12.

87. Шрейдер Ю. А. Информация в структурах с отношениями. Вкн.: Исследования по математической лингвистике, математической логике и информационным языкам. М., 1972, с. 147158.- 153

88. Шрейдер Ю. А. Равенство, сходство, порядок. М.: Наука, 1971. - 256 с.

89. Шрейдер Ю. А. Тезаурусы в информатике и теоретической семантике. НТИ, сер. 2, 1971, № 3, с. 21-24.-15488. Aitchison J,, Gilchrist A. Thesaumis construction: a practical manual, London: ASLIB, 1978.

90. Augustson J.G#, Minker J, Deriving term relations for a corpus by graph theoretical clusters. J. Amer.Soc.Inform. Sci., 1970, 21, No 2, pp. 101-111.

91. Boehm B.V/. Software and its impact- a quantantive assessment. Datamation, May, 1973, pp. 12-19.

92. British Standards Institution Guidelines for the establishment and development of multilingual thesauri. BS 5723, 1979.

93. Burnett John E. , Coober David, Lynch M.F., Willett P., Wycherley M. Document retrieval experiments using indexing vocabularies of varying size. I. Variety generation symbols assigned to the fronts of index terms. I. Doc., 1979» 35, Ho 3, PP. 197-206.

94. Cleverdon C.W., Lancaster P.Y/., Mille J. Uncovering some facts of Life in information retrieval. Special Libraries, 1964, v.55, No 2, pp. 86-91.

95. Documentation-guidelineв for the establishment and development of monolingual thesauri for information retrieval, ISO/IS 2788.

96. Gotlieb C.C., Kumar S. Semantic Clustering of Index Terms. -Journal of the ACM, 1968, 15, Ho 4, pp. 493-513.

97. Guidelines for the establishment and development of monolingual thesauri for information retrieval, Paris, UNESCO, SC/WS/ 500, 1971, 30 p.

98. Hines T.C. Computer-assisted index and thesaurus entry development, Proc. SIS, v.10, Washington, 1973, pp. 94-95.

99. Jones K.S. Automatic Indexing. Journal of Documentation,-1551974, 30, Но 4, pp. 393-432.

100. Lang P. Automatisierte Herstellung von Thesauren und Begrif-fs-systemen fur Y/orterbUcher und Pachtexminologien. Hachr. Dok., 1973, 24, Nr. 6, pp.231-238.

101. Lesk Ш.Е. Y/ord-Word Associattons in Document Retrieval System. American Documentation, 1969, 20, No 1, pp. 22-38.

102. Mamedova M.G., Skorokhodko E.P. Computerized network analysis of lexical systems. Symposium: Computional Linguistics and related topics. Tallin, 1980, pp. 72-73.

103. Rolling L.N. Compilation of thesauri for use in computer systems. Inform. Storage and Retrieval, 1970, v.6, Ho 4, pp. 341-350.

104. Salton G. Experiments in automatic thesaurus construction for information retrieval. Inform. Process. 71, Proc.IPIP. Congr. 71, vol. 1. Amsterdam-London, 1972, pp. 115-123.

105. Salton G., Lesk M.E. Computer evalution of indexing and text processing. Journal of the ACM, 1968, v.15, Ho 1, pp. 8-36.

106. Samuelson K., Berg-Hausen I. Evaluation of information retrieval systems and functions NODPORSK. STOCKHOLM, 1974.

107. Sasamori K. Sofware design for vocabulary control (DOCTOR) system. Proc. ASIS, v.7, Y/ashington, 1970, pp. 195-197.

108. Somers H.L. Observations on Standards and Guidelines concerning thesaurus construction. International Classification, 1981, 8, H 2, pp. 69-74.

109. V/all E. Symbiotic development of thesauri and information systems. A case history. J.ASIS, 1975, v.26, No 2, pp.7193.

Похожие работы

Документальная информация
05.25.00