автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных
Автореферат диссертации по теме "Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных"
На правах рукописи
Жмайло Светлана Васильевна
ИССЛЕДОВАНИЕ И РАЗРАБОТКА ТЕОРИИ И МЕТОДИКИ ПОСТРОЕНИЯ ТЕЗАУРУСОВ ДЛЯ ИНФОРМАЦИОННОГО ПОИСКА В ПОЛНОТЕКСТОВЫХ БАЗАХ ДАННЫХ (на примере тезауруса по безопасности инженерных систем)
Специальность 05.13.17 «Теоретические основы информатики»
Автореферат диссертации на соискание ученой степени кандидата технических наук
Москва 2005
Работа выполнена во Всероссийском институте научной и технической информации (ВИНИТИ) РАН Научный руководитель:
доктор технических наук, профессор Черный Аркадий Иванович Официальные оппоненты:
доктор технических наук, профессор Беломогов Геральд Георгиевич, кандидат физико-математических наук Куприянов Вячеслав Михайлович
Ведущая организация:
Институт научной информации по общественным наукам (И НИ ОН) РАН
на заседании диссертационного совета Д 002.026.01
при Всероссийском институте научной и технической информации РАН
по адресу: 125190 Москва, ул. Усягкича, д.20
С диссертацией можно ознакомиться в библиотеке ВИНИТИ РАН
«
Защита состоится
октяХрзь £в05г. -В №
Ученый секретарь диссертационного сове— доктор биологических наук, профессор
2ооЬ-й 157Я0
Актуальность проблемы. Диссертация посвящена вопросам разработки современных информационно-поисковых тезаурусов (ИПТ).
В последние годы проблема поискового «шума» и, соответственно, точности информационного поиска перестала быть проблемой профессионалов, превратившись в предмет дискуссий в самых разных сферах общественной жизни. Интернет и современные средства коммуникации, наряду с неоспоримыми преимуществами прямого обращения пользователя к искомой информации, породили массу сложностей. Несмотря на появление новых способов создания, обработки, хранения и поиска информации для потребителя проблема доступа к информационным ресурсам и получения релевантных документов обострилась. Это связано как с неограниченным ростом информационных массивов и распространением полнотекстовых баз и банков данных, так и с отходом от лексико-семантического принципа при информационном поиске. Поиск по неконтролируемому словарю приводит к гигантским размерам выдачи, колоссальному поисковому «шуму» и потерям релевантных документов.
На основании проведенных автором исследований [5] можно утверждать, что при использовании парадигматических (иерархических и синонимических) отношений между терминами точность словарного поиска научно-технической информации в разных поисковых машинах повышается в среднем на 15%, а полнота - более чем в 3 раза. То есть для повышения качества поиска необходимо создание тематических тезаурусов, которые помогали бы пользователю при формулировке поискового предписания. С другой стороны, наши исследования показали, что поиск по логическим категориям ведет к потере значительной части релевантной информации. Это объясняется ошибками автоматического индексирования и классифицирования из-за несовершенства соответствующих классификаторов и каталогов, которые, по-видимому, не в должной мере отражают систему парадигматических отношений. Таким образом, ИПТ актуальны как для словарного, так и дня логического поиска в Интернет как средство формирования поисковой потребности, формулирования поисковых предписаний и адекватного автоматического индексирования и классифицирования.
Цель исследования: разработка теории и методики создания современных информационно-поисковых тезаурусов как средств повышения эффективности информационного поиска в Интернет.
Предметом исследования в диссертации являются лексико-семантические парадигматические отношения в современных научно-технических текстах.
В качестве объекта анализа выступают тексты научно-технических публикаций в сфере безопасности инженерных систем.
Общая цель исследования конкретизируется в виде следующих задач:
1. Обоснование проблемы точности и полноты информационного поиска в полнотекстовых базах данных неограниченного объема.
2. Определение функции ИПТ в современных полноте кетовых базах данных.
3. Уточнение понятия информационно-поискового тезауруса применительно к поиску в полнотекстовых базах данных неограниченного объема.
4. Анализ существующих ИПТ и программ их составления и ведения.
5. Представление информационного поиска как психолингвистического процесса.
6. Представление информационно-поискового тезауруса как логико-психолингвисгической модели области знаний.
7. Анализ парадигматических отношений между лексическими единицами в текстах и ИПТ различных тематических областей.
8. Типизация парадигматических ассоциативных отношений и определение набора парадигматических отношений дня практического информационно-поискового тезауруса.
9. Разработка фрагментов ИПТ по безопасности инженерных систем.
10.Разработка методических рекомендаций дня составителей локальных ИПТ - пользователей Интернет.
Научная новизна исследования заключается в следующем:
1. Впервые информационный поиск представлен как психолингвистический процесс.
2. Впервые информационно-поисковый тезаурус рассматривается как логико-психолингвистическая модель области знаний.
3. Уточнено понятие информационно-поискового тезауруса применительно к поиску в полнотекстовых базах данных неограниченного объема.
4. Определены функции ИПТ в современных полнотекстовых базах данных.
5. Впервые проведен подробный семантико-прагматический анализ1 системы парадигматических отношений применительно к текстам и практическому информационно-поисковому тезаурусу.
6. Предложена типизация ассоциативных (парадигматических) отношений в зависимости от видов взаимодействующих лексических значений.
7. Разработаны методические рекомендации для составителей практических локальных ИПТ - пользователей Интернет.
'Пол семамщьо npai матческим анализом понимается анализ парадигматических отношений между дескриптора ми Hill с точки зрения'ассоциатипной связанности их лексических значений с одной стороны, и ценности того или иного типа отношений для информационного поиска, с лр\ гой стороны
Теоретическим основанием исследования является положение о том, что информационно-поисковый тезаурус представляет собой модель соответствующей области знаний, т. е. базу знаний, где эксплицитно выражены отношения между лексическими единицами, отражающие, в свою очередь отношения между понятиями и предметами и явлениями объективной действительности.
Теоретическая и практическая значимость исследования заключается в следующем:
1. Рассмотрение информационно-поискового тезауруса в виде логико-психолингвистической модели области знаний дает возможность моделировать не только предметную область знаний, но и представление о таковой каждого пользователя информационно-поисковой системы, то есть процесс отражения, происходящий в индивидуальном человеческом сознании. В этом смысле вполне обосновано использование ИПТ как средства формирования, уточнения и выражения информационной потребности в процессе информационного поиска, что крайне важно для повышения точности поиска в полнотекстовых базах данных неограниченного объема.
2. Представление об информационном поиске как о психолингвистическом процессе ведет к пониманию значения информационного запроса (в качестве некой лингвистической единицы) как психофизиологической связи в сознании человека между двумя отображениями - информационного предписания и предмета поиска, составляющего информационную потребность. Подобное представление позволяет использовать информационно-поисковый тезаурус в целях повышения точности поиска как на этапе отыскания нужного документа в массиве (посредством уточнения информационной потребности и соответствующей коррекции информационного предписания), так и на этапе оценки его релевантности (посредством поэтапного проведения поиска и автоматического реферирования полнотекстового массива результатов первого этапа с использованием информационно-поискового тезауруса).
3. На основе анализа парадигматических отношений в текстах, относящихся к различным тематическим областям, выделена система ассоциативных отношений для практического ИПТ. В теоретическом плане систематизация парадигматических (ассоциативных) отношений способствует разработке современных методик построения, ведения и использования ИПТ. В практическом плане типизация ассоциативных отношений позволяет использовать ИПТ не только как традиционное средство расширения запроса, но и как средство каталогизации информационного массива и уточнения поискового предписания, следовательно, повышения точности поиска, что крайне важно для работы в полнотекстовых базах данных неограниченного объема.
4. Типизация ассоциативных отношений способствует решению общенаучной гносеологической задачи - репрезентации знаний в больших банках данных путем каталогизации информационного массива на основе ИПТ.
Основными методами, применяемыми в данной работе, являются:
1. анализ, в том числе семантико-прагматический анализ (при выделении отдельных типов отношений между лексическими единицами);
2. синтез (при рассмотрении информационного поиска как психолингвистического процесса);
3. алгоритмизация (при построении логических моделей информационного поиска и ИГТГ);
4. абстрагирование и классификация (при составлении типологии ассоциативных отношений);
5. идеализация и обобщение (при формировании классов условной эквивалентности тезауруса);
6. моделирование (при построении фрагментов ИПТ как базы знаний соответствующей области);
7. модельное экспериментирование (при апробации фрагмента ИПТ в процессе информационного поиска);
8. метод экспертных оценок (при выборе терминов из текстов для построения фрагментов ИПТ).
Базой исследования послужили тексты статей из научных журналов, имеющих отношение к теме безопасности инженерных систем. Для построения фрагментов практического ИПТ выборку составили тексты статей из журналов «Атомная техника за рубежом» и «Безопасность труда в промышленности» за 2003 год.
На защиту выносятся:
1. Теоретическое положение о том, что информационно-поисковый тезаурус может служить средством уточнения поискового предписания и, следовательно, повышения точности информационного поиска в полнотекстовых базах данных неограниченного объема.
2. Представление информационно-поискового тезауруса в качестве логико-психолингвистической модели области знаний как средства формирования, уточнения и выражения информационной потребности в процессе информационного поиска, что крайне важно для повышения точности поиска в полнотекстовых базах данных неограниченного объема.
3. Представление ассоциативной модели информационного поиска в качестве модели логико-психолингвистического процесса.
4. Метод семантико-прагматического анализа парадигматических отношений между дескрипторами ИПТ с точки зрения ассоциативной связанности их лексических значений, с одной стороны, и ценности того или иного типа отношений для информационного поиска, с другой стороны.
Типология парадигматических (ассоциативных) отношений лексических единиц в текстах и ИПТ на основе метода семантико-прагмэтического анализа.
ф. Методические рекомендации по разработке практического информационно-поискового тезауруса
Апробация. Фрагменты информационно-поискового тезауруса по безопасности инженерных систем, созданные на основе анализа научно-технических текстов, апробировались и применяются в процессе информационного поиска в сети Интернет, а также в постоянно функционирующей и обновляемой полнотекстовой базе данных «Затоу-БалЛа» Международного центра безопасности (Российский федеральный ядерный центр ВНИИЭФ - Сандийские национальные лаборатории США).
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и четырех приложений: описания эксперимента по оценке эффективности поиска научно-технической информации в сети Интернет, разработанных автором иллюстративных фрагментов практического информационно-поискового тезауруса по безопасности инженерных систем с пермутационным указателем и разработанных автором методических рекомендаций по созданию лексико-семантического указателя практического информационно-поискового тезауруса. Приводятся список использованной литературы из 82 источников и список сокращений. Работа содержит 27 рисунков, 15 таблиц.
Содержание работы.
Во введении обосновывается актуальность темы и отмечается новизна работы, определяются цели и задачи исследования.
В первой главе определяются и уточняются в соответствии с современными условиями информационного поиска основные понятия области исследований, формулируется проблема точности и полноты поиска научно-технической информации в полнотекстовых базах данных, приводится обзор современных информационно-поисковых тезаурусов и семантических сетей.
Анализируются определения информационно-поискового тезауруса, представленные в работах последних двадцати лет. Автором предложено определение информационно-поискового тезауруса, используемого в полнотекстовых базах данных неопределенного объема, как идеологического словаря, с эксплицитно выраженными парадигматическими отношениями между лексическими единицами, который может рассматриваться в качестве логико-психолингвистической модели определенной области знания, или базы знаний, и служит для автоматического индексирования (реферирования) документов, а также для формирования, уточнения и выражения информационной потребности и формулирования информационного запроса (предписания) с целью обеспечения
точности поиска. Будучи логико-психолингвисгической моделью определенной тематической области, информационно-поисковый тезаурус служит одновременно средством представления и классификации знаний.
Лексической единицей (JTE) информационно-поискового тезауруса может служить языковая единица, обозначающая неделимое понятие и совпадающая в плане выражения с лексической единицей или терминологическим словосочетанием естественного языка. План содержания единиц естественного языка и ИПТ может не совпадать. В этом смысле нельзя поддаваться иллюзии, что современный информационный поиск использует средства естественного языка: для качественного информационного поиска по-прежнему необходимо устранение хотя бы в поисковых предписаниях многозначности и омонимии, свойственных естественному языку.
Задача каждого информационного поиска - снизить «шум» и увеличить выдачу релевантных (а оптимально - пертинентных) документов, то есть обеспечить точность. В 1950-1960 годы британским исследователем С. Клевердоном был проведен ряд экспериментов по сравнительной эффективности поисковых систем с ИПЯ разных типов. В результате экспериментов был сделан вывод о существовании обратной зависимости (хотя и не строго формальной) между полнотой и точностью поиска. При этом средний объем выдачи находится в прямой зависимости от общего объема поискового массива. Таким образом, рост поискового массива требует увеличения точности информационного поиска [8, с.313-314]. С появлением баз данных неограниченного объема эта задача приобретает особую актуальность. В информационных массивах большого объема невозможно оценить общее количество релевантных документов, соответственно, вопрос об абсолютном значении полноты поиска снимается. Остаются относительные характеристики: чем больше поисковый массив, тем выше полнота и ниже точность поиска. Исследования, проведенные автором [S], показали, что и в классификационных системах (Yahoo!), и в поисковых машинах словарного типа (AltaVista) поиск научно-технической информации в ресурсах Интернет по ключевым словам, даже с применением встроенных рубрикаторов, без выявления и использования парадигматических (иерархических и синонимических) отношений между терминами дает в 3,3 раза меньше пертинентных результатов, чем информационный поиск по тем же ресурсам с использованием выявленных парадигматических отношений. Как это ни парадоксально, именно информационно-поисковый тез^рус - средство повышения полноты выдачи в дескрипторных ИПС с ограниченным объемом - может оказаться средством повышения точности информационного поиска в Интернет в силу своей функции «бьггь пособием, которое бы помогало ищущему информацию находить правильные дескрипторы для выражения его информационной потребности» [ 14, с.9]. В современной ситуации именно точное выражение информационной потребности наряду сточным отнесением документа к той или иной директории базы данных с помощью тезауруса могут послужить основой повышения точности информационного поиска.
В то же время информационно-поисковый тезаурус может служить средством автоматического реферирования документов [17, с.83-93]. И это средство можно использовать для повышения эффективности полнотекстового поиска следующим образом. На первом этапе на массиве документов Интернет, доступных для выбранной поисковой машины, проводится поиск по сформулированному потребителем предписанию. Далее выделенное с использованием поисковой машины подмножество полнотекстовых документов, зачастую насчитывающее до 10 тысяч и более единиц, подвергается автоматическому реферированию на основе семантических сетей (варианта тезауруса), разработанных для данной поисковой машины. В результате сужается область поиска, отсеиваются случайные документы, по массиву рефератов оставшихся документов проводится повторный информационный поиск. Таким образом, точность информационного поиска в Интернет можно повысить за счет его поэтапного проведения и автоматического реферирования полнотекстового массива результатов первого этапа с использованием информационно-поискового тезауруса.
Можно сделать вывод, что применение тезаурусов в процессе информационного поиска в полнотекстовых базах данных неограниченного объема в определенном смысле решает проблему повышения точности поиска, поскольку
1) информационно-поисковый тезаурус служит средством уточнения информационной потребности и формулирования информационного предписания в терминах данной предметной области;
2) информационно-поисковый тезаурус является «семантическим ситом», которое позволяет автоматически индексировать полнотекстовые документы, соотнося их с предметно-тематическими рубриками, разработанными для используемой поисковой машины;
3) информационно-поисковый тезаурус служит основой автоматического реферирования массива документов, выданных поисковой машиной на первом этапе поиска, и таким образом значительно сужает область поиска, устраняя «шум».
Современные тезаурусы сменили свое назначение - быть средством избыточного индексирования и перевода текстов документов с естественного языка на дескрипторный ИПЯ - на функцию уточнения информационной потребности и повышения точности информационного поиска.
Вторая глава работы посвящена представлению информационного поиска как психолингвистического процесса, а также рассмотрению информационно-поискового тезауруса в качестве логико-психолингвистической модели области знаний.
В состав ИПТ. помимо лексико-семантического указателя (общего алфавитного списка дескрипторов и ключевых слов с эксплицитно выраженными смысловыми связями межлу ними), обычно входит
«семантическая карта» [8, с.504]. Связи между дескрипторными группами и отдельными лексическими единицами в тезаурусе эксплицируются в виде таблиц, лексикографически, аналитически или графически, причем, связные графы - самый наглядный и удобный для пользователя способ экспликации. С другой стороны, связные графы - принцип, на котором построена система отсылок в современных гипертекстовых файлах: фрагменты или полные тексты связываются друг с другом ассоциативными отсылками. То есть основой гипертекста, а следовательно, и современной концепции информационного поиска является система ассоциаций. В теоретическом плане этот факт служит основанием рассмотрения ИПТ в качестве средства, моделирующего как предметную область, так и процесс информационного поиска в определенной предметной области. В практическом плане это делает информационно-поисковые тезаурусы, эксплицирующие лексико-семантические отношения, в том числе ассоциативные, совершенно необходимым поисковым средством.
Схематично «логическое устройство» ИПТ можно представить как совокупность и структуру логических деревьев (кластеров), связанных друг с другом ассоциативными отношениями через отношения отдельных лексических единиц. «Семантическая карта» тезауруса, «представляющая собой систему смысловых классов, в которые сгруппированы все дескрипторы» с наглядно выраженными смысловыми отношениями между ними [8, с.504-505], позволяет рассматривать информационно-поисковые тезаурусы как логико-лингвистические модели соответствующих областей знания. Именно в этом качестве ИПТ особенно ценны как для автоматического индексирования полнотекстовых документов, так и для уточнения информационной потребности и адекватного формулирования информационного предписания, то есть, в конечном счете, для обеспечения точности поиска в современных базах данных.
База данных понимается как набор данных для поиска с помощью программы, управляемой пользователем. База знаний - как совокупность информации, предназначенная для выполнения какой-либо функции программой или человеком (например, выбора базы данных для поиска, помощи пользователю в составлении поискового запроса, структуризации полученной информации, перевода и т. д.) [18, с.43-44]. В этом смысле любой отдельно взятый информационно-поисковый тезаурус также можно считать базой определенной области знаний.
Согласно другой точке зрения, базы данных основываются на концептуальных (инфологических) моделях данных, которые содержат полное информационное описание объектов и отношений между ними и определяются логико-лингвистическим структурированием предметной области. Базы знаний должны содержать концептуальные, понятийные знания, выраженные на естественном языке в терминах предметной области, о стоящих за этими терминами классах объектов действительности и их свойствах [6, с. 13]. Очевидно, что ИПТ вполне подходит для основы баз данных, представляя собой концептуальную модель. В то же время тезаурус представляет собой систему понятий определенной
области знаний, выраженных в терминах естественного языка, структурные связи между которыми эксплицируются с целью отражения связей и свойств объектов действительности. То есть, ИПТ является базой знаний и в этом отношении.
Тезаурус определяется как идеологический «словарь, предназначенный для поиска слов какого-либо языка по их смыслу» [12], то есть он отражает как предметную (через систему понятий), так и языковую (через систему лексических единиц) реальность. А поскольку, «с точки зрения своей функциональной направленности, язык является средством организации информации и с точки зрения своего устройства язык представляет собой структуру» [4, с.6], то и тезаурус, безусловно, организует информацию в процессе поиска, причем, вероятно, именно благодаря присущему ему свойству структурности. Объективация скрытых лексико-семантических классов и отношений естественного языка делает тезаурус некоторым отображением (моделью) лексико-семантической системы естественного языка [9, с.11].
Кроме того, структура информационно-поискового тезауруса моделирует не просто предметную область знаний, а представление о таковой каждого человека, то есть процесс отражения, происходящий в индивидуальном человеческом сознании.
Итак, информационно-поисковый тезаурус можно с достаточным основанием считать как моделью фрагмента лексико-семантической системы естественного языка, так и моделью предметной области знаний, или базой знаний - как общей, распределенной, так и индивидуальной. Такая модель может рассматриваться в качестве логико-лингвистической основы процесса информационного поиска, причем, таких моделей можно, в принципе, построить сколь угодно много для одной и той же тематической области.
С другой стороны, в психологии существует множество моделей семантической организации памяти [3, с.25-26, 51, 58, 80, 93-34, 100, 123-130]. Тем не менее, все они принципиально сводимы к модели (семантической карте) тезауруса. Таким образом, можно утверждать, что информационно-поисковый тезаурус является не только логико-лингвистической, но и психологической моделью репрезентации знаний.
Трактовка ИПТ как логико-психолингвистической модели позволяет обратиться к рассмотрению проблемы парадигматических (в том числе, ассоциативных1) отношений и их роли в информационном поиске.
Соотнесение в процессе информационного поиска смысла запроса и документа требует экстралингвистических знаний, и, прежде всего, знаний внутри и вокруг той предметной области, в которой осуществляется поиск. Информационно-поисковые тезаурусы предоставляют пользователю структурированные фрагменты экстралингвистических знаний через экспликацию парадигматических отношений между лексическими единицами и, соответственно, между обозначаемыми ими понятиями.
' Ассоциация соединение свя *ь психических чнтсний дрхтс дрмом [10 I 6'11
Языковая парадигма на любом уровне языковой структуры представляет собой «совокупность вариантов, объединенных общим для них устойчивым инвариантом и закономерно чередующихся в процессе речевого функционирования языка» [2, с.205]. Парадигматику языка можно определить как «совокупность и систему допускаемых структурой языка вариантов его единиц и категорий -вариантов, из числа которых автор речи на каждом шаге развертывания речи делает выбор лишь одного» [там же, с.218]. Синтагматика языка определяется как «совокупность и система опирающихся на структурные значения языковых единиц их сочетательных возможностей и их реализаций в процессе речи» [там же]. В теории и практике информационного поиска под парадигматическими отношениями понимаются отношения между словами (означающими), которые основаны «на существовании объективных связей между означаемыми, то есть между внутренними, семантическими сторонами слов» [8, с. 443; 38, с.10].
Необходимость повышения качества информационного поиска путем применения и усовершенствования тезаурусов диктует необходимость анализа парадигматических отношений. А это, в свою очередь, требует уточнения понятия лексического значения, поскольку парадигматические связи в ИПТ основываются на соотношении понятий, составляющих значение лексических единиц тезауруса.
В языке и речи слова естественного языка включаются в денотативные (слово - предмет), сигнификативные (слово - мыслительный образ предмета), структурные (слово - другое слово) отношения. На основании этого различают объектные (выражающие информацию о предметах действительности), субъектные (выражающие информацию об отражении предметов действительности в сознании) и структурные (выражающие информацию о связях слов в структуре языка) лексические значения [6, с.24]. Причем, все три типа значений присущи семантике любого слова. Иллюстрацией к такому комплексному пониманию лексического значения служит так называемый «треугольник Фрёге» [13, с.231]. Схематично отношение знака к обозначаемому им предмету (у Фрбге - значению, в лингвистическом понимании - денотату), а также к выражаемому знаком смыслу (понятию) можно изобразить таким образом [И, с.7], дополнив рисунок схематическими указателями на присущие языковому знаку типы значений (Рис. 1).
В вершине I - денотат, вещь, предмет - есть предмет объективного мира, но в сознании человека находится, разумеется, не сам предмет, а его отражение, так называемый сигнификат. В вершине II - сам знак, вторично отраженный в сознании (в виде представления о звучащем слове и в виде правил производства слова, его «порождения»). В вершине III - понятие, отраженное в сознании как десигнат; оба есть результат работы мозга и результаты совершившегося обобщения знания о предмете, т. е. особые виды отражения.
Связь знак - денотат составляет ядро объектного лексического значения. Связь образ знака - сигнификат - десигнат - ядро субъектного значения. Связь между образами разных слов в сознании, отражая лексико-грамматическую «валентность» слова, составляет ядро структурного лексического значения. Объектное и субъектное лексические значения обусловливают возможность включения слова и обозначаемого им понятия в лексическую и логическую парадигмы. Структурное значение лежит в основе синтагматических отношений, но не исключает и парадигматики, главным образом, грамматической.
Размышления Г. Фрёге подтверждаются мнением Г. Эббингауза- «Что такое язык с точки зрения психологии?., это скрепленное прочными ассоциациями соединение двух элементов: с одной стороны - слов и предложений с их шачением, с другой - вещей» [15, с. 123].
Для дальнейшей работы примем определение значения слова в субстанциональном плане как психофизиологической связи в сознании человека между двумя отображениями - слова и предмета [2, с. 129] В функциональном плане значением языкового знака (в том числе, слова) будем считать его «свойство, способность выражать и возбуждать информацию о чем-то, что отличается от него самого» [там же, с. 130].
Проблема лексического значения рассматривается столь подробно, поскольку слово является наиболее типичным языковым знаком В го же время, на синтаксическом уровне языка единицей, знаком является словосочетание или предложение к которым в полной мере применимо понятие значения языкового
знака, проиллюстрированное «треугольником Фрёге», с той разницей, что словосочетание или предложение могут отсылать нас не только к понятию и представлению, но и к иным логическим категориям - суждению и умозаключению. С другой стороны, информационный запрос, выраженный информационным предписанием, формулируется в виде слова, словосочетания и предложения, то есть языкового знака. Поэтому к значению информационного запроса вполне применима модель «треугольника Фрёге», которая, в свою очередь, поможет нам смоделировать процесс информационного поиска.
Понимание значения информационного запроса как психофизиологической связи в сознании человека между двумя отображениями - информационного предписания и предмета, составляющего информационную потребность, — будем считать первым теоретическим основанием анализа парадигматических отношений в текстах и информационных запросах (предписаниях) с целью повышения точности поиска. Представление информационного поиска как психолингвистического процесса будем считать вторым теоретическим основанием анализа парадигматических отношений между лексическими единицами в тексте и информационном предписании с целью повышения точности поиска.
Информационный поиск в любом своем виде является психолингвистическим действием. Процесс составления поискового предписания в известном смысле можно представить как процесс порождения речи. Основываясь на теоретических положениях Л. С. Выготского [см. 7, с.49-50], мотивацией к составлению поискового предписания можно считать побуждение к познавательной деятельности (необходимость найти ответ на вопрос). Интенция - это формирование информационной потребности. Внутреннее программирование речевого высказывания - это уточнение информационной потребности на внеязыковом уровне ментальных представлений. Реализация внутренней программы - формулирование информационной потребности на уровне смысла (своего рода «гештальт»). Акустико-артикуляционная реализация - формулирование информационной потребности средствами естественного языка. На этом, по Л. С. Выготскому, процесс порождения речи на естественном языке прекращается. Процесс информационного поиска продолжается, поскольку даже при работе в полнотекстовых базах данных с документами на естественном языке необходимы специальные поисковые средства для устранения полисемии, омонимии, уточнения значений поисковых терминов. То ее п. происходи! дальнейшая конкретизация информационной потребности -выражение ее с помощью лексико-грамматических средств, формально, в плане выражения, совпадающих с таковыми средствами естественного языка, но в плане своего содержания имеющих более узкую, конкретную функционально-прагматическую семантику. Соотнося результаты информационного поиска и поисковую потребность, пользователь решает вопрос о необходимости коррекции поискового предписания. И всякий раз. корректируя поисковое предписание, сознание позьзователя вновь проходит этапы порождения речи.
начиная, по крайней мере, с внутреннего программирования речевого высказывания. Таким образом, при информационном поиске происходит постоянное соотнесение мысли и слова, движение от мысли к слову и обратно - от слова к мысли.
Возможность по-новому взглянуть на принципиальную разницу между ручным и автоматизированным информационным поиском дает теория гештальтов. Пользователь на фазе внутреннего программирования речевого высказывания оперирует гештапьтом1 - неким инвариантом смысла, подобным общему ядру лексического значения в парадигме синонимов. При ручном поиске в библиотеке, например, читатель может оставаться на этом невербальном, интуитивно-смысловом уровне сравнения своей информационной потребности и смыслового содержания документального источника. При автоматизированном поиске пользователь обязательно структурирует свою мысль, подбирая наиболее точные синонимы, соотнося их с ассоциативными терминами, возможно, уточняя юс значение введением синтагматических отношений (конкретизируя значение слова через введение словосочетания), исключая лексические единицы, поиск по которым приведет к «шуму». В отличие от ручного, автоматизированный информационный поиск предполагает только структурное представление предмета информационной потребности. И в этом смысле информационно-поисковый тезаурус является необходимым средством объективации структурных (парадигматических) связей между лексическими единицами поискового предписания.
Схематически представляя значение информационного предписания с помощью «треугольника Фрёге», попробуем составить психолингвистическую модель процесса информационного поиска. Понимание значения знака как триединой связи «знак - понятие - денотат» согласуется с психологической концепцией известного американского ученого Ч. Осгуда [см. 7, с.36-37], который представляет речь как систему непосредственных или опосредованных реакций человека на речевые или неречевые стимулы. При этом речевые стимулы вызывают частично то же поведение, что соответствующие неречевые, благодаря возникновению ассоциаций между речевым и неречевым стимулами. Принципиальная схема речевого поведения человека, по Осгуду, представлена на Рис. 2.
1 Понитяе гешталы л вл леио немецкими учеными вони<1 М\ начала XX века М Вертгеймероч В Келсром К Коффкой Понимая 1<пн шнекаклинамичесшецелое.'ни1 чеиые единицей анализа счигали геил*' *ы целостную обрачнмо структурч н<. 1. колимую к сумме составляющие ое ощущений [7, с 30]
Уровень репрезентация
Рис. 2. Схема речевого поведения человека На уровне рецепции речевые стимулы перекодируются в нервные импульсы, которые образуют на уровне интеграции перцептуальное единство («гештальт»). На уровне репрезентации этот гештальт ассоциируется с неречевыми стимулами и обретает что-то вроде значения. Затем на уровне самостимуляции на основе информации, поступившей с уровней интеграции и репрезентации, делается выбор между «альтернативными моторными целыми», которые, проходя моторное кодирование, превращаются в факты поведения [там же].
Представим в рамках этой схемы процесс выбора лексических единиц для информационного предписания. Левая часть схемы - не что иное, как преобразованный треугольник Фрёге: на уровне рецепции мы имеем дело с планом выражения слова; уровень интеграции дает целостную образную структуру, несводимую к сумме составляющих ее ощущений - «гештальт» - это элемент плана содержания слова; на уровне репрезентации - ассоциация с неречевым стимулом, то есть денотатом. На уровне самостимуляции происходит оценочное соотнесение значения слова и денотата, а в случае информационного поиска - соотнесение поискового предписания (или его лексической единицы) и информационной потребности, что на уровне моторного кодирования превращается в процесс выбора . данной ЛЕ или отказа от нее в пользу другой, связанной с первой парадигматически. Очевидно, сознание оценивает сразу несколько вариантов сочетаний лексических единиц, обладающих рачной семантикой, отображающей разные, но сходные денотаты Причем, выбор того или иного варианта осуществляется через постулирование возможных исходов пол углом зрения определенных критериев выбора в псичоло! ии тго называется вероятностным прогнозированием.
Для того чтобы представить обратный процесс оценки релевантности документа, обратимся к схеме информационного поиска, предложенной Б. Виккери [19, с.135] (Рис.3.). При этом внесем в схему некоторые коррективы.
Верхняя часть схемы до горизонтали «поисковый образ документа - текст -база данных» показывает процесс предмашинной обработки документа. Поэтому в ней фигурирует референт. В современных информационно-поисковых системах вместо референта - разработчик системы, ниже него - система автоматического индексирования, присваивающая входящим документам поисковые образы (ПОД), или автоматизированная система рубрицирования, то есть отнесения полнотекстовых документов к определенным заранее директориям. Обработанный с помощью тезауруса текст получает ПОД и поступает в базу данных.
Пользователь, опираясь на свою индивидуальную базу знаний, соотнося «гештальт» поисковой потребности с системой понятий, выражает поисковую потребность вербально в форме запроса и конкретизирует ее с учетом возможностей ИПС в форме поискового предписания. Как мы уже замечали, процесс соотнесения поисковой потребности с системой понятий повторяется в сознании человека многократно и многонаправленно, так же, как и процесс корректирования запроса и поискового предписания. Поэтому в схеме употреблены двойные стрелки.
В основании схемы мы получили двойной треугольник, напоминающий «треугольник Фреге» (Рис.1). Связь между образом слова и образом понятия в сознании человека составляет лексическое значение [2, с. 129]. Система лексических значений, соотнесенных с понятиями, составляет индивидуальную базу знаний, на основании которой пользователь формулирует свою информационную потребность и выражает ее затем в виде запроса и поискового предписания.
Из сказанного следует, что чрезвычайно важным для повышения качества информационного поиска представляется стремление к максимальному сближению индивидуальной базы знаний референта (в некоторых системах представленной тезаурусом) или индивидуальной базы знаний автора (в полнотекстовых неиндексируемых массивах), с одной стороны, и индивидуальной базы знаний пользователя, с другой стороны. Такое сближение возможно, если пользователь и система будут вооружены одним и тем же методологическим средством повышения точности поиска в полнотекстовых базах данных, а именно: информационно-поисковым тезаурусом. Информационный поиск увенчается успехом тогда, когда потребность, сформированная на основе индивидуальной базы знаний пользователя, будет удовлетворена средствами индивидуальной базы знаний автора
Рис 3 Передача смысла в информационном поиске
В третьей главе рассматриваются ассоциативные и парадигматические отношения между лексическими единицами тезауруса.
Дается принципиальная схема языковой ассоциации.
Физическая (туковая или графическая) оболочка слова вызывает представление о лексическом шачении слова, связывает это значение с ассоциированными лексическими жачениями в памяти и вьнывает представление об ассоциированном стове целиком, включая как план его выражения, так и план стерллния (Рис.4).
Рис.4. Языковая ассоциация
Скобками на Рис.4 выделена область сознания - план содержания, в отличие от области материальной действительности - предметного мира и плана выражения языковых знаков. Нужно помнить, что за каждым лексическим значением стоит соответствующее понятие и его отражение - десигнат, а также сигнификат -отражение обозначаемого предмета-денотата. Ассоциативные (преимущественно симметричные) связи возникают внутри группы ассоциированных лексических значений, между соответствующими понятиями, а также сигнификатами
В процессе информационного поиска пользователь имеет целью найти информацию о денотате. Под денотатом понимается любой реальный или реально мыслимый предмет, явление, процесс. Образ денотата в сознании - сигнификат. Именно сигнификатами оперирует образное мышление. При информационном поиске важно соотнесение сигнификата с понятием-десигнатом, а в процессе уточнения информационной потребности и коррекции информационного предписания - соотнесение ассоциированных десигнатов друг с другом. Поэтому особое значение имеет исследование и экспликация в тезаурусах ассоциативных отношений между лексическими единицами.
По-видимому, вся лексико-семантическая парадигматика построена на ассоциативных связях. Понятие ассоциативных отношений не тождественно понятию парадигматических отношений. Не всякий ассоциативный ряд лексических единиц выделяет общий для всех своих членов инвариант смысла. Но всякий член парадигмы ЛЕ ассоциативно соотносится с каждым другим членом своей парадигмы, а также с членами других парадигм,ассоциированных с данной в пределах ассоциативного поля. Ассоциативное поле образует сеть ассоциаций.
Т«шг опаЯл«
Рис 5. Соотношение понятий парадигма, парадигматическое поле, ассоциативное поле
Аналогично, сеть парадигматических отношений, не обязательно объединяющих ЛЕ в строгие парадигмы, образует парадигматическое поле [6, с.208]. Таким образом, понятие парадигмы входит в понятие парадигматическое поле, которое, в свою очередь, входит в понятие ассоциативное поле (Рис. 5).
В работе исследованы типы ассоциативных отношений в текстах и способы моделирования их в различных информационно-поисковых тезаурусах Рассмотрены некоторые классификации парадигматических отношений Предложена собственная их типизация, созданная на основе списка парадигматических отношений Американской библиотечной ассоциации [16] с помощью предложенного автором метода семантико-прагматического анализа. Пол семянтико-прагматичгскич анализом понимается ана шз парадигматических отношений межл> дескрипторами ИПТсточки зрения ассоциативной связанности их лексических шачений. с одной стороны, и ценности того или иного типа
отношений для информационного поиска, с другой стороны.
Список [16] является наиболее полным в мировой практике составления тезаурусов и классификаций и содержит описания 215 типов лексических парадигматических связей. Автором рассматривались только отношения между ЛЕ, характерные для научно-технических текстов. Семантико-прагматический анализ каждого из типов отношений предполагает:
a) выделение из всего списка ассоциативных отношений лексико-семантических ассоциативных (т. е. парадигматических) отношений;
b) типологизацию - отнесение отношения к тому или иному типу связей между лексическими значениями (объектными, субъектными, струюурными);
c) гипотетическое выделение наиболее важных типов отношений и определение набора рекомендуемых ассоциативных отношений для практического информационно-поискового тезауруса;
d) экспериментальную проверку гипотезы и определение частотности тех или иных типов лексико-семантических связей в текстах разных отраслей знаний на примере информационных массивов полнотекстовой базы данных по безопасности инженерных систем.
В список отношений, рекомендованных в результате анализа к включению в практический тезаурус, попала только часть из списка [16] (Таблица 1). Анализ показал, что из класса условной эквивалентности обязательно должны присутствовать в ИПТ независимо от его тематики собственно синонимы, квазисинонимы с общими денотатами и пересекающимися понятиями, а также синтаксические, орфографические и часть деривационных условных эквивалентов
- все с общими денотатами, объединенные объектно-субъектными отношениями. Независимо от тематики ИПТ в него обязательно включаются дескрипторы, находящиеся в родо-видовых и меронимических (партитивных) отношениях, также основанных на объектно-субъектных лексико-семантических связях.
Другие парадигматические отношения между дескрипторами, выделяемые как ассоциативные, включаются в ИПТ, очевидно, в зависимости от его тематики. Можно предположить, что концептуальные, дефинициальные, причинно-следственные и меронимические отношения характерны для текстов любой области знания. Поэтому они должны присутствовать и во всех информационно-поисковых тезаурусах, так же как отношения «действие - цель», «объект-объект», «свойство
- свойство». В то же время объектно-процессуальные отношения (типа «объект/ контрагент», «процесс/контрагент», «инициатор/процесс», «агент/процесс», «инструмент/цель», «метод/продукт», «процесс/метод», «процесс/свойство», «процесс/продукт», «продукт/материал») характерны больше для естественнонаучных и производственных областей. А отношения понятий как частей уравнений, как и «объект/мера», «объект/устройство для измерения» характерны больше для естественных и точных наук.
В четвертой главе описывается опыт построения фрагментов информационно-поискового тезауруса по безопасности инженерных систем1. Предлагаются методические рекомендации по отбору лексики и определению отношений для практического ИПТ. На примерах из информационно-поискового тезауруса по безопасности инженерных систем прослеживаются некоторые тенденции в корреляциях типов парадигматических отношений между дескрипторами в зависимости от тематической области (Таблица 1):
■ терминология области точных и естественных наук характеризуется более строгими и менее разнообразными отношениями по сравнению с терминологией гуманитарного направления инженерии;
■ безусловно, самыми важными в обоих случаях оказываются синонимические и родо-видовые отношения; это подтверждает вывод специалистов Американской библиотечной ассоциации о том, что 60% словарных пар в тезаурусах строятся на концептуальных отношениях [16];
■ отношения объект/объект оказываются наиболее частыми после родовидовых; по-видимому, в эту категорию эксперты относили как концептуальные, так и слабо мотивированные связи между терминами (типа предмет/контрагент, предмет как атрибут другого предмета); это говорит о необязательности включения слабо мотивированных связей в перечень парадигматических отношений, рекомендованных к отображению в тезаурусе.
' Под безопасностью инженерных систем понимаются принципы и условия безопасности технических объектов и систем с высокой тяжестью последствий при авариях специальных установок, содержащих опасные материалы (ядерные. оссюо токсичные взрывчатые вещества и 1 п ) исследовательских установок применяемых в работах с ядерным оружием объектов обычных вооружений промышленных объектов нефтеперерабатывающей газовой химической отраслей и лрхгих потенциально опасных объектов инфраструктуры
Таблица 1
Корреляции типов парадигматических отношений в двух иллюстративных фрагментах ИПТ по безопасности инженерных систем
1 2 3 4 $ б 7
Количество связей в кмщои в шсспв Тшы сарадш 'шшесш ишишепй Тшы отношений между лексическими значениями дв| щни! 1 иро>
Безопасность на ЛДериьи ЗИ 1 МИШИ И1 ЁШЕЬ: «Шк ТРУД» в ПйОНЫШВВ* явш Лексшш-сенвгапесюе Структурные
Объектные Субъектные
1 1 и Собственно синонимы + + -
2 Лшгмищшп тииият пнмжялюстъ + или • +
3 г 11 Орфографические варивагы + + +
4 Приблизительные синонимы - или + - или +
5 Антонимы - +
6 82 83 Родо-видовые - или + +
7 Пфтипвиые (меронимические) ■или* +
8 Генеалогические + +
9 I Концептуальные + или - +
10 Дефиинциальные + или - +
11 Ассоциация по смежности + или - +
12 2 3 4 5 6
12 2 Объединенные понятия + ИЛИ- +
13 Части уравнений + или - +
14 9 Причинно-следственные + +
15 9 Отношения зависимости + +
16 I Объект/предшественник + +
17 I 13 Последовательность процессов + +
18 Отношения окружения + или - + ♦ или -
19 I Дисциплиною учаемый объект Научная +
концепция/объект Научная шкоде/объект
20 2 Ассоциация по месту + - или +
21 Ассощацня по времени + - ИЛИ +
22 ОбьекгЛажгр агент + +
23 Продует/ материал + +
24 Производитель/продукт + +
25 55 20 Объект/объект + +
26 Объект/устройство для измерения + +
27 Предмет как атрибут другого предмета + +
28 Люди взаимодействующие в определенных ситуациях + +
29 Инициатор/процесс + или - + -
30 13 Агент/процесс + или - +
31 2 Инструмент/цель + или - +
32 Метод/продукт +
33 2 Процесс/метод +
34 1 Процесс/свойство 4-
35 2 Процесс/свойство объекта +
36 19 7 Процесс/реципиент +
37 1 ДебстанеАдаь +
38 1 ПроцессУпродукт +
1 2 3 4 6
39 1 8 Процесс/контрагент +
40 Объест/мера +
41 1 1 Свойство/свойство +
42 2 Предмет/применение + -
43 9 3 Предмет/свойство + + -
Таким образом, для конкретного информационно-поискового тезауруса избыточными могут оказаться не только 215 типов парадигматических отношений (согласно списку Американской библиотечной ассоциации [16]), но и выделенные нами первоначально 43 типа. В то же время, наш небольшой эксперимент подтвердил предположение о разных корреляциях типов отношений в зависимости от области применения ИПТ.
Заключение.
Основные результаты исследования заключаются в разработке теории и методики создания современных информационно-поисковых тезаурусов как средств повышения эффективности информационного поиска в Интернет. Поставленные в начале исследования задачи выполнены:
■ Теоретически и экспериментально доказано, что информационно-поисковый тезаурус может служить средством повышения точности поиска в полнотекстовых базах данных неограниченного объема.
■ На основе анализа существующих информационно-поисковых тезаурусов определены функции ИПТ в современных полнотекстовых базах данных.
■ Уточнено понятие информационно-поискового тезауруса применительно к поиску в полнотекстовых базах данных неограниченного объема.
■ Показано, что представление информационного поиска как психолингвистического процесса, а информационно-поискового тезауруса в виде логико-психолингвистической модели области знаний является теоретическим основанием использования ИПТ в качестве средства формирования, уточнения и выражения информационной потребности в процессе поиска.
■ Проведен семантико-прагматический анализ парадигматических отношений между лексическими единицами в текстах различных тематических областей.
■ Предложена типизация парадигматических ассоциативных отношений, определен набор парадигматических отношений для практического информационно-поискового тезауруса.
■ Разработаны опытные иллюстративные фрагменты ИПТ по безопасности инженерных систем.
■ Разработаны методические рекомендации для составителей локальных ИПТ - пользователей Интернет.
По результатам исследования можно сделать некоторые выводы. 1. При поиске в базах данных объемом в миллионы документов вопрос о качестве информационного поиска зачастую сводится к проблеме его полноты. Но в этих условиях именно проблема точности должна выходить на первых план. Причем, необходимым средством повышения точности поиска в полнотекстовых базах данных неограниченного объема является информационно-поисковый тезаурус.
Информационно-поисковый тезаурус, используемый в полнотекстовых базах данных с неограниченным объемом, можно определить как идеологический словарь, с эксплицитно выраженными парадигматическими отношениями между лексическими единицами, который может рассматриваться как логико-психолингвистическая модель определенной области знания, или база знаний, и который служит для автоматического индексирования документов, а также для формирования, уточнения и выражения информационной потребности и формулирования
информационного запроса (предписания) с целью повышения эффективности поиска.
2. Информационно-поисковый тезаурус можно с достаточным основанием считать как моделью фрагмента лексико-семантической системы естественного языка, так и моделью предметной области знаний, или базой знаний - как общей, распределенной, так и индивидуальной. В то же время, множество психологических моделей семантической организации памяти принципиально сводимы к семантической карте тезауруса. Таким образом, можно утверждать, что информационно-поисковый тезаурус является не только логико-лингвистической, но и психологической моделью репрезентации знаний. В этом смысле вполне обосновано использование ИПТ как средства формирования и выражения информационной потребности в процессе поиска информации.
3. Обобщая представление о системе парадигматических отношений, подлежащих экспликации в информационно-поисковых тезаурусах разных областей науки, отметим, что из класса условной эквивалентности обязательно должны присутствовать в ИПТ независимо от его тематики собственно синонимы, квазисинонимы с общими денотатами и пересекающимися понятиями, а также синтаксические, орфографические и часть деривационных условных эквивалентов - все с общими денотатами, объединенные объектно-субъектными отношениями. Независимо от тематики ИПТ в него обязательно включаются дескрипторы, находящиеся в родо-видовых и меронимических (партитивных) отношениях, также основанных на объектно-субъектных лексико-семантических связях. То же можно сказать о других концептуальных и дефинициальных отношениях и связях типа «причина-следствие», «действие- цель», «объект-объект», «свойство-свойство».
Корреляции типов парадигматических отношений между терминами в зависимости от предметной области имеют тенденцию к преобладанию более строгих и менее разнообразных отношений в области точных и естественных наук по сравнению с гуманитарными.
4. Использование тезауруса в полнотекстовых базах данных наиболее эффективно при постоянной модернизации тезауруса, его интеграции в базу данных и соответствующем уровне тематической специализации. Причем, более детально разработанная модель, то есть более специализированный тезаурус, позволяет добиться более высокой точности поиска.
5. Типизация ассоциативных отношений способствует решению общенаучной гносеологической задачи - репрезентации знаний в больших банках данных путем каталогизации информационного массива на основе ИПТ.
Основные положения диссертации опубликованы в следующих работах:
1. Жмайло C.B. Анализ массива публикаций по теме «Тезаурус» в базе данных «Информатика» ВИНИТИ. // НТИ. - Сер. 1. - 2004. - №3.
2. Жмайло С. В. К вопросу об определении тезауруса. Н НТИ, - Сер.1. - 2003. -№12.
3. Жмайло С. В. К разработке современных информационно-поисковых тезаурусов. // НТИ. - Сер. I. - 2004. - №1.
4. Жмайло С. В. Опыт исследования эффективности поиска научно-технической информации в сети Интернет. - ВИНИТИ. - М., 2005. - 32с. - Деп. в ВИНИТИ.
5. Жмайло С. В. Некоторые проблемы информационной экологии и пути их решения // НТИ. - Сер. 1. - 2005. - №&
Список литературы
1. Азарова И. В., Митрофанова О. А., Синопальникова А. А. Компьютерный тезаурус русского языка типа WordNet - http://www.diaIog-21.ru/ diaIog.asp?page=26362&parent_menu_id=711 -60 kb.
2. Березин Ф. M., Головин Б. Н. Общее языкознание. - М: Просвещение, 1979
3. Гейвин, Хелен. Когнитивная психология. - М.: Питер, 2003
4. Городецкий Б. Ю. Теоретические основы прикладной семантики: Автореферат диссертации на соискание научной степени доктора филологических наук. - М., 1978
5. Жмайло С. В. Опыт исследования эффективности поиска научно-технической информации в сети Интернет. - ВИНИТИ. - М., 2005. - 32с. -Деп. в ВИНИТИ.
6. Кобрин Р. Ю. Лингвистическое описание терминологии как база концептуального моделирования в информационных системах: Автореферат диссертации на соискание ученой степени доктора филологических наук. - Л., 1989
7. Леонтьев А. А. Основы психолингвистики. - M.: Смысл, 2003
8. Михайлов А. И., Черный А. И., Гиляревский Р. С. Основы информатики. -М.: Наука, 1968
9. Москович В. А. Лексико-семантическая система естественного языка и информационные языки: Автореферат диссертации на соискание ученой степени доктора филологических наук. - Л., 1971
Ю.Немов Р. С. Психология Книга 1. Общие основы психологии. - М.: Владос, 2001
11 .Семиотика. Ред. Степанов Ю.С. - http//lib.wsu.ru/books
12.Терминологический словарь по информатике. - М., 1975
13.Фреге Г. О смысле и значении // В сб. Логика и логическая семантика. -М„ 2000
14.Черный А. И. Общая методика построения тезаурусов // НТИ. - Сер.2. -1968. - №5. - С.9-33
15.Эббингауз Г. Очерк психологии. //Сб. Основные направления психологии в классических трудах: Ассоциативная психология. - М.: ACT-ЛТД, 1998
16.Final Report to the ALCTS/CCS Subject Analysis Committee - http:// www.ala.org/ala/alctscontent/catalogingsection/catcommittees/ subjectanalysis/subjectrelations/finalreport
17 Luhn H P. Pioneer of Information Science: Selected Works - Ed. Claire K. Schultz. - New York: Spartan Books, London: Macmillan & Co. 1968
18.Meadow. C. T., Boyce, B. R., Kraft D. H. Text Information Retrieval Systems.
U.S.A . Academic Press. 2000
10 Vickery. В С. Vickery, A Information Science in Theory and Practice. -11.S . Butterworths, 2000
!
*
tí i
f
i
Тираж 80 эю.
РФЯЦВНИИЭФ Нижегородская обл., г. Саров, ар. Мира, 37 www.vniiefLru
»16209
РНБ Русский фонд
2006-4 15780
Оглавление автор диссертации — кандидата технических наук Жмайло, Светлана Васильевна
ОСНОВНЫЕ СОКРАЩЕНИЯ.
1. Проблема точности н полноты информационного поиска. Определение информационно-поискового тезауруса.
1.1. Проблема точности и полноты информационного поиска в современных базах данных с неограниченным объемом.
1.1.1. Некоторые основные определения информатики.
1.1.2. Задача повышения эффективности поиска научно-технической информации в сети Интернет.
1.13. Опыт исследования эффективности поиска научно-технической информации в сети Интернет.
1.1.4. Возможности повышения эффективности поиска научно-технической информации в сети Интернет с помощью информационно-поискового тезауруса.
1.2. Понятие информационно-поискового тезауруса.
1.3. Динамика публикаций по теме «Информационно-поисковый тезаурус».
1.4. Обзор некоторых современных информационно-поисковых тезаурусов.
2. Информационный поиск как психолннгвистический процесс. Тезаурус как логико-психолингвистическаи модель области знаний.
2.1 .Тезаурус как логико-лингвистическая модель предметной области, или база знаний.
2.2.Информационно-поисковый тезаурус как психологическая модель репрезентации знаний.
2.3. Понятия парадигматики и синтагматики. Парадигматика в ИПТ.
2.4. Лексическое значение.
2.5. Информационный поиск как психолингвистический процесс.
3. Парадигматические отношении как тип ассоциативных отношений. HI
3.1. Понятие ассоциации. Языковая ассоциация.
3.2. Лексические единицы ИПТ и методика их выделения и отбора.
3.3. Ассоциативные и парадигматические отношения между лексическими единицами в языке и тезаурусе. Инвариант смысла в парадигме и прототип категории.
3.4. Типы ассоциативных отношений в текстах и моделирование их в информационно-поисковых тезаурусах.
3.5. Типы лексико-ссмантических ассоциативных отношений с точки зрения типов взаимодействующих лексических значений.
3.5.1. Лекеико-семантические ассоциативные (парадигматические) отношения условной эквивалентности с точки зрения связи типов лексических значений.
3.5.2. Иерархические лексико-семантические ассоциативные (парадигматические) отношения с точки зрения связи типов лексических значений.
3.5.3. Другие типы лексико-семантических ассоциативных (парадигматических) отношений с точки зрения связи типов лексических значений.
3.5.4. Краткие выводы.
4. Опыт построения фрагмента информацнонно-понскового тезауруса по безопасности инженерных систем.
Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Жмайло, Светлана Васильевна
Актуальность исследования. В последние годы проблема поискового «шума» и, соответственно, точности информационного поиска перестала быть проблемой профессионалов, превратившись в предмет дискуссий в самых разных сферах общественной жизни. Интернет и современные средства коммуникации, наряду с неоспоримыми преимуществами прямого обращения пользователя к искомой информации, породили массу сложных вопросов и явлений. Ученые заговорили об информационной экологии [73, 82]. «Информационный смог» непрерывно влияет на наш сон, внимание и даже на иммунную систему. Приведем некоторые данные, опубликованные американскими исследователями [82, 47].
• За последние 30 лет в мире произведено больше информации, чем за предшествующие 5000 лет.
• В мире ежедневно записывается около 20 миллионов слов технической информации.
• Средний менеджер прочитывает за неделю до 1 млн. слов.
• В мире ежедневно выходят в свет около 1000 наименований новых книг.
• Ежегодно в США публикуется более 9000 периодических изданий.
• Ежегодно в американских почтовых ящиках оказывается более 60 миллиардов рекламных листков.
• Еженедельное издание New York Times содержит больше информации, чем прочитывал за всю свою жизнь средний англичанин в 17 веке. Преимущества «эры информации» не бесспорны. Появился целый ряд новых терминов, связанных с современным состоянием системы «информация - коммуникационная среда - человек»: информационная перегрузка (information overload), информационное ожирение (information obesity), перепроизводство информации (information overproduction), инфобиологическая неадекватность (info-biological inadequacy) [44].
Последний термин означает несоответствие объема поступающей извне информации тому объему, который может воспринять центральная нервная система человека. Новейшим явлением представляется так называемый «синдром информационной усталости» (information fatigue syndrome) [44, 80], связанный с невозможностью человека справиться с непрерывно возрастающим объемом информации.
Несмотря на появление новых способов создания, обработки, хранения и поиска информации для потребителя проблема доступа к информационным ресурсам и получения релевантных документов обострилась. Это связано как с неограниченным ростом информационных массивов и распространением полнотекстовых баз и банков данных, так и с отходом от лексико-семантического принципа при информационном поиске. В условиях работы с банками данных неопределенных, фактически неограниченных, размеров проблема полноты информационного поиска практически снимается с повестки дня. Зато все острее встает вопрос о точности информации, ее ценности, адекватности потребностям. Исследование возможностей разных поисковых систем и разработка новых методик поиска информации в больших массивах данных - тематика ежегодных международных конференций TREC (Text REtrieval Conference), проводимых Национальным институтом стандартов и технологии (National Institute of Standards and Technology) США. Основное место на конференции TREC занимают доклады по методам автоматического ранжирования найденных документов, разработке критериев эффективности информационного поиска в разных системах, способам достижения наилучшего соотношения полноты и точности информационного поиска [72]. По нашему мнению, для решения последней задачи эффективным может оказаться семантический фильтр — информационно-поисковый тезаурус (ИПТ), или его современный вариант -семантическая сеть.
Поиск по неконтролируемому словарю приводит к гигантским размерам выдачи, колоссальному информационному шуму и потерям релевантных документов. На основании проведенных нами исследований [14] можно утверждать, что точность словарного информационного поиска в разных машинах составляет в среднем 10%. При этом поиск научно-технической информации по ключевым словам в ресурсах Интернет без выявления и использования парадигматических (иерархических и синонимических) отношений между терминами дает в 3,3 раза меньше пертинентных результатов, чем информационный поиск по тем же ресурсам с использованием выявленных парадигматических отношений, то есть для повышения качества поиска необходимо создание тематических тезаурусов, которые помогали бы пользователю при формулировке поискового предписания. В то же время поиск по логическим категориям в ресурсах Интернет ведет к потере значительной части релевантной информации, что объясняется ошибками автоматического индексирования и рубрицирования из-за несовершенства соответствующих классификаторов и каталогов, которые должны представлять собой модели областей знания, то есть являться, по сути, информационно-поисковыми тезаурусами. Таким образом, ИПТ актуальны как для словарного, так и для логического поиска в Интернет как средство формирования поисковой потребности, формулирования поисковых предписаний и адекватного автоматического индексирования и классифицирования.
Цель исследования: разработка теории и методики создания современных информационно-поисковых тезаурусов как средств повышения эффективности информационного поиска в Интернет. В качестве объекта анализа выступают тексты научно-технических публикаций в сфере безопасности инженерных систем.
Общая цель исследования конкретизируется в виде следующих задач:
1. Обоснование проблемы точности и полноты информационного поиска в полнотекстовых базах данных неограниченного объема.
2. Определение функции ИПТ в современных полнотекстовых базах данных.
3. Уточнение понятия информационно-поискового тезауруса применительно к поиску в полнотекстовых базах данных неограниченного объема.
4. Анализ существующих ИПТ и программ их составления и ведения.
5. Представление информационного поиска как психолингвистического процесса.
6. Представление информационно-поискового тезауруса как логико-психолингвистической модели области знаний.
7. Анализ парадигматических отношений между лексическими единицами в текстах и ИПТ различных тематических областей.
8. Типизация парадигматических ассоциативных отношений и определение набора парадигматических отношений для практического информационно-поискового тезауруса.
9. Разработка фрагментов ИПТ по безопасности инженерных систем.
10.Разработка методических рекомендаций для составителей локальных ИПТ — пользователей Интернет.
Научная новизна исследования заключается в следующем:
1. Впервые информационный поиск представлен как психолингвистических процесс.
2. Впервые информационно-поисковый тезаурус рассматривается как логико-психолингвистическая модель области знаний.
3. Уточнено понятие информационно-поискового тезауруса применительно к поиску в полнотекстовых базах данных неограниченного объема.
4. Определены функции ИПТ в современных полнотекстовых базах данных.
5. Впервые проведен подробный семантико-прагматический1 анализ системы парадигматических отношений применительно к текстам и практическому информационно-поисковому тезаурусу.
6. Предложена типизация ассоциативных (парадигматических) отношений в зависимости от типов взаимодействующих лексических значений.
7. Разработаны методические рекомендации для составителей практических локальных ИПТ - пользователей Интернет.
1 Под семантико-прагматическим анализом понимается анализ парадигматических отношений между дескрипторами ИПТ с точки зрения ассоциативной связанности их лексических значений, с одной стороны, и ценности того или иного типа отношений для информационного поиска, с другой стороны.
10
Заключение диссертация на тему "Исследование и разработка теории и методики построения тезаурусов для информационного поиска в полнотекстовых базах данных"
Основные результаты исследования заключаются в разработке теории и методики создания современных информационно-поисковых тезаурусов как средств повышения эффективности информационного поиска в Интернет. Поставленные в начале исследования задачи выполнены:
Теоретически и экспериментально доказано, что информационно-поисковый тезаурус может служить средством повышения точности поиска в полнотекстовых базах данных неограниченного объема.
На основе анализа существующих информационно-поисковых тезаурусов определены функции ИПТ в современных полнотекстовых базах данных.
Уточнено понятие информационно-поискового тезауруса применительно к поиску в полнотекстовых базах данных неограниченного объема.
Показано, что представление информационного поиска как психолингвистического процесса, а информационно-поискового тезауруса в виде логико-психолингвистической модели области знаний является теоретическим основанием использования ИПТ в качестве средства формирования, уточнения и выражения информационной потребности в процессе поиска.
На основе разработанного автором метода семантико-прагматического анализа проведен анализ парадигматических отношений между лексическими единицами в текстах различных тематических областей.
Предложена типизация парадигматических ассоциативных отношений, определен набор парадигматических отношений для практического информационно-поискового тезауруса.
Разработаны опытные иллюстративные фрагменты ИПТ по безопасности инженерных систем. Разработаны методические рекомендации для составителей локальных ИПТ — пользователей Интернет.
Подведем некоторые итоги. 1. При поиске в базах данных объемом в миллионы документов вопрос о качестве информационного поиска зачастую сводится к проблеме его полноты [68, с.421; 72; 79]. Но в этих условиях именно проблема точности должна выходить на первых план. Причем, необходимым средством повышения точности поиска в полнотекстовых базах данных неограниченного объема является информационно-поисковый тезаурус.
Информационно-поисковый тезаурус, используемый в полнотекстовых базах данных с неограниченным объемом, можно определить как идеологический словарь, с эксплицитно выраженными парадигматическими отношениями между лексическими единицами, который может рассматриваться как логико-психолингвистическая модель определенной области знания, или база знаний, и который служит для автоматического индексирования документов, а также для формирования, уточнения и выражения информационной потребности и формулирования информационного запроса (предписания) с целью повышения эффективности поиска.
В проведенном нами эксперименте [14] поиск научно-технической информации по ключевым словам в ресурсах Интернет без выявления и использования парадигматических (иерархических и синонимических) отношений между терминами дал в 3,3 раза меньше пертинентных результатов, чем информационный поиск по тем же ресурсам с использованием выявленных парадигматических отношений. С другой стороны, квалифицированный автоматизированный поиск по логическим категориям оказался невозможен без точного определения предметной области и был затруднен некорректным рубрицированием документов в поисковых массивах Интернет. Данные нашего эксперимента согласуются с результатами других исследований [48, с.84; 71, с. 13]. Следовательно, необходимо создание подробных логическо-семантических моделей областей знаний, то есть информационно-поисковых тезаурусов, или семантических сетей, предназначенных для помощи в формулировке информационной потребности, составления и коррекции информационных предписаний, автоматического индексирования (реферирования) документов в процессе поиска с целью сужения области поиска, автоматического рубрицирования документов при отнесении их к той или иной логической категории поискового массива (предметной области).
Информационно-поисковый тезаурус — это то средство, которое может повысить эффективность как словарного, так и логического поиска в полнотекстовых базах данных неограниченного объема.
2. Информационно-поисковые тезаурусы предоставляют пользователю информационно-поисковой системы структурированные фрагменты экстралингвистических знаний через экспликацию парадигматических отношений между лексическими единицами и, соответственно, между обозначаемыми ими понятиями. Информационно-поисковый тезаурус можно с достаточным основанием считать как моделью фрагмента лексико-семантической системы естественного языка, так и моделью предметной области знаний, или базой знаний - как общей, распределенной, так и индивидуальной. Эта модель может рассматриваться в качестве логико-лингвистической основы процесса информационного поиска, причем, таких моделей можно, в принципе, построить сколь угодно много для одной и той же тематической области.
В то же время, множество психологических моделей семантической организации памяти [7, с.80, с.93-94, с. 123-130] принципиально сводимы к модели (семантической карте) тезауруса. Таким образом, можно утверждать, что информационно-поисковый тезаурус является не только логико-лингвистической, но и психологической моделью репрезентации знаний. В этом смысле вполне обосновано использование ИПТ как средства формирования и выражения информационной потребности в процессе поиска информации. Причем, в терминах кластерного представления тезауруса и индивидуальной базы знаний информационную потребность можно интерпретировать как некое ощущение незаполненной ячейки в структуре знаний.
Каждый полнотекстовый документ можно представить как минимальную индивидуальную базу знаний автора. Информационный поиск увенчается успехом тогда, когда потребность, сформированная на основе индивидуальной базы знаний пользователя, будет удовлетворена средствами индивидуальной базы знаний автора. Посредником в процессе информационного поиска может выступить достаточно полный и подробный конкретный тезаурус, который позволит пользователю сформулировать свою информационную потребность в терминах данной предметной области.
3. Как показывает практика [14; 46; 48; 71], чем сложнее языковая среда, в которой работает информационно-поисковая система, тем совершеннее должен быть лингвистический аппарат поддержки информационного поиска, тем полнее и точнее должна быть сконструирована логико-психолингвистическая модель соответствующей области знаний. То есть, для обеспечения качества информационного поиска в полнотекстовых базах данных необходимо создание ИПТ, как можно точнее моделирующих ассоциативные (парадигматические) отношения между лексическими единицами. Современные тезаурусы, предназначенные для автоматического индексирования, должны гораздо конкретнее эксплицировать предметную область, чем соответствующие тезаурусы для ручного индексирования, поскольку при автоматическом индексировании исключаются логико-лингвистические и предметные (экстралингвистические) знания человека.
Обобщая представление о системе парадигматических отношений, подлежащих экспликации в информационно-поисковых тезаурусах разных областей науки, отметим, что из класса условной эквивалентности обязательно должны присутствовать в ИПТ независимо от его тематики собственно синонимы, квазисинонимы с общими денотатами и пересекающимися понятиями, а также синтаксические, орфографические и часть деривационных условных эквивалентов - все с общими денотатами, объединенные объектно-субъектными отношениями. Независимо от тематики ИПТ в него обязательно включаются дескрипторы, находящиеся в родо-видовых и меронимических (партитивных) отношениях, также основанных на объектно-субъектных лексико-семантических связях. То же можно сказать о других концептуальных и дефинициальных отношениях и связях типа «причина — следствие», «действие - цель», «объект — объект», «свойство — свойство».
Корреляции типов парадигматических отношений между терминами в зависимости от предметной области имеют тенденцию к преобладанию более строгих и менее разнообразных отношений в области точных и естественных наук по сравнению с гуманитарными. В то же время, безусловно, самыми важными для любой предметной области оказываются синонимические и родо-видовые отношения; это подтверждает вывод специалистов Американской библиотечной ассоциации о том, что 60% словарных пар в тезаурусах строятся на концептуальных отношениях [52].
Для практического информационно-поискового тезауруса избыточными могут оказаться не только 215 типов парадигматических отношений (согласно списку Американской библиотечной ассоциации [52]), но и выделенные нами первоначально с помощью метода семантико-прагматического анализа 43 типа. Слабо мотивированные логико-семантические связи квалифицируются экспертами как один - два распространенных типа. Поэтому, по всей видимости, нет необходимости включать их в перечень парадигматических отношений, рекомендованных к отображению в тезаурусе. Однако окончательный вывод о наборе парадигматических отношений для практического ИПТ возможен только после дополнительных исследований.
4. Использование тезауруса в полнотекстовых базах данных наиболее эффективно при постоянной модернизации тезауруса, его интеграции в базу данных и соответствующем уровне тематической специализации. Именно эти условия обеспечивают функционирование информационно-поискового тезауруса как модели области знаний и средства повышения качества поиска. Причем, более детально разработанная модель, то есть более специализированный тезаурус, позволяет добиться более высокой точности поиска [58, с.112]. Отметим, что снижение при этом полноты поиска для современных баз данных с неограниченным объемом не является чем-то существенным при условии, что информационный поиск имеет своей целью подбор информации по определенному запросу, а не поиск аналогов, например, патентов или полезных моделей. В последнем случае полнота информационного поиска становится непреложным условием.
Задача разработки ИПТ как специального информационно-поискового средства предусматривает отображение содержания конкретного массива документов в конкретном тезаурусе. Такой подход к построению ИПТ позволяет применять тематический тезаурус в поиске научно-технической информации в полнотекстовых базах данных неограниченного объема. Информационно-поисковый тезаурус, представляющий собой базу знаний конкретной предметной области, будет способствовать повышению точности поиска по данной тематике в информационных ресурсах Интернет.
5. Типизация ассоциативных отношений способствует решению общенаучной гносеологической задачи - репрезентации знаний в больших банках данных путем каталогизации информационного массива на основе ИПТ.
ЗАКЛЮЧЕНИЕ
Библиография Жмайло, Светлана Васильевна, диссертация по теме Теоретические основы информатики
1. Азарова И. В., Митрофанова О. А., Синопальникова А. А. Компьютерный тезаурус русского языка типа WordNet http://www.dialog-21.ru/dialog.asp?page=26362&parentmenuid=711-60 kb.
2. Архангельская В. А., Базарнова С. В. Информационно-поисковый тезаурус по экономике и демографии. // НТИ. Сер. 1. - 2001. - №7. - С.24-32.
3. Бахнарь В. И. Система в лексике и словаре. // Сочетание лингвистической и внелингвистической информации в автоматическом словаре: Материалы Всесоюзной школы-семинара. Ереван: Изд-во АН АССР. — 1987.
4. Белоозеров В. Н., Косарская Ю. П. Опыт разработки словаря с разветвленной системой тезаурусных связей. // НТИ. Сер.2. - 2001. - №8. - С.28-31.
5. Березин Ф. М., Головин Б. Н. Общее языкознание. М: Просвещение, 1979.
6. Бэн А. Психология. // Сб. Основные направления психологии в классических трудах: Ассоциативная психология. М.: АСТ-ЛТД, 1998.
7. Гейвин, Хелен. Когнитивная психология. М.: Питер, 2003.
8. Городецкий Б. Ю. Теоретические основы прикладной семантики: Автореферат диссертации на соискание научной степени доктора филологических наук. — М., 1978.
9. ГОСТ 7.25-2001. Система стандартов по информации, библиотечному и издательскому делу: Тезаурус информационно-поисковый одноязычный: Правила разработки, структура, состав и форма представления. М.: Издательство стандартов. - 2001.
10. Даниленко В. П. Русская терминология: Опыт лингвистического описания. — М.: Наука, 1977.
11. П.Жмайло С. В. Анализ массива публикаций по теме «Тезаурус» в базе данных «Информатика» ВИНИТИ. // НТИ. Сер. 1. - 2004. - №3. - С.24-26.
12. Жмайло С. В. К вопросу об определении тезауруса. // НТИ. Сер.1. - 2003. - №12. -С. 20-25.
13. Жмайло С. В. К разработке современных информационно-поисковых тезаурусов. // НТИ. Сер. 1. - 2004. - №1. - С.23-31.
14. Жмайло С. В. Опыт исследования эффективности поиска научно-технической информации в сети Интернет. ВИНИТИ. - М., 200- Деп. в ВИНИТИ РАН ~
15. Информационно-поисковый тезаурус ИНИОН по экономике и демографии. М.: ИНИОН РАН, 2001.
16. Капустин В. Поиск информации в Интернете. // Мир Internet. 1998. -№9. - С.54-59.
17. Кобрин Р. Ю. Лингвистическое описание терминологии как база концептуального моделирования в информационных системах: Автореферат диссертации на соискание ученой степени доктора филологических наук. — Л., 1989.
18. Ладенко И. С. Интеллектуальные системы и логика. Новосибирск: Наука, 1973.
19. Лапшин П. Б. Новости в сфере поисковых систем Интернета. // НТИ. Сер.1. - 2003. -№12. - С.1-8.
20. Леонтьев А. А. Основы психолингвистики. — М.: Смысл, 2003.
21. Лукашевич Н. В., Добров Б. В. Тезаурус для автоматического концептуального индексирования как особый вид лингвистического ресурса. http://www.dialog-21.ru/Archive/2001/volume2/238.htm.
22. Мартинович Г. А. Типы вербальных связей и отношений в ассоциативном поле -http://www.voppsyl.ni/4y/ISSUES/l 990/902/902143. php.
23. Михайлов А. И., Черный А. И., Гиляревский Р. С. Основы информатики. М.: Наука, 1968.
24. Московии В. А. Лексико-семантическая система естественного языка и информационные языки: Автореферат диссертации на соискание ученой степени доктора филологических наук. Л., 1971.
25. Назе А., Мдивани Р. Р., Базарнова С. В., Зуккер Д., Магай Е. В., Шотт X. Многоязычный тезаурус как интегрированный инструмент поиска в базах данных. // Теория и практика общественно-научной информации. 1997- Вып.13.
26. Немов Р. С. Психология. Книга 1. Общие основы психологии. М.: Владос, 2001.
27. Семиотика. Ред. Степанов Ю.С. http//lib.wsu.ru/books.
28. Скороходько Э. Ф. Лингвистические основы автоматизации информационного поиска: Автореферат диссертации на соискание ученой степени доктора филологических наук. Киев, 1972.
29. Солсо, Роберт. Когнитивная психология. С.-Петербург: Питер, 2002.
30. Спенсер Г. Основания психологии. // Сб. Основные направления психологии в классических трудах: Ассоциативная психология. М.: АСТ-ЛТД, 1998.
31. Станиславская Э. В. Парадигматические отношения в отраслевых дескрипторных информационно-поисковых тезаурусах (на базе строительства и архитектуры): Автореферат диссертации на соискание ученой степени кандидата педагогических наук.-Л., 1975.
32. Табанакова В. Д. Семантизация термина в одноязычных терминологических словарях: Автореферат диссертации на соискание ученой степени кандидата филологических наук. Л., 1981.
33. Терминологический словарь по информатике. М., 1975.
34. Финн В. К. Логические проблемы информационного поиска. М.: Наука, 1976.
35. Фреге Г. О смысле и значении // В сб. Логика и логическая семантика. М., 2000.
36. Фреге Г. Размышления о смысле и значении // В сб. Логика и логическая семантика. М„ 2000.
37. Фрумкина Р. М. Психолингвистика. М.: ACADEMA, 2001.
38. Фрумкина Р. М. Статистические методы изучения лексики. М.: Наука, 1964.
39. Циген Т. Физиологическая психология в 14 лекциях. // Сб. Основные направления психологии в классических трудах: Ассоциативная психология. М.: АСТ-ЛТД, 1998.
40. Черный А. И. Введение в теорию информационного поиска. М.: Наука, 1975.
41. Черный А. И. О логических принципах построения УДК и информационно-поисковых языках дескрипторного типа // НТИ. Сер. 2. - 2004. — №1. - С. 1-9.
42. Черный А. И. Общая методика построения тезаурусов // НТИ. Сер.2. - 1968. — №5. -С.9-33.
43. Эббингауз Г. Очерк психологии. // Сб. Основные направления психологии в классических трудах: Ассоциативная психология. М.: АСТ-ЛТД, 1998.
44. Akin, Lynn. Information Fatigue Syndrome. Malady? Or Marketing? -http://www.org. 1 st.com/research/6.htm-1 Okb
45. American National Standard ANSI/NISO Z39.19-1993 Bethesda, Maryland, U.S.A.: NISO-Press, 1993.
46. Batty, David. Controlled vocabulary and thesauri in support of online information access. // D-Lib Magazine. 1998. - November.
47. Bird, Maryann. Information Fatigue Syndrome,System Overload. http://www.serv-inf.deusto.es/abaitua/konzeptu/fatiga.htm - 15kb
48. Clarke, Sarah J. Search Engines for the World Wide Web: An Evaluation of Recent Developments. // Journal of Internet Cataloging. 2000 - Vol.20 -№3/4. — Pp. 81-93.
49. Doerr M. Semantic Problems of Thesaurus Mapping. — http://jodi.esc.soton.ac.uk/Articles/v01/
50. Edmonds, Philip; Hirst, Graeme. Near-synonymy and Lexical Choice. -http://acl.ldc.upenn.edU/J/J02/J02-2001.pdf ISO 2788:1986 Documentation: Guidelines for the establishment and development of monolingual thesauri.
51. Enciclopedia of Library and Information Science. Vol.2. Associat. To Book World. Eds. Allen Kent and Lancour. New-York - London: Marcel Dckker, 1969. - 707pp.
52. Final Report to the ALCTS/CCS Subject Analysis Committee -http://www.ala.org/ala/alctscontent/catalogingsection/catcommittees/subjectanalysis/subje ctrelations/finalreport
53. Hirst, Graeme. Near-synonymy and the structure of lexical knowledge. -http://www.cs.toronto.edu/pub/gh/Hirst-NearSynonyms-95.pdf
54. Hunter, Eric. Do we still need classification? // В сборнике "The future of classification" / Edited by Rita Marcella and Arthur Maltby. U.S.A. Vermont: Published by Gower. -2000.-Pp. 1-17.
55. ISO 2788:1986 Documentation: Guidelines for the establishment and development of monolingual thesauri. http//www.nlc-bnc.ca/iso/tc46sc9/standard/2788e.htm
56. ISO 5964:1985 Documentation: Guidelines for the establishment and development of multilingual thesauri. http//www.nlc-bnc.ca/iso/tc46sc9/standard/5964e.htm
57. Kosovac, Branca. Internet/Intranet and Thesauri. — http://sunsite.berkeley.edu/~path/.
58. Lancaster F. W. Vocabulary Control for Information Retrieval. Washington, D.C.: Information Resources Press, 1972.
59. Lancaster, F. W.; Warner, A. J. Information Retrieval Today. — Washington, D.C.: Information Resources Press, 1993.
60. Legislative Indexing Vocabulary (LIV). http://thomas.loc.gov/liv/livtoc.html.
61. Luhn H. P. Pioneer of Information Science: Selected Works. Ed. Claire K. Schultz. -New York: Spartan Books, London: Macmillan & Co, 1968.
62. Meadow, С. Т., Boyce, B. R., Kraft D. H. Text Information Retrieval Systems. U.S.A.: Academic Press, 2000.
63. Meadow, С. T. Online Searching. U.S.A.: John Wiley & Sons, 1981.
64. Meadow, С. T. The Analisys of Information Systems. U.S.A., L. Angeles: Melvelle Published Company, 1973.
65. Milstead, Jessica L. NISO Z39.19: Standard for Structure and Organization of Information Retrieval Thesauri. http://dataserver.calacademy.org/taf7proceedings/milsteadtaf.html.
66. Milstead, Jessica L. Use of Thesauri in the Full-Text Environment.// Proc.of the 34th Annual Clinic on Library Applications of Data Processing. March 2-4, 1997. — http://www.angelfire.com/ks/KA/Thesaurus.html
67. Moukdad H., Large A. Users' perceptions of the Web as revealed by transaction log analysis. // Online Information Review. 2001. - Vol.25. - №6. - Pp.349-358.
68. Rockland R. H. Reducing the Information Overload: A Method on Helping Students Research Engineering Topics Using the Internet. // IEEE Transactions on Education. -November 2000. Vol.43. - №4. - Pp.420-425.
69. Salton G., McGill M. Introduction to Modern Information Retrieval. U.S.A.: McGraw-Hill Book Company, 1983.
70. Soergel, Dagobert. Indexing Languages and Thesauri: Construction and Maintenance. -U.S.A., L. Angeles: Melville Company, 1974.
71. Text Retrieval Conference (TREC): Публикации Ежегодной международной конференции TREC. http://www.itl.nist.gov/iaui/894.02/works/presentations.html
72. The Smart Media Institute a centre for advanced research in the Department of Computer Science at University College Dublin. - http://www.cs.ucd.ie
73. Thesaurus Guide: Analytical directory of selected vocabularies for information retrieval. -Luxembourg: Office for official Publications of the European Communities, 1985.
74. Thesaurus Information. American Society of Indexers. -http://www.asindexing.org/site/thesauri.shtml.
75. Tudhope D., Alani H., Jones C. Augmenting Thesaurus Relationships: Possibilities for Retrieval. // Journal of Digital Information Vol.1. - Issue 8. - 2001-02-05 -http://jodi.esc.soton.ac.uk/Articles/v01/i08/Tudhope
76. Vickery В. C. Classification and Indexing in Science. London: Butterworth, 1975.
77. Vickery, В. C., Vickery, A. Information Science in Theory and Practice. U.S.: Butterworths, 2000.
78. Voorbij, Henk J. Searching Scientific Information on the Internet: A Dutch Academic User Survey. // Journal of the American Society for Information Science. 1999. - Vol.50. - №7. - Pp.606-607.
79. Waddington, Paul. Dying for information? A Report of the Effects of Information Overload in the UK and Worldwide. http://www.cni.org/regconts/1997/ukonl-content/report~l 3.html -15 kb
80. Willliamson, Nancy J. Knowledge structures and the Internet. // Knowledge organization for information retrieval: Proc. Of the Sixth international study conference on classification research. London. - June 16-18,1997.
81. Winquist-Galbe, Nina. When less is more. Data Smog: Info as Pollutant, not Currency. -http://www.valt.helsinki.fi/comm/argo/anetOO/data.htm 16 kb
-
Похожие работы
- Математическое и программное обеспечение полнотекстового поиска в базах данных на основе концептуального моделирования
- Разработка метода автоматического формирования рубрикатора полнотекстовых документов
- Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов
- Система управления полнотекстовыми электронными изданиями в научной библиотеке
- Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность