автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Информационный запрос и его представление для поиска в библиографических и реферативных базах данных
Автореферат диссертации по теме "Информационный запрос и его представление для поиска в библиографических и реферативных базах данных"
Российская академия наук Министерство науки и технологий
Российской Федерации
¿4. ВСЕРОССИЙСКИЙ ИНСТИТУТ НАУЧНОЙ • СГ?_И ТЕХНИЧЕСКОЙ -ИНФОРМАЦИИ _
На правах рукописи УДК 002.009.7: 303.6
БАРЫШЕВА Ольга Владимировна
ИНФОРМАЦИОННЫЙ ЗАПРОС И ЕГО ПРЕДСТАВЛЕНИЕ ДЛЯ ПОИСКА В БИБЛИОГРАФИЧЕСКИХ И РЕФЕРАТИВНЫХ БАЗАХ ДАННЫХ
05.13.17-Теоретические основы информатики
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук
Москва 1997
Работа выполнена во Всероссийском институте научной и технической информации Российской академии наук и Министерства науки и технологий Российской Федерации.
Научный руководитель: доктор филологических наук, профессор ГИЛЯРЕВСКИЙ Руджеро Сергеевич
Официальные оппоненты: доктор филологических наук
КОЛЧИНСКИЙ Марк Львович кандидат филологических наук РАХИЛИНА Екатерина Владимировна
Ведущая организация: Институт русского языка
им. В.В. Виноградова РАН
Защита состоится "19" ноября 1997 г. в 10 часов на заседании диссертационного совета Д 003.02.01 во Всероссийском институте научной и технической информации (125219, Москва, ул. Усиевича 20, ВИНИТИ).
С диссертацией можно ознакомиться в библиотеке ВИНИТИ. Автореферат разослан "_" октября 1997 г.
Ученый секретарь диссертационного совета
доктор биологических наук, профессор М. А. Каменская
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Одна из ключевых проблем информатики - проблема информационного поиска становится все более значимой для всей системы общественной коммуникации и, в частности, для научной информации. Сегодня необходимым условием нормального развития всех сфер человеческой деятельности является нахождение нужной информации в кратчайшие сроки. Специалисты различных отраслей знания занимаются разработкой методов и средств обеспечения информационного поиска. Однако решение отдельных задач еще не есть гарантия успеха всего процесса. Приоритет в постановке общей цели, определении конкретных путей ее достижения должен по-прежнему принадлежать информатике. Информационный поиск представляет собой акт коммуникации, в процессе которого в ИПС вводится информационный запрос, выражающий информационную потребность. Результат поиска в большой степени зависит от того, насколько точно и грамотно сформулирован запрос.
В начале 60-х гг. уже были определены основные недостатки информационных запросов (полисемия, синонимия, омонимия), но до сих пор актуальной остается задача их обнаружения и исправления. Методы, первоначально предлагаемые для ее решения, были ориентированы на имевшиеся тогда, преимущественно традиционные (ручные) или механизированные ИПС. С появлением автоматизированных информационно-поисковых систем возникают новые способы обработки информационных запросов. Создаются специальные прикладные программы, разрабатываются новые интерфейсы, лингвистические процессоры и экспертные системы.
Практически, работа ведется в двух направлениях: 1) совершенствуются лингвистические процессоры, нацеленные на предпоисковый автоматизированный семантический анализ запросов (типа AQUA - A QUery Analyzer); 2) предпринимаются попытки определить типо-видовую структуру информационных потребностей различных категорий потребителей информации (по специализации) и на ее основе создавать модели наиболее вероятных запросов, предсказывая их содержательное наполнение. В последние годы исследования потребностей пользователей разных информационно-поисковых систем и баз данных, в основном полнотекстовых, проводятся американскими информатиками Н. Белкиным, П. Кантором, П. Нельсоном и др. в рамках регулярных конференций по текстовому поиску TREC (Text REtrieval Conference).
Применяемые методы не оправдывают себя в полной мере. Следует обратить внимание не только на содержание информационных запросов,
но и на их структуру, а также проследить изменение и определить зависимость выдачи от структуры и способа представления информационного запроса.
Критерии оценки результатов поиска, предложенные пионерами информатики, — релевантность и пертинентность - становятся сегодня все более размытыми, чему способствует также терминологическое и межъязыковое несоответствие выражения этих понятий. Недостаточная четкость определения элементов информационного запроса, его параметров для автоматизированной обработки, а также слабая изученность структуры информационных запросов и возможных способов ее унификации снижает эффективность информационного поиска и, соответственно, обедняет возможности освоения мирового информационного пространства. Предварительный анализ показал, что только 21 % запросов можно классифицировать как не требующие дополнительной предпоисковой обработки, а выдача на них более чем в 2 раза отличается по сравнению с выдачей на запросы (79 %), нуждающиеся в формальной или содержательной корректировке. Постановка вопроса о том, как должен формулироваться информационный запрос и как его можно оценить, необходима, далее если окончательное решение проблемы пока и недостижимо. Учитывая массовый спрос на материалы электронных изданий разного вида и отраслевого профиля, улучшение методов поиска становится одной из наиболее актуальных тем.
Анализ информационных запросов до сих пор проводился в связи с выявлением функциональной эффективности информационного поиска и отдельных групп ИПС и редко становится предметом самостоятельных разработок. В 1986-1988 гг. были защищены кандидатские диссертации К. Г. Ка-рапетяна, А. Б. Мыльникова, До Суан Тхо, П. JI. Выханду, в которых на базе отечественных ЭВМ 2-го поколения рассматривались технические методы оптимизации запросов и представления информации в базах данных комплексных АСУ. В диссертациях на соискание ученой степени кандидата филологических наук И. В. Литвиненко и Т. Е. Янко лингвистический компонент в запросах и модели перевода с естественного языка на язык баз данных изучались применительно к фактографическим базам данных и созданию человеко-машинного интерфейса. Нами предпринято исследование этой проблемы на основе изучения синтаксической структуры запросов для поиска в современных библиографических и реферативных базах данных на CD-ROM, т. е. базах со структурированными данными, что определяет его новизну.
Целью настоящей диссертации является разработка методов представления информационных запросов, обеспечивающих при поиске в библио-
графических и реферативных базах данных выдачу с максимальной точностью, а также полнотой, удовлетворяющей потребителя информации.
Для реализации этой цели в диссертационном исследовании решаются следующие задачи:
1) изучение языковой природы информационного запроса как одного из компонентов системы общественной коммуникации - процесса информационного поиска;
2) обнаружение основных типов нарушений в первоначальных формулировках информационных запросов;
3) выявление способов представления информационного запроса, обусловленных его природой и функциями, на разных этапах процесса коммуникации;
4) определение методов и спектра предпоисковых преобразований информационного запроса;
5) изучение процесса преобразования информационного запроса в формулу поиска с использованием булевых операторов;
6) установление основных и производных типов формального представления поисковых предписаний для поиска в библиографических и реферативных базах данных.
Постановка таких задач обусловила основной метод исследования -комплексный анализ информационных запросов, сочетающий изучение количественных характеристик запросов, их синтаксической структуры, изменения показателей выдачи.
Основным материалом стали 4 массива реальных информационных запросов (всего 565), выбранных произвольно в процессе практики информационно-библиографической и библиотечной работы. В ряде случаев привлекались для сравнения материалы из специальной литературы.
Научно-практическая значимость работы. Выводы и наблюдения автора диссертации, теоретические положения и приведенный фактический материал могут быть применены для дальнейшего изучения информационных запросов и потребностей, при построении общих и специальных курсов лекций по информатике, в учебных пособиях. Практическое значение исследования определяется тем, что в нем предлагаются методы анализа и способы корректировки информационных запросов вне зависимости от их содержания. Разработанная методика может быть использована при обучении пользователей, сотрудников информационных служб и библиотек работе по поиску в автоматизированном режиме.
Апробация. Основные положения диссертации обсуждались на семинарах Отделения теоретических исследований по проблемам информатики
ВИНИТИ РАН и Миннауки, на научно-практической конференции "Современные пользователи автоматизированных информационно-библиотечных систем: Проблемы обслуживания, изучения и обучения" в Российской национальной библиотеке (Санкт-Петербург, 25-26 марта 1997), а также на 5-й Конференции с международным участием по искусственному интеллекту (КИИ-96, Казань, 5-8 октября 1996).
Структура диссертации. Диссертация состоит из введения, двух глав -"Способы представления информационного запроса" и "Представление запросов для поиска в автоматизированных ИПС", заключения, списка использованной литературы (137 названий).
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
В диссертации даны основные характеристики информационного запроса, определена его роль в процессе коммуникации, степень связи с потребителем информации, особенности языкового воплощения (с точки зрения типологии языков науки) и форма физического существования:
• информационный запрос является компонентом процесса информационного поиска, т. е. одной из составляющих системы научной коммуникации;
• свойством информационного запроса является его прямая связь с потребителем информации;
• функционирование информационного запроса в поисковой среде предполагает его фиксацию на физическом носителе;
• информационный запрос является формализованным высказыванием естественного языка, иначе - высказыванием на языке для специальных целей / подъязыке какой-либо науки (LSP - language for special purposes).
Произведена предварительная разбивка запросов по степени их пред-поисковой обработки на первичные (требующие или не требующие корректировки) и окончательные, определены главные группы дефектов формулировок информационных запросов. К ним относятся: ненамеренная избыточность, недостаточность, нарушение правил сочетания.
Цель выявления и устранения дефектов - выделение поля информационного запроса, которое определено нами как часть лексико-семантичес-кого поля той науки, разделу которой посвящен конкретный запрос. Поскольку запрос является высказыванием подъязыка конкретной науки, объемы содержания его понятий являются частью семантического поля данной науки. Их принадлежность к определенной части лексического поля проявляется при фиксации семантических элементов в словах запроса. При этом интенция и экстенция запроса как характеристики его поля не должны превышать объема лексико-семантического поля той науки, высказыванием которой является информационный запрос.
Отнести элемент информационного запроса к разряду недостатков можно только после определения его принадлежности к полю запроса. Это связано, в основном, с распознаванием явлений синонимии и полисемии. Например, многозначных слов не должно быть внутри поля запроса. Синонимы, напротив, допускаются и иногда даже необходимы, но лишь в пределах поля; умышленная / намеренная избыточность (intentional redundancy) рассматривается как один из основных признаков полирепрезентации.1
1 Ingwersen P. The Cognitive Perspective in IR // International Forum on Information and Documentation. - 1994. - V. 19, n. 2. - P. 25-32.
Обобщение основных характеристик представлено в работе в виде определения информационного запроса как единицы информационного общения, имеющей синтагматическое построение и эксплицируемой в форме словосочетания, семантико-синтаксическая структура которого изоморфна структуре информационной потребности.
Отдельный раздел диссертационного исследования посвящен выявлению компонентов, природы и функций информационного запроса. Предлагается выделять прагматический (поисковый), семантический (содержательный) и синтаксический компоненты запроса, причем синтаксический компонент рассматривается как единство лингвистического синтаксиса (или синтаксиса ЬБР) и информационного синтаксиса (или синтаксиса ИПЯ). Прослежена зависимость компонентов информационного запроса от его природы, определяемой как двуединство информационной природы (с которой связано наличие поискового компонента) и природы лингвистической (с ней связано наличие содержательного компонента).
Анализ компонентной структуры информационного запроса позволяет констатировать наличие двух основных его функции: 1) номинативно-дефинитивной (запрос призван отразить с максимальной точностью интересующий потребителя информации участок поля науки); 2) коммуникативной (запросом инициируется получение ответа, параметры содержания которого заданы). От их выполнения зависит степень удовлетворения потребителя таким диалогом. При этом важно, чтобы диалог происходил на одном и том же языке в пределах одного и того же предметного поля.
При преобразовании информационного запроса в формулу поиска в среде формализованного естественного языка "наряду с обычными правилами, действующими в отношении письменной речи, применяются дополнительные правила, учитывающие специфические требования технологии обработки информации".2 На разных стадиях преобразования информационный запрос может быть представлен многими способами. Способы представления информационных запросов разделены нами на две группы в зависимости от языкового воплощения запроса: лингвистические (ЬБР) и информационные (ИПЯ). Изучение каждого из них производилось с целью определить элементы возможной формализации, что обусловило дальнейшее деление способов представления на линейное и структурное. Для обобщения результатов, наряду с реальной использована форма формального представления запросов.
Лингвистическое представление соответствует форме информационного запроса (высказывания ЬБР) до его перевода на ИПЯ. Информацион-
: Белоногов Г. Г., Котов Р. Г. Автоматизированные ИПС. - М., 1968.
ное представление соответствует форме поискового образа запроса / формулы поиска. ПОЗ - это высказывание ИПЯ, представляющее собой адекватный перевод высказывания LSP.
Линейное представление соответствует форме семантической цепочки, графическая фиксация которой происходит в виде последовательности синтаксически связанных лексических единиц. Первичный и окончательный информационный запрос всегда имеет линейное представление. Структурное представление понимается нами как представление элементов запроса с точки зрения организации логико-синтаксических связей между ними.
Если при переводе запроса в ПОЗ сохранить внутреннюю логическую структуру запроса (синтаксис LSP) в виде внутренней структуры формулы поиска (синтаксиса ИПЯ), можно избежать повторных сессий поиска, неизбежных при неоправданно большой или нулевой выдаче.
Для предпоисковой оценки запросов мы предлагаем использовать понятие "релевантность" (die Relevanz, relevance, relevancy) в значении более близком к общеязыковому {соответствие, зависимость), чем к терминологическому. В данной работе применяется собственное рабочее определение релевантности как меры содержательной связи взаимозависимых элементов информационного поиска (потребность - запрос -поиск - выдача).
Возможность такого определения в контексте диссертации подкрепляется материалами сравнительного анализа употребления термина "релевантность" в практике современной информатики. Введенный для оценки эффективности информационного поиска, этот термин первоначально понимался как "определенное сходство между смыслом или содержанием документа и смыслом или содержанием запроса" 3 (сравни: "соответствие содержания документа информационному запросу").4 В современных работах по теории информационного поиска его можно встретить в непривычном, нетрадиционном контексте. Границы употребления стали значительно шире узко терминологических в связи с расширением самой сферы применения термина.
Для того, чтобы удовлетворять условиям релевантности (в предложенном значении), информационный запрос должен верно отражать информа-
! Taube М. A note on the pseudo-mathematics of relevance // American Documentation. -1965.-Vol. 16, N2.-P. 71.
4 Терминологический словарь по библиотечному делу и смежным отраслям знания / Сост.: 3. Г. Высоцкая, В. А. Врубель, А. Б. Маслов, Л. К. Розентильд; РАН. БЕН. - М., 1995.
ционную потребность, с одной стороны, и соответствовать требованиям, предъявляемым информационно-поисковой системой (особенности технологии обработки и структурирования данных), с другой.
Благодаря возможностям глобальных и локальных сетей современный потребитель информации получает доступ ко всему набору существующих баз данных. Становясь активным пользователем различных информационных систем, а не только потребителем информации, сегодняшний специалист, кроме умения ориентироваться в Internet и других информационных сетях, должен научиться "разговаривать" с базами данных на одном языке, т. е. прежде всего, научиться формулировать свои информационные запросы. "Два индивидуума могут вступать в коммуникацию друг с другом в той степени, в какой их языки являются похожими".5 Мы не пошли по пути анализа поисковых возможностей каких-либо конкретных баз данных, руководствуясь тем, что принципы создания формул поиска с помощью булевых операторов или (реже) весовых коэффициентов являются общими для большинства библиографических и реферативных баз данных.
На основании сделанных заключений нами выдвинута гипотеза о том, что любой семантически однозначный информационный запрос может быть преобразован в такую формулу поиска, взаимоположение логических операторов которой будет проекцией синтаксических связей первичного запроса.
Сегодня специалистам в области информационного поиска предлагаются три основных метода, которые можно применить для предпоисково-го анализа запросов:
♦ семантический анализ, который реально используется, но результативность его пока еще достаточно низка; активно создается программное обеспечение, дающее возможность проводить его автоматически;
Ф синтаксический анализ (на базе теории порождающих грамматик Н. Хомского), методика которого разрабатывается, в основном, для работы с полиотекстовыми базами данных;
Ф семантико-синтаксический анализ, который как комплексный метод на практике не используется; его заменяет последовательное проведение семантического, а затем, по необходимости, синтаксического анализа.
Нам представляется, что комбинация методов семантики и синтаксиса должна давать наилучшие результаты, но предпоисковую обработку запросов лучше начинать с синтаксического анализа, который позволяет выявить дефектные элементы и, удалив их, свести к минимуму количество элементов, которым необходим семантический анализ.
5 Хомский Н. Язык н проблемы знания // Вестник МГУ. Сер. 9. Филология. 1996. N 2. С. 103-121.
Материалы зарубежных и отечественных исследований, а также наши собственные данные подтверждают мнение о том, что целью предпоиско-вого анализа информационного запроса является определение пригодности информационного запроса для поиска в автоматизированной ИПС, а также количества и направления преобразований, необходимых для его перевода в поисковое предписание.
После устранения всех выявленных дефектов и нахождения соответствующих элементам LSP элементов ИПЯ информационный запрос приобретает окончательное представление в виде формулы поиска, состоящей из элементов ПОЗа (лексики ИПЯ) и маркеров связи (синтаксиса ИПЯ -булевых операторов) между ними.
Для подтверждения главных положений диссертации нами произвольно выбраны из рабочей среды и проанализированы 4 массива реальных информационных запросов.
Характеристика массивов:
Первые два массива образуют запросы для ручного поиска в традиционном режиме. Для большей достоверности общей картины Массив 1 выделен в количестве 315 запросов без каких-либо тематических, структурных и других ограничений. Для дальнейшего анализа, ориентируясь на поставленные задачи, при отборе в Массив 2 (120 запросов) упор делался на сложность их структур и разницу количественных характеристик. Массив 3 составляют 110 запросов для комбинированного поиска в автоматизированном и / или традиционном режиме без ограничений по каким-либо признакам. Массив 4 представлен в виде 20 запросов для автоматизированного поиска, первоначальная точность и полнота результатов которого не удовлетворяла потребителей информации.
Характеристика ИПС:
Поиск проводился по библиотечным каталогам - алфавитному, предметному и систематическому, фонду библиографических пособий, реферативным журналам, автоматизированным ИПС для поиска в библиографических и реферативных базах данных. Общая особенность перечисленных поисковых систем состоит в том, что они ориентированы на поиск структурированной информации.
Характеристика баз данных:
Поиск проводился по наиболее авторитетным базам данных групп Medline и Science Citation Index (SCI), выпускаемым соответственно Национальной медицинской библиотекой (National Library of Medicine — NLM) и Институтом научной информации США (Institute for Scientific Information - ISI). Группа Medline включает базы данных по различным
отраслям медицины, массив записей для которых создается NLM (Medline Express, Cancerlit, Nutrition, etc.). Имя SCI входит составной частью в названия баз ISI - Social Science Citation Index, Bioteclmology Citation Index и т. д.
Описание структуры каждой базы, тезаурусов и частотных словарей, информационно-поисковых языков, поисковых реквизитов, пользовательских интерфейсов не производилось, так как один и тот же массив структурированных записей предлагается сегодня пользователю совершенно разными фирмами, разрабатывающими программное обеспечение для различных информационных и пользовательских сред. Особенно это касается баз данных группы Medline. На современном информационном рынке продукцию Национальной медицинской библиотеки США представляют в виде электронных реферативных журналов фирмы Cambridge Scientific Abstracts (CSA), Silver Platter, Ebsco Electronic Publishing, и, кроме того, сама NLM выпускает библиографический указатель Index Medicus. Материалы Института научной информации США выходят в свет с собственным программным обеспечением, но в разных видах: библиографический указатель, библиографический указатель с ключевыми словами, реферативный журнал, библиографический указатель с полными текстами документов (последний в данной работе не использовался).
Язык:
В экспериментальной части исследованы 565 информационных запросов на русском языке; автоматизированный поиск проводился по базам данных, содержащим массивы документов на английском языке. Различие естественных языков в данном случае не ведет к изменению синтаксической структуры фрагментов до и после перевода. Как в английском, так и в русском языках выполняется условие идентичного контактного расположения элементов одной группы, т. е. оба языка принадлежат к типу центростремительных.
Методы анализа массивов информационных запросов:
Статистический анализ, применяемый к количественным показателям, характеризующим массивы первичных запросов и показатели выдачи, позволяет проследить изменения результатов после корректировки.
Лингвистический анализ. Из аспектов лингвистики нами выбран структурный (семантический) синтаксис как наиболее соответствующий требованиям формального представления и включающий возможности представления информационного запроса на уровне структурной схемы. Последовательно операции с первичными информационными запросами можно определить так: установление синтаксических связей внутри словосочетания (построение структурной схемы) и выделение семантической линии (устранение избыточности / недостаточности).
Структурное моделирование (моделирование синтаксической структу-1Ы) применительно к поисковым образам запросов предполагает установите логических связей на основе синтаксических и построение поиско-юй формулы с использованием булевых операторов. Для преобразования :труктурных схем в поисковые формулы и обобщения данных о запросах 1Спользованы методы логического преобразования высказываний, для »бобщения данных о выдаче - методы теории множеств.
В диссертации установлено, что синтаксическое моделирование при-одно для абстрактной репрезентации запросов, позиционная структура •лементов которых может быть зафиксирована в формальной записи. Вы->еден конечный ряд структурных формул (моделей, шаблонов), с помо-цыо которых информационные запросы можно преобразовать так, чтобы >ни удовлетворяли условиям релевантности. Опираясь на полученные при шализе данные, разработан максимально формализованный механизм соррекции.
В лингвистике для представления синтаксической структуры словосо-1етаний в виде иерархии их элементов применяется трансформационный метод.'' Мы проводили его, используя элементы грамматики зависимостей л семантического синтаксиса Люсьена Теньера (Lucien Tesniere, 1893— 1954). Принципы, лежащие в основе теории универсальной грамматики Хомского и семантического синтаксиса Теньера, в главном одинаковы, поэтому выбор теоретических постулатов в данном случае диктовался исключительно удобством и простотой изображения анализируемых синтаксических конструкций русского языка. В отличие от исходящих из принципа дихотомии грамматики непосредственно составляющих и синтагматической грамматики, в теории семантического синтаксиса "...к одному элементу высшего уровня может относиться множество элементов низшего уровня".7
Основные постулаты, взятые из теории Теньера:
1. Основой структурного синтаксиса является понятие синтаксической связи; графически синтаксическая связь изображается вертикальной линией.
2. Синтаксические связи устанавливают между словами отношения зависимости, объединяя вышестоящий (управляющий) элемент с элементом нижестоящим (подчиненным).
6 Шведова Н. Ю. Очерки по синтаксису русской разговорной речи. М., 1960; 3 о л о-това Г. А. Коммуникативные аспекты русского синтаксиса. М., 1982; С л ю с ар е в а H.A. Проблемы функционального синтаксиса современного английского языка. М„ 1981.
7 Г а к В. Г. Л. Теньер и его структурный синтаксис // Теньер Л. Основы структурного синтаксиса: Пер. с фр. - М., ¡988.
3. Одно и то же слово может одновременно зависеть от одного слова и подчинять себе другое.
4. В основании структурного синтаксиса лежит соотношение между структурным и линейным порядком слов; структурный - порядок, при котором устанавливаются синтаксические связи.
5. При типологической классификации языков по линейному порядку подчиняющих и подчиненных элементов языки делятся на центробежные (подчиненный элемент следует за подчиняющим) и центростремительные (подчиненный элемент предшествует подчиняющему).
6. Синтаксические и семантические связи направлены в противоположные стороны.
7. На основе синтаксической связи возникают юнкция и трансляция, которые не обязательно предполагают друг друга, поскольку развиваются в двух различных направлениях.
8. Юнкция представляет собой соединение ряда однородных узлов; юнкция есть явление количественное, графически представляемое горизонтальной линией.
9. Трансляция - перевод слова из одного функционального класса в другой; изменение категории элемента влечет за собой изменение его функции.
Ценными для решения нашей задачи стали также материалы по типологической лингвистике и исчислению языковых преобразований.
Анализ массивов информационных запросов:
При анализе Массива 1 доказана необходимость введения в формулировку запроса формальных ограничений, в минимальный набор которых входит указание типа документов, языка публикаций и рамок хронологического охвата массива предполагаемой выдачи. Это распространяется на все типы ИПС, начиная с самых простых, и подтверждается изменениями количественных показателей выдачи. При делении запросов по отраслевому признаку прослежена зависимость объема выдачи от наличия / отсутствия в формулировке запроса формальных ограничений и зависимость направления количественных изменений показателей выдачи от информационного обеспечения той или иной отрасли знания. Определено соотношение основных типов первичных запросов (требующие / не требующие корректировки) по различным отраслям знания. Выявлена необходимость включения формальных характеристик будущего (предполагаемого) списка документов в формулировку информационного запроса, что подтверждается большой разницей в количественных показателях выдачи и разным направлением изменения этих показателей.
Вопрос об оптимальном способе представления запроса для определе-гия его соответствия информационной потребности не может быть полночью решен таким простым способом. Поэтому при анализе Массива 2 мы эбратились к структуре самих информационных запросов и недостаткам их внутренней организации.
При анализе Массива 2 была проведена предварительная разбивка первичных запросов на условные классы в зависимости от количества слов и сложности синтаксических структур. В формулировках первичных запросов выявлены основные группы дефектов, что дополнительно подтвердило правильность их деления на условные классы.
При анализе Массива 3 доказано, что, применяя метод структурного моделирования, первичный линейный информационный запрос можно превратить в такой поисковый образ (формулу поиска), который будет удовлетворять требованиям релевантности при условии устранения дефектов первоначальной формулировки. Следует оговорить, что полученные выводы действительны в отношении всех языков, относящихся (по типологии Теньера) к центростремительным. Русский язык информационных запросов и английский язык документов в базах данных можно рассматривать как пару наиболее распространенных сегодня в России языков научной коммуникации.
Связь элементов ПОЗа в Массиве 3 является информационной (логической) проекцией синтаксических связей первичного запроса. Внутри массива выявлены следующие основные типы формального структурного представления запросов и их поисковых образов:
1. Неиерархические, содержащие всего один этаж. Это запросы, представленные одиночным элементом или рядом элементов, объединенных юнкцией (связь однородных членов). Интерпретируемая с точки зрения булевой логики как логический оператор {или}, юнкция является единственно возможной связью элементов в запросах, представленных в виде неиерархических стемм. Поэтому линейная запись формального ПОЗа, построенная на основе формальной стеммы неиерархического типа, представляет собой бесскобочную запись, в которой элементы (если их больше одного) соединяются логическим оператором {или}.
2. Иерархические. К этому типу относятся все запросы, имеющие более одного структурного уровня (этажа). Они в свою очередь подразделяются на:
а) моноиерархические, когда основу (первый этаж) стеммы (структурного представления) составляет один главный узел вне зависимости от дальнейшего деления нисходящих элементов (их может быть и более одного).
Ь) полииерархические, имеющие в основе (на первом этаже) более одного главного узла, т. е. управляющий узел представлен юнктированным рядом вне зависимости от количества подчиненных элементов (он может быть и один).
Линии синтаксической связи всегда интерпретируются как логический оператор {и}, линии юнкции - {или}. Служебные части речи (неполноз-начные слова, по теории Теньера) в модели отсекаются, так как легко могут быть восстановлены по линиям синтаксической связи.
Формула строится начиная с первого (левого) элемента первого этажа и далее сверху вниз по этажам. Сначала мы получаем несколько (в зависимости от количества элементов и этажей) минимальных формул, которые затем объединяются по этажам.
Ниже приводится пример реальной структурной схемы (стеммы - по Л. Теньеру).
Запрос: Изотопная неравновесность в молодых вулканических породах.
Стемма:
породах
/ I \
вулканических молодых неравновесность
изотопная
реальное структурное представление запроса формальное структурное представление (по Теньеру, О-сущ.; А-прил.) формальное структурное представление в рабочей записи формальное линейное представление структурных связей
Запрос: Иммунная коррекция при остром ВиС гепатите, (реальное линейное представление запроса)
гепатите / / \ \ ост- В—]—С коррек-ром ция 1 иммунная О / / \ \ А А—}—АО 1 А о, II \ \ О2О3Н-О4Б5 1 Б. ь 01 &Б2 &БЗ Э1 &Б4 01 &05 03 ог 04 05 & 06
Ш&(П2&(ОЗог04)&(05&В6) (формальное линейное представление запроса)
гепатите {и} (остром {и} (В {или} С) {и} (коррекция {и} иммунная)) (реальное линейное представление запроса)
китов — J — ластоногих \ / крови
I
состав / \ хими- — ) -- биологический ческий
О-]-О
\ /
0
1
О / \ А-}-А
О, --j -- о2
\ /
04
/ \
Э, ог Б2
О, & & о3
°3 & °4 04 & П5 04 & ^ Б. ог О,
(Б. ог Б.) & О, & Б & (О ог П6)
(китов{или}ластоногих) {и}крови {и} состав{и} (химический{или}биологический)
Исходные структуры:
(Б, - поисковое слово; & - оператор {и}; ог - оператор {или}; - в рабочей записи
А, В - элементы высказывания; Ь - конъюнкция; V - дизъюнкция; - в формально-логической записи)
1.Б, А
2. & Б2 ААВ
3. 0,огВ2 А V В
Этаж синтаксической структуры:
(0,ог02);
О, & В2;
При построении линейной формулы действуют следующие правила:
1 Элементы (поисковые слова) одного структурного уровня (этажа), не соединенные юнкцией, при общем управляющем узле соединяются оператором {и}:
& 02; Б1 & = & ф2 & О,)
(А А В) Л (А Л С) = А Л (В Л С)
2. Элементы одного этажа, соединенные юнкцией, при общем управляющем или подчиненном узле присоединяются к нему с помощью одного, общего для всех юнктированных элементов, оператора {и}:
Б, & Б2; О, & Э3; 02 ог Э3
(О, & Ю2) ог (О, & 03) = & (Э2 ог Б3)
(А Л В) V (А А С) = А Л (В V С) - закон дистрибутивности
3. Элементы одного этажа, соединенные юнкцией, при разных подчиненных узлах объединяются сначала по линиям синтаксической связи, а затем по юнктированному этажу:
D, or D2; D2 & D, = D, or (D2 & D,)
(A V В) Л (В А С) = A V (В A C)
На основе этих правил нами получены формальные ПОЗы информационных запросов, которые можно объединить в двенадцать основных типов, шесть из которых являются базисными, а остальные — производными.
1.D,
2. Dj & ... & Dk
3. Dt or... or Dk
4. Dj & ... & (Dk & ... & Dm)
5. D, & ... & (D. or... or D )
1 4 k my
6. D, or... or (Dk & ... & Dm)
Для адаптации формулировки семантически релевантного (релевантного потребности) информационного запроса необходимо:
• выявить и устранить стоп-слова;
• выявить и устранить лингвистически неоправданную избыточность;
• выявить лингвистически оправданную избыточность и отметить отрицательным маркером ее проявления для последующего устранения при построении ПОЗа (поисковой формулы);
• выявить и устранить повторы;
• выявить намеренную избыточность и отметить маркером юнкции ее проявления для правильного построения этажа ПОЗа (поисковой формулы);
• выявить формальные (хронологический охват, язык(и) публикаций, виды документов) и содержательные (по перечшо конкретной базы данных) ограничения и отметить их маркером собственного поля, т. е. просто ввести их в поле {limits}, а не в текст запроса;
• выявить группы слов, являющихся неразрывными именными соединениями (но тезаурусу, тематическому / отраслевому списку предметных рубрик или перечню рубрик конкретной базы данных) и отметить их маркером собственного поля, т. е. ввести их в поле {Subject Headings / Keywords / Basic Index} и т. п., сохранив в тексте запроса;
• выявить необходимость трансляции и произвести ее. Чаще всего необходимость в трансляции возникает, когда:
=> объектный узел выражен несамостоятельным элементом (например, прилагательным). В таких случаях требуется инверсивная трансляция.
узел выражен сложным элементом (составным существительным или прилагательным, аббревиатурой и т. п.), не являющимся научным фразеологизмом — неразрывным именным соединением. В пэдобных случаях требуется разлагающая трансляция. Разлагающая трансляция необходима
ри неверно определенном неразрывном именном соединении, следова-ельно, процессы выявления неразрывных именных соединений и разлага->щая трансляция являются взаимно обратными.
=> во всех остальных случаях категориальная и грамматическая транс-яция, в результате которой изменяется только грамматическая категория ли форма (падеж, число) может не производиться и не маркироваться для оиска ИПС с возможностями двустороннего усечения при неменяющейся рафике основы, до которой усекается поисковый элемент.
Запрос: Использование хирургических лоскутов при хирургическом
лечении открытых несуставных переломов голени
голени (адаптированная
1 формулировка) О о,
переломов 1 1 &С2
/ \ голен* АО о2
эткры- несус- лече- I 1 I 02&1)3
гых тавных нии переломы, открытые А Оз
/ 1 1 1 1
хирурги- исполь- несустав* АО о4
ческом зование 1
1 лоскуты
лоскутов 1 хирургические
1 хирургических
неразрывные именные соединения: переломов открытых;
лоскутов хирургических
повтор: хирургическом
избыточные элементы: лечении (лингвистически оправданная избыточность);
использование (лингвистически неоправданная избыточность) грамматическая трансляция (определена при идентификации нераз->ывных именных соединений по тезаурусу): переломов открытых -> пере-юмы, открытые;
лоскутов хирургических лоскуты хирургические * - усечение
0( & 02 & 03 & Б4 - формальное линейное представление адаптиро->аиной формулировки
олен* {и} [переломы, открытые] {и} несустав* {и} [лоскуты хирурги-1еские] - реальное линейное представление адаптированной формулировки = формула поиска
Для окончательного подтверждения предварительного заключения о том, что набор требований, предъявляемых к информационному запросу для удовлетворения его ПОЗом требований релевантности (при анализе Массива 3), является верным, после анализа выдачи нами были выбраны в рабочей среде 20 запросов. Первоначальные сессии поиска по ним проводились без какой-либо корректировки, и количественные параметры выдачи были признаны неудовлетворительными: первоначальная выдача составляла либо 0, либо сильно превышала возможности потребителя по переработке информации (от 300 до 1000 документов), и тогда поиск прерывался по его просьбе. Отобранные запросы были подвергнуты предварительному анализу, их формулировки - адаптированы, построены поисковые формулы с учетом предлагаемых требований к способам представления информационных запросов. Предварительный анализ показал, что в 16 из 20 запросах не были выявлены, маркированы или устранены: повторы, ограничения, избыточные элементы, неразрывные именные соединения, элементы, подлежащие трансляции. Далее была произведена необходимая корректировка, в ходе которой отмечено снижение общего количества элементов запросов с 94 до 64. После этого по новым формулам поиска были проведены повторные сессии, в результате которых показатели выдачи изменились в среднем: 0 => 18,4; оо 21,3. Выдачу на информационный запрос, прошедший предпоисковую обработку, можно представить в терминах теории множеств. Это обусловлено тем, что правила построения формулы поиска, записанные как правила исчисления высказываний, соответствуют законам теории множеств и правилам проведения операций над множествами.
Определим результат поиска как полное множество X. Тогда для базисных типов формальных ПОЗов выдачу можно изобразить следующим образом:
1. Для запросов с поисковой формулой типа О, X будет множеством У всех документов, содержащих элемент {Б,}, т. е. X = У, где У или
2. Для формулы Б, & ... &
X = У х ... х г, где Б, е У, е Ъ\
3. Для формулы ог ... ог 1)к
X = У + ... + г, где Б1 е У, Бк е Ъ\
4. Для формулы О, & ... & (Бк & ... & Г)м)
X = V/ X ... X (У X ... X Т), где Б1 е \У, Е)к е У; Эш е Ъ\
5. Для формулы & ... & фк ог... ог Ош)
X = V/ х ... х (У + ... + г), где 01 е V/, Бк е У; От е Ъ\
6. Для формулы В! ог... ог фь& ... & От)
X = W + ... + (У х ... х Т), где е V/, Ок е У; Бш б Ъ\
В целом результат поиска / выдача - есть полное множество релевантных запросу документов, содержащихся в базе данных, где каждая составляющая - подмножество документов, содержащих один из полнозначных элементов запроса.
Изменение количественных показателей выдачи не является самоцелью. Однако, если при традиционном ручном поиске для пользователя одинаково важны точность и полнота выдачи, то при автоматизированном поиске критерий полноты выдачи утрачивает свою значимость. Потребитель информации просто не в состоянии переработать весь материал, отвечающий его запросу. Поэтому полнота становится все более относительной и все большее значение приобретает точность выдачи. "Лучшей мерой определения успеха информационно-поисковых систем является удовлетворение пользователя точностью поиска (не то, что пользователь думает о пропущенных релевантных документах, а то, что он думает о качестве найденных релевантных документов)".8 Именно в связи с этим сделан вывод о том, что в снижении числа выдаваемых в ответ на запрос документов можно проследить положительную динамику. Это касается только выдачи в ответ на запросы, первоначальная выдача на которые превышала 100 документов (в среднем, удовлетворяющая потребителя выдача колеблется от 20 до 50 документов).
Предпоисковый анализ информационных запросов представлен в виде набора формальных схем, иллюстрирующих основные типы структур информационных запросов, которые могут использоваться как шаблоны для корректировки первичных запросов вне зависимости от содержания, информационно-поисковых систем и баз данных, по которым предполагается производить поиск. Они особенно важны для предпоис-ковой обработки первичных запросов с большим количеством составляющих (элементов запроса), так как чем меньше элементов содержит запрос, тем проще его структура и, соответственно, тем проще создать его поисковый образ (формулу поиска).
В работе получены следующие результаты:
1. Изучена природа информационного запроса, который является формализованным высказыванием на языке для специальных целей / подьязы-
"Froehlich T.J. Relevance reconsidered - towards an agenda for the 21st century: An introduction to special topic issue on relevance research // Journal of American Society for Information Science. - 1994. - V. 45, N. 3.
ке какой-либо науки (LSP - language for special purposes), как одного из компонентов системы общественной коммуникации - процесса информационного поиска. Фиксировано применение в отечественной и зарубежной специальной литературе термина релевантность в значении более близком к общеязыковому, чем к терминологическому.
2. Выявлены способы представления информационного запроса, обусловленные его природой, функциями и компонентной структурой, на разных этапах процесса коммуникации. Первичный и окончательный запрос всегда будет иметь линейное представление, соответственно - лингвистическое и информационное.
3. Исследованы основные типы нарушений в первоначальных формулировках информационных запросов. Определен набор элементов, которые должны быть маркированы на допоисковом этапе для последующего ввода в нормированные поля. Все это позволяет очертить границы лекси-ко-семантического поля информационного запроса с точностью, достаточной для удовлетворительного выполнения номинативно-дефинитивной и коммуникативной функций.
4. Предложены рекомендации по выявлению и устранению основных дефектов формулировок, правила адаптации этих формулировок и набор шаблонов для анализа первичных информационных запросов. Определен спектр предпоисковых преобразований информационного запроса.
5. Установлено, что комбинация методов семантики и синтаксиса дает наилучшие результаты при трансформациях информационных запросов, позволяя верно перевести не только сами элементы с LSP на ИШ1, но и структурные связи в логические операторы, сохраняя их соответствующее взаиморасположение.
6. Изучен процесс преобразования информационного запроса в поисковое предписание. Выявлены элементарные структуры ПОЗов и правила построения формул поиска, а также установлены основные и производные типы их формального представления.
7. Даны предложения по созданию дружественных интерфейсов для самостоятельной обработки запросов и их корректировки.
Результаты работы могут быть использованы:
А. Библиографами и потребителями информации, осуществляющими поиск по традиционным ИПС. Для этого рекомендуется дополнять текст запроса набором формальных ограничений.
Б. Пользователями и операторами-посредниками, ведущими информационный поиск по автоматизированным базах данных. Для работы с
запросами, ориентированными на автоматический поиск, разработаны рекомендации по выявлению и устранению основных недостатков, правила адаптации и набор шаблонов, помогающих с максимальной быстротой произвести предпоисковый анализ первичных информационных запросов.
В. Создателями интерфейсов и программного обеспечения для информационного поиска в базах данных. Даны предложения по созданию более дружественных вариантов интерфейсов, которые позволят пользователю свободнее оперировать словесными формулировками, учитывая особенности обработки информации и поискового аппарата в библиографических и реферативных базах данных. Пользователь, ориентируясь на готовые примеры при вводе своего запроса (превращении его в ПОЗ) и последовательно заполняя окна с нужными реквизитами поиска, будет более уверен как в результатах поиска, так и в возможностях системы. Ему не придется бесконечно пытаться переделать свой запрос так, чтобы были учтены неизвестные ему требования автоматизированной системы.
Предложения и рекомендации подтверждены анализом интерфейсов баз данных фирм: Institute for Scientific Information, Cambridge Scientific Abstracts, Silver Platter, Ebsco Electronic Publishing, Springer Electronic Media, Folio Corporation, Fulcrum Technologies Inc., Bowker Electronic Publishing, UMI - A Bell & Howell Company, Information Retrieval Service European Space Agency, а также РКП и ВИНИТИ.
Основные положения работы отражены в следующих публикациях:
1. О релевантности первичных информационных запросов // НТИ. Сер. 2: Информационные процессы и системы. - 1995. - N 6. - С. 1419. - Совместно с Р. С. Гиляревским.
2. Методы предпоискового анализа информационных запросов в автоматизированные ИПС // Искусственный интеллект-96: Нац. конф. с меж-дунар. участием (5, Казань, 1996): Сб. науч. тр. - Казань, 1996. - Т.2. - С. 358-361.
3. Обработка информационных запросов пользователей для работы с базами данных на CD-ROM // Современные пользователи автоматизированных информационно-библиотечных систем: проблемы обслуживания, изучения и обучения: Сб. материалов науч.-практ. конф. / Рос. нац. б-ка. -СПб., 1997.-С. 29-32.
-
Похожие работы
- Фасетный метод реферирования как проблема библиографирования технической литературы
- Информационно-библиографическое обеспечение книговедения
- Библиотечно-библиографическое содержание деятельности секретарей-референтов
- Теоретические основы специальной библиографии
- Эволюция теоретических и методологических представлений о библиографическом поиске в отечественном библиографоведении
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность