автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Моделирование и разработка средств и технологий поиска документальной информации
Автореферат диссертации по теме "Моделирование и разработка средств и технологий поиска документальной информации"
На правах рукописи
ОБЯЗАТЕЛЬНЫЙ
БЕСПЛАТНЫЙ ЭКЗЕМПЛЯР
Голицына Ольга Леонидовна
Моделирование и разработка средств и технологий поиска документальной информации
05.25.05 - «Информационные системы и процессы, правовые аспекты информатики»
Автореферат диссертации на соискание ученой степени кандидата технических наук
Москва 2004
Работа выполнена в Российском государственном гуманитарном университете
Научный руководитель: доктор технических наук, профессор
Попов Игорь Иванович Официальные оппоненты: доктор технических наук, профессор
Дьячко Анатолий Григорьевич доктор технических наук, профессор Романенко Аркадий Геннадьевич
Ведущая организация:
Государственное учреждение «Российское объединение информационных ресурсов научно-технического развития» Минпромнауки России
Защита диссертации состоится февраля 2004 г. в {6*часов
на заседании диссертационного совета Д 212.198.02 в Российском государственном гуманитарном университете по адресу 125267, г. Москва, Миусская пл., 6.
С диссертацией можно ознакомиться в библиотеке Российского государственного гуманитарного университета.
Автореферат разослан января 2004 г.
Ученый секретарь диссертационного совета
МеркуловВ.Н.
Общая характеристика работы
Актуальность. Современный уровень развития информационных технологий делает доступными в реальном масштабе времени информационные ресурсы (ИР) самого разного объема и содержания. Для облегчения работы с большими объемами информации разрабатываются разнообразные формы и способы ее представления, а также методы поиска, что выражается, например, в создании «фирменных» стандартов и систем, индивидуально настраиваемых самим пользователем.
Однако принципиально важным фактором, определяющим направление развития современных информационных систем, является то, что взаимодействие пользователей с информационными ресурсами происходит в режиме «информационного самообслуживания», когда пользователь, по существу, уже не разделяет свою деятельность на информационную и основную.
Процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, либо отыскав дополнительные сведения, либо организовав процесс таким образом, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.
В то же время, для пользователей-профессионалов характерна устойчивость тематического профиля, а в том случае, если они являются «информационно-ориентированными», то им также свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь создает по существу новый, проблемно-ориентированный, самостоятельно обновляемый и пополняемый информационный ресурс, включающий помимо подборок документов также и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т.д.
Упомянутая особенность работы пользователя в режиме «самообслуживания» в контексте задачи автоматизации совокупной деятельности означает, что система должна; представлять собой среду, обеспечивающую поддержку не только функций потребителя по обработке найденной информации и тех функций, которые традиционно относились к функциям информационного посредника (интерпретация запроса, его перевод на информационно-поисковый язык, выбор ресурса, автоматизированный поиск и ручной отбор материалов), но также и такие «обеспечивающие» функции, как структурирование информационной потребности, лексическая адаптация запроса, оценка, систематизация и обработка результатов поиска на уровне как отдельного документа, так и информационных ресурсов в целом. Причем основой, обеспечивающей стабильность процесса генерации-потребления информации, является лингвистическое обеспечение (ЛО). __________
РОС НАЦИОНАЛЬНАЯ
библиотека
■
Целью диссертационной работы является исследование информационно-
поисковых систем и создание комплекса моделей, методов и средств поиска в документальных ИР.
В работе определены следующие основные задачи:
- системный анализ взаимосвязи информационных объектов в процессах генерации-поиска информации;
- определение основных принципов функционирования документальных информационных систем (ИС) и построение обобщенной схемы поиска в документальных базах данных;
- определение понятия механизма поиска и разработка замкнутой системы математических моделей механизмов информационного поиска в документальных БД;
- исследование состава и структуры лингвистического обеспечения автоматизированных ИС, ориентированных на поиск научной информации;
- разработка средств автоматизированного создания и использования компонентов лингвистического обеспечения, в том числе разработка методов и средств построения иерархически упорядоченных проблемно-ориентированных словников (мини-тезаурусов);
- разработка обобщенной технологии, языка запросов и программных средств поиска информации в документальных БД.
Объектом исследования являются процессы автоматизированного поиска в документальных базах данных, определяемых как машиночитаемые массивы информации, представленной в различной форме и на различном уровне (в том числе в виде комплекса баз данных первичной, вторичной и справочной информации), и рассматриваемых совместно со средствами доступа к ним.
Предметом исследования являются:
- комплекс лингвистических и технологических средств автоматизированных информационно-поисковых систем (АИПС), обеспечивающих эффективность процесса отыскания информации в документальных БД;.
- лингвистические и когнитивные аспекты взаимодействия пользователей с ИС;
- процессы и алгоритмы управления доступом к информационным ресурсам, организующие информационное пространство и обеспечивающие возможность эффективного поиска в проблемно-ориентированных документальных БД.
Экспериментальной базой послужили результаты комплексных исследований систем научной информации, а также опыт создания документальных баз данных и электронных библиотек научной информации.
Научная новизна работы:
- проведено исследование и моделирование поисковых процессов, в которых АИПС рассматривается как функциональная составляющая - обобщенной системы генерации-потребления информации;
- обосновано представление лингвистических средств АИПС как динамической, развивающейся системы, имеющей двойственную природу: ЛО используется как для описания, так и для манипулирования информационными объектами, представляющими предметную область (ПрО);
- введено понятие механизма поиска как преобразователя поискового запроса в результат, используемого в качестве основы представления поисковых процессов в документальных АИПС;
- предложено использовать для оценки значимости терминов синтетическую меру, учитывающую не только частотные, но и структурные свойства терминов.
Научные положения, полученные лично автором и выносимые на защиту:
- обобщенная схема итеративного информационного поиска в документальных БД;
- замкнутая система математических моделей, описывающих механизмы поиска документальной АИПС;
- алгоритм построения мини-тезаурусов для тематической области на основе оценки значимости термина с помощью разработанной синтетической меры;
- интегральный коэффициент, повышающий эффективность ранжирования терминов в процедурах поиска, построенных по технологии обратной связи по релевантности.
Методы исследования. Основные результаты получены и обоснованы с использованием методов теории вероятностей, математической статистики, системного анализа и компьютерного моделирования.
Достоверность полученных результатов, их адекватность подтверждается путем сопоставления с экспериментальными данными и применением разработанных моделей и рекомендаций при создании конкретных систем.
Научное и практическое значение. Разработанные модели и средства позволяют сформулировать рекомендации по следующим перспективным направлениям:
- оптимизация распределения информационных и метаинформационных компонентов совокупной информационной системы в контексте задач поиска информации в документальных ресурсах;
- исследование интерфейсов как организующего компонента человеко-машинного информационного поиска при решении задач основной деятельности.-
Практическая значимость определяется реализацией и внедрением авторских разработок в области создания информационных систем.
Разработанные модели и средства обеспечивают создание комплекса компонентов лингвистического, информационного и программного обеспечения автоматизированных информационных систем. На их основе были разработаны:
- концепция; архитектура и ряд программных компонентов информационной системы IRBIS1, предназначенной для многоаспектного поиска информации в библиографических, реферативных и полнотекстовых базах данных разнородных документов;:
- система управления базами данных, обеспечивающая контроль доступа и необходимое разнообразие форм представления документальной информации;
- информационно-поисковый язык (ИПЯ), обладающий расширенными; возможностями управления отбором документов в разнородных документальных базах данных;
- обобщенная технология информационного поиска и ряд унифицированных интерфейсных средств, поддерживающих эффективные стратегии информационного поиска.
Разработанные модели и алгоритмы ориентированы на решение практических задач создания и ведения документальных баз данных, на обоснование решений по оптимизации их структур, а также на организацию процессов взаимодействия с пользователями.
Указанные результаты могут быть использованы разработчиками программных средств информационных систем, администраторами документальных БД, пользователями поисковых систем. Разработанные на основе полученных в диссертации: результатов технологии и программные средства могут применяться для создания ИР и информационного обслуживания.
Внедрение результатов. На основе результатов, изложенных в диссертации, были разработаны:
- программно-информационный комплекс документальной АИПС;
- технология и механизмы поиска, которые включают специализированные средства, обеспечивающие развитие поискового процесса.
При непосредственном участии автора разработана и применяется для создания промышленных информационных ресурсов документальная АИПС IRBIS. Система применяется для генерации баз данных, использующихся в локальном режиме (MS DOS и Windows версии), в том числе на CD ROM носителях, а также для создания электронных библиотек (Web-версия и Z39.50-версия).
Указанные результаты внедрены в ВИНИТИ РАН, ИНИОН РАН, ВНТИЦентре РФ, и др.
Результаты диссертационной работы были использованы в учебном процессе РГТУ в курсах лекций «Автоматизированные информационные системы», «Проектирование документальных информационных систем», «Базы данных»; при подготовке цикла лабораторных работ, а также курсовых и дипломных студенческих работ; отражены в трех учебных пособиях и ряде методических разработок.
1 Первое свидетельство о регистрации: Свидетельство №920147 от 28.12.1992г. Государственный реестр программ для ЭВМ, 1992г.
Апробация работы. Результаты диссертации докладывались и обсуждались на следующих семинарах, конференциях и симпозиумах:
- Международная» научная конференция НТИ-2000, «Информационное общество. Информационные ресурсы и технологии. Телекоммуникации». - Москва, 22-24 ноября 2000г.
- НТИ-99: 4-я Международная конференция «Интеграция. Информационные технологии. Телекоммуникации». Москва, 17-19 марта 1999г.
- НТИ-97: 3-я Международная конференция «Информационные ресурсы. Интеграция. Технологии». Москва, 1997г.
Публикации, отчеты. По теме диссертации опубликовано 23 научные работы, в том числе 3 учебных пособия.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложений и содержит 203 страницы текста, 46 рисунков, 12 таблиц.
Содержание работы
Во введении обоснована актуальность работы, сформулирована цель исследования, определены задачи работы и ее научная новизна. Показано, что в целом автоматизация информационной деятельности должна основываться на общих принципах и теоретических моделях, которые, во-первых, будут отражать максимальное количество типов и уровней процессов как генерации, так и обработки информации, а во-вторых - будут работоспособны при реализации конкретных систем.
В первой главе определены структурно-методологические основы информационно-поисковых систем, приведена типология информационной неопределенности и видов информационного поиска, построена обобщенная схема и описаны средства информационного поиска.
По характеру представления информации для основных объектов, представленных на рис. 1, выделяются три уровня обработки информации в совокупной системе.
Первый уровень — основная деятельность, где объектами являются предметы реального мира, а результатами - новое знание. Носителем информации этого уровня является человеческое сознание, для которого характерны системность организации и ассоциативность выборки, а коммуникационным объектом является сообщение — знание, адресно отраженное на систему понятий предполагаемого приемника.
Второй уровень — создание общественно-полезной информации. Средством коммуникаций; здесь является язык, а носителем информации - документ как функционально ориентированное сообщение, структурирующее и идентифицирующее информацию, например, путем выделения семантически однородных полей.
Информация
Отбор документов при поиске в БД
Потребность
ипя
К V——V Знание ИПЯ Выражение ИП
•
Новые знания
к
Объекты исследований
Системы знаний
Основные понятия и закономерности
Рис. I. Уровневая модель взаимосвязи информационных объектов
Третий уровень - собственно информационная деятельность - управление потоками информации для обеспечения основной деятельности, работа с компактными по объему вторичными документами, позволяющими совершенствовать процесс поиска нужных сообщений. Здесь информация (поисковый образ документа) - это хорошо структурированный материал, компактно и предметно отражающий смысл документа, а также обеспечивающий идентифицируемость и атрибутированность документа на уровне отдельных элементов данных.
С другой стороны (с точки зрения пользователя), особенности представления информации на разных уровнях человеко-машинной среды обусловливают различные типы неопределенности. В этом смысле процесс поиска можно определить как последовательность шагов, задачи которых - снятие неопределенностей: семантической, языковой (лексической) и метаинформационной.
Семантическая неопределенность связана с формализацией запроса. Формируя запрос, пользователь явно или неявно синтезирует ту информацию, которая, возможно, есть в отыскиваемом тексте. Сначала определяются понятия, затем связи между ними, т.е. происходит реконструкция пользователем гипотетического текста, предположительно совпадающего в известной части проблемы с возможно уже существующим текстом, и обозначение связи известного знания с выявленным неизвестным.
Лексическая неопределенность связана с формулировкой поискового образа запроса (ПОЗ). Формулируя запрос, пользователь должен учитывать, что его представление об информативности термина необязательно совпадает с представлениями индексатора
Метаинформационная неопределенность связана с тем, что пользователь должен иметь адекватное представление о самой системе и способе структурирования информации в ней. Например, как и по каким полям проводить поиск.
В соответствии с характером задач основной деятельности пользователя, по степени соотношения известного/неизвестного в предмете поиска выделяют2 три типа поисковых задач..
К задачам первого типа относится поиск объекта, когда известно, что этот объект существует (например, поиск фактографии или трудов конкретного автора). Знания пользователя об искомом объекте полные, цель поиска - найти его документальное представление. Логическая поисковая модель - поиск по логическому выражению над именами понятий, задаваемыми терминами или их комбинацией (значениями определенного характеристического признака). ПОЗ при этом составляют термины документов, отнесенные к семантически заданным полям.
Второй тип задач - подбор информации по некоторой теме, например, для обзора научной проблемы или обоснования или поиска метода решения практической задачи. Пользователь, уже обладая знаниями, определяет место
2 Максимов Н.В. Исследование и моделирование систем управления доступом к гетерогенным информационным ресурсам. Дисс. на соискание ученой степени доктора техн. наук по спец. 05.25.05.-М.:РГТУ, 2001.
задачи (как вновь вводимое понятие в системе уже известных понятий), ищет
документы, в совокупности содержащие материал, с необходимой полнотой раскрывающий вводимое новое понятие или дающий возможность построения метода решения задачи. Логическая поисковая модель - поиск по части известного понятия или связям, частично задаваемым комбинацией характеристических признаков, с использованием накопленных ранее результатов. ПОЗ при этом составляют термины документов и термины дополнительных поисковых структур - тематических рубрикаторов, тезаурусов и т.п., отнесенные к семантически заданным полям.
Третий тип задач представляет собой проблемный поиск, который, по сути, является основной составляющей творческого процесса определения путей решения профессиональной задачи пользователя. Здесь изначально отсутствует четкость структуры знания; пользователь, возможно, располагает отдельными фактами, не имеющими между собой доказанных связей. Логическая поисковая модель - поиск «похожих» документов, поиск с использованием технологии обратной связи. ПОЗ при этом составляют в том числе и документы, входящие в итеративно формируемое пользователем информационное пространство.
Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими. Для того, чтобы пользователь мог реально управлять процессом поиска, необходимо произвести декомпозицию в целом крайне простой, запросно-ответной схемы процесса поиска. Такая функциональная декомпозиция должна обеспечить возможности для снятия неопределенностей всех типов - выделить подпроцессы-процедуры и соответствующие им операционные объекты. При этом для процесса в целом (с точки зрения конечного пользователя) мы имеем всего два типа основных операционных объектов - запрос и документ.
Обобщенная схема процесса поиска, поэтапно позволяющая локализовать неопределенности перечисленных ранее типов, приведена на рис. 2. Процесс информационного поиска в общем случае интерактивный (с этой точки зрения роль системы - пассивная информационно-технологическая» поддержка) и включает следующие этапы:
1. Определение темы запроса, ее локализация в предметной области и формализация на уровне понятий основной и смежных областей, а также идентификация ресурса. Здесь система предоставляет систематизированное описание предметной области, а также средства метаинформирования о тематике, наполнении, структуре и методах доступа к выбранному ресурсу.
2. Формирование, а также структурное и лексическое адаптирование выражения запроса, где система предоставляет вспомогательные информационные объекты (словари, тезаурусы, шаблоны и т.д.).
Рис. 2. Обобщенная схема информационного поиска
3. Отбор документов с помощью одного из механизмов поиска по критерию, адекватному степени неопределенности информационной потребности, где система предоставляет выбор механизма поиска или, например, автоматически с помощью лексикографических словарей и проблемно-ориентированных тезаурусов нормирует и расширяет лексику запроса. Механизмом поиска при этом будем называть совокупность реализованных в системе моделей и алгоритмов процесса формирования выдачи документов в ответ на поисковый запрос.
4. Формирование и управление выдачей найденных документов, где система обеспечивает масштабирование (форматирование) пространства представления выданных документов, а также сортировку и, возможно, рубрицирование или ранжирование по некоторому формальному критерию соответствия и с использованием тематико-статистических спектров (ТСС).
5. Оценка результата поиска на уровне отдельного документа, где система обеспечивает возможность фиксировать значение степени соответствия запросу пользователя и использовать лексику документов для непосредственной модификации выражения запроса.
6. Итоговая оценка результатов поиска на уровне всего запроса или отдельных предложений с точки зрения принятия решения о завершении поискового процесса (например, исчерпывающее удовлетворение информационной потребности или несоответствие цели поиска), где система позволяет количественно оценивать динамику качества выдач и обеспечивает возможность выборочного обращения к результатам отдельных этапов процесса поиска или формирования проблемно-ориентированных словарей.
7. Развитие запроса по технологии реформулирования по обратной связи по релевантности или использование других ресурсов, например, ассоциированных баз данных вторичной или справочной информации, где роль системы - адекватное информирование о такого рода возможностях.
Таким образом, на основе анализа состояния и тенденций развития информационно-поисковых систем в качестве перспективного направления можно определить создание персональных информационных систем, которые, помимо стандартных и расширенных поисковых возможностей, функционально включают средства систематизации информационных массивов, формирования и развития компонентов лингвистического обеспечения, а также оценки и анализа результатов поиска. При этом технологическая схема, обеспечивающая выполнение требования адекватного информирования, должна включать в себя два типа обратной связи: внешнюю, отражающую оценку пользователя, и внутреннюю, учитывающую статистические особенности использования терминов в конкретной базе данных.
Во второй главе вводится формальное определение механизма поиска как преобразователя поискового запроса в результат, представляющий собой бинарный вектор соответствующих запросу документов. В соответствии с таким определением построена замкнутая система моделей механизмов поиска и разработаны укрупненные алгоритмы реализации моделей.
Модели поиска в диалоговых и других АИПС, как правило, ориентированы на то, что запрос не удовлетворяется одним множеством найденных документов, а требует проведения серии отдельных поисков и выделения блоков информации на каждой стадии модификации запроса. Такие модели должны отвечать следующим требованиям:
- поисковые запросы являются не статичными, а развивающимися;
- специалист, осуществляющий поиск, собирает информацию итеративно, по частям, а не всю сразу в ответ на единственный запрос;
- пользователю доступны разнообразные поисковые методы, включая не только поиск по дескрипторам поискового запроса, но и поиск документов по сходству;
- пользователь может применять широкий круг источников для работы с лексикой предметной области - тезаурусы, отраслевые рубрикаторы, словари и т.п.
Отвечающая этим требованиям модель намного ближе к реальному поведению человека, чем традиционная модель информационного поиска, предполагающая формулировки одного, пусть даже и точного, запроса.
Для математической интерпретации механизмов поиска используем понятие универсального словаря3 Б, содержащего множество лексических единиц всего потока документов: ¡¡ей для всех /, где /,• — совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока.
Аналогично универсальному словарю вводится понятие универсального потока ¿о (прообраз - поисковый массив АИПС), подмножеством которого являются все сообщения: ¿0 = {/,,.../,,.../„},/, е!0 для всех /, причем |10| = и0, где п0 - мощность множества Тогда линейное представление теоретико-множественного образа документа:
\ь<*
где Ь,
если 1 - й т ермин входит в к - й документ если не входит
Универсальный массив в линейном представлении есть матрица размерности
3 Попов И.И. Информационные ресурсы и системы: реализация, моделирование, управление. -М.: ТПКАЛЬЯНС, 1996.
Подобные матрицы известны под названием матрицы «термин-документ». Каждый столбец такой матрицы соответствует отдельному документу и описывает множество терминов, содержащихся в нем. Таким образом, столбец матрицы характеризует поисковый образ документа (ПОД).
Механизм поиска по совпадению терминов. При поиске по совпадению терминов задается полное и/или частичное совпадение терминов (ключевых: слов) для поиска документов, их содержащих..
Формирование ПОЗа - выбор из матрицы Ьо строк, соответствующих терминам, указанным в запросе. При этом, если некоторый термин не найден в словаре Б ему ставится в соответствие строка, состоящая из одних нулей (нулевая; строка). Таким образом, для к терминов получаем подматрицу запроса в которой отдельные строки могут быть нулевыми:
А».
ККг' А„
ААг
Результирующим вектором запроса будет
V ы /-1 /.i J
Окончательный поисковый результат далее может быть сформирован по одному из двух правил: 1) документ считается формально релевантным запросу, если содержит все к терминов или 2) документ считается формально релевантным; запросу, если содержит хотя бы часть из к терминов. При реализации первого правила получаем:
i противном случае -
Для реализации второго правила задается порог m, определяющий минимальное количество терминов (из £ терминов запроса), необходимое для отнесе-
»
ния документа к множеству формально релевантных запросу: q¡ = если^А,, £ т
/-i '
Механизм поиска по логическому выражению. Выражение — это синтаксическая единица языка, задающая порядок и способ вычисления некоторого значения.
Вычисление логического выражения состоит в построении двоичного дерева операций, прохождение по которому снизу вверх приводит к получению результата.
В узлах такого дерева (включая корневую вершину) расположены логические операции (o¡), а листья (конечные узлы) представляют собой строки матрицы Lg, соответствующие терминам запроса (/, = = 1,я„)).
Будем называть операндом запроса отдельно вычисляемое выражение, соответствующее поддереву запроса».
Рассмотрим расширенную матрицу «термин-документ» ио, строки которой могут представлять собой не только показатели встречаемости терминов в документах информационного массива, но и результирующие векторы запросов (Q,):
К— количество включенных в матрицу результирующих векторов запросов, , если строка принадлежит матрице 10
к-Ь"
" , если строка представляет собой результат запроса
Далее, поставим в соответствие каждой логической операции правило ее выполнения с использованием расширенной матрицы: Ь'окЬ'т = где
ок е 0,0 = - множество бинарных логических операций, а для унарной
операции отрицания:
Тогда алгоритм разрешения двоичного дерева поискового запроса состоит в последовательном выполнении снизу вверх логических операций и в пополнении на каждом шаге матрицы Ь'0 очередной строкой-результатом. Условием выполнения к-той операции служит наличие в матрице Л.\ строк, соответствующих правому и левому операнду. После выполнения к-той операции формируется результирующий вектор который становится строкой матрицы.
Механизмы поиска по сходству. Работа АИПС основана на использовании терминов (дескрипторов), которые лишь приблизительно описывают тематическое содержание документов и запросов, поэтому обычно выдача в ответ на тематический запрос не бывает полной и точной. Для повышения эффективности поисковых процессов АИПС, основное назначение которых — поиск релевантной информации с использованием тематических дескрипторов, используют технологию обратной связи, типичная реализация которой может быть, например, следующая:
- пользователь формирует список терминов для начального поиска, в результате которого выдается набор документов;
- документы в выдаче упорядочиваются в соответствии с некоторым алгоритмом взвешивания и ранжирования;
- пользователь просматривает выдачу, отмечая релевантные документы;
- после окончания просмотра система автоматически изменяет веса терминов и ранги документов в соответствии с информацией обратной связи.
Для повышения технологичности указанных процессов применяются процедуры автоматического или полуавтоматического расширения запроса путем добавления терминов из релевантных документов. Основная нагрузка при этом приходится на анализ весовых коэффициентов или различных мер близости терминов и документов.
Другой путь - автоматическое расширение выдачи, т.е. предложение системой пользователю документов, «похожих» на ранее выбранные им и отмеченные как релевантные. Сходство в данном случае можно интерпретировать как расстояние между двумя информационными потоками: чем более похожи эти потоки, тем они ближе. Отличие такого способа заключается в том, что управление полностью осуществляется системой, а не пользователем.
Приведем механизмы, реализующие поиск документов по сходству.
Механизм поиска документов-аналогов. Аналогами некоторого документа назовем такие документы информационного массива, которые имеют заданное количество общих терминов с исходным, т.е. функция «похожести» реализуется количественной оценкой документа с точки зрения наличия в нем терминов из некоторого подмножества словаря.
Источником для поиска аналогов служит отдельный документ информационного массива. Выделим в матрице Ьп столбец 1к = ,1 = 1, £>), соответствующий ПОДу рассматриваемого документа, и построим подматрицу Ьох, оставив в матрице ¿о только те строки, в которых ЬлфО. Далее, по матрице Ьоос строится результирующий вектор запроса на поиск аналогов и, аналогично механизму поиска по совпадению терминов, может быть получен поисковый результат с учетом (или без) некоторого заданного порога близости т:
В случае, когда универсальный словарь представляет собой набор отдельных словарей Ц, построенных по лексике отдельных структурных единиц документов (полей), процедура поиска аналогов может быть усложнена заданием различных пороговых значений для структурных единиц и построением логического выражения над множеством критериев отбора, связывающих поле и соответствующее пороговое значение. Реализация процедуры поиска аналогов для случая:
Ь'пЬ'п —
следующая: ПОД заданного документа может быть
представлен как объединение ПОДов, построенных для различных структурных единиц документа - 1к =и/°', /"' =(бЛ,/ = 1,.0,), а подматрица аналогов - как соеди-
нение подматриц:
7°. Ч^ОлсУ'
Матрица результирующих векторов для этого случая =(^,» = 1,п,у = 1,п0),
1б
Используя теперь матрицу вместо матрицы Lq в модели механизма поиска по логическому выражению, можно выполнять процедуры построения дерева запроса с последующим вычислением результата.
Механизм эвристического поиска. Эвристический поиск работает по принципу отыскания документов, «похожих» на усредненный тематический образ некоторого множества релевантных документов, заданных пользователем, и реализуется следующей последовательностью шагов:
Шаг 1. Построение словника релевантных документов. Результат - подматрица Lfo[ матрицы Lo, построенная путем выбора столбцов, характеризующих заданные пользователем документы: LM =(б1Л,»' = 1,Д* = 1,л,1^ jk £л0) п -количество документов, отмеченных пользователем как релевантные.
Шаг 2. Оценка терминов словника и построение поискового образа темы (ПОТ). Результат - выделение только тех терминов, которые могут быть включены в ПОТ. Обычно в основе формальной оценки лежат частотные характеристики, которые могут быть получены из матриц
Ft = (или /-и элемент главной диагонали матрицы ¿0 хL/),
Рцы= (или /-и элемент вектора L„ х Q„cl),
J'Jl-h—Jl
где Ft - частота термина в информационном массиве, Fmei - частота термина в множестве релевантных документов, QRei - вектор релевантных документов (строка расширенной матрицы
Например, в ИПС IRBIS для оценки степени соответствия термина ПОТ была использована мера точности термина - отношение частоты термина в множестве релевантных документов к частоте термина в информационном массиве, а в качестве порога для отбора в ПОТ - относительный коэффициент Cr, вычисляемый в зависимости от эвристически определяемого параметра характеризующего количество ожидаемых документов (т.е. максимальное количество документов результата поиска).. С другой стороны, этот параметр характеризует минимальную (ненулевую) точность термина, возможную в ожидаемой выдаче:
С„ =—. Тем самым, в ПОТ отбираются термины, для которых выполняется нера-р
венство: -^-'¿.С..
Шаг 3. Построение матрицы «термин-документ» для функции поиска аналогов где М - количество терминов в ПОТ, определяющее порог близости для следующего шага.
Шаг 4. Выполнение функции поиска аналогов с пороговым значением. По матрице: ¿лог строится результирующий вектор запроса на отбор документов-аналогов и формируется поисковый результат с учетом порога близости
М. Если число документов полученного результата меньше, чем заданное в системе ns, то пороговое значение Муменьшается на 1, и повторяется процедура поиска аналогов с новым пороговым значением. Таким образом, на каждой i-й ите-
рации пороговое значение равно M-i Цикл заканчивается либо после выполнения очередной итерации, если число документов результата стало равно или превысило значение щ, либо когда пороговое значение стало равно 0.
Механизм поиска с использованием обратной связи по релевантности терминов. Диалоговая модель поиска по обратной связи отличается от модели эвристического поиска тем, что после выполнения системой очередного шага, пользователю предоставляется возможность управлять дальнейшим процессом формирования результата, т.е. последовательность шагов в диалоговой модели дискретна и реализуется (с точки зрения длины) в зависимости от предпочтений пользователя.
Шаг 1. Построение и ранжирование словника релевантных документов. Результат - вектор IV = ^,,¡ = 1,к) гдек - количество терминов релевантных документов, а иъ соответственно, значение весового коэффициента для /-го термина, удовлетворяющее неравенству
Расчеты весовых коэффициентов в данной модели могут основываться на различных мерах близости и на этом шаге не влияют на количество выдаваемых терминов (пользователь в данном случае получает оценку всех терминов релевантных документов, т.е. в ПОТ попадают все термины без исключения).
По завершении первого шага система передает управление пользователю, который (основываясь на выданных ему значениях весовых коэффициентов и упорядоченности терминов релевантных документов) отмечает термины, способные улучшить поисковый запрос. Отмеченные термины затем пользователь может самостоятельно добавить в поисковый запрос (для реализации моделей поиска по совпадению терминов или по логическому выражению) или инициировать следующий шаг поиска по обратной связи.
Шаг 2. Формирование матрицы поисковых результатов. Термины, отобранные пользователем на предыдущем шаге, рассматриваются как исходные для проведения поиска по совпадению терминов. Модель этого поиска реализуется в данном случае построением подматрицы запроса в которой отдельные строки могут быть нулевыми.
Подматрица далее рассматривается как исходная для проведения процедуры поиска аналогов, и последовательно для каждого ненулевого столбца строится вектор Q¡ — результат поиска аналогов с максимальным порогом близости (максимальный порог близости задается количеством единиц в столбце, а контекст результата задается перечислением самих терминов). Полученные векторы рассматриваются как строки матрицы- поисковых результатов: ()пит = = 1,и,_/ = 1,и„), где п - количество ненулевых столбцов подматрицы Ьч .
Отметим, что каждая строка сформированной таким образом матрицы снабжается контекстом — перечислением конкретных терминов, присутствующих в документах конкретного результата. После удаления из матрицы строк с одинаковым контекстом, получаем кластеризованное пространство документов, где каждый кластер задается не только количеством терминов запроса, но и составом самих терминов. Матрица поисковых результатов Qтkeme дает возможность обес-
печить доступ к каждому отдельному результату для его просмотра и последовательного формирования нового множества релевантных документов.
Взаимосвязь механизмов поиска. Будем говорить, что на пространстве бинарных матриц размерности £)хп0 задана группа Ст относительно бинарной операции абстрактного умножения, такой что
ЧА.В евт,А = = Ц^} В = = П>,./
Тогда матрица является элементом группы Ст, а любой поисковый запрос может быть представлен как результат абстрактного умножения матрицы на некоторую бинарную матрицу. Например, если поисковый запрос Ъ задается
множеством из k терминов = .....^}, то 2 = Ц,®Г, где строки матрицы T'
состоят из 1, если соответствуют строкам терминов из множества Г, и из 0 в противном случае.
Введем понятие модели механизма поиска, осуществляющей преобразование элемента группы в вектор если документ соответствует запросу, и г, = 0, если документ не соответствует запросу:
л/={г,/>(г)и?)
Отметим, что представленные ранее модели механизмов поиска удовлетворяют этому определению.
Далее, будем говорить, что на пространстве поисковых моделей действует операция абстрактной композиции, заданная следующим образом:
матрица размерности , в которой каждая строка равна Я;. Т.е., операция абстрактной композиции реализуется последовательностью преобразований Р„ модели: А/, над объектом 2к и Р% модели М, над модифицированным результатом Д4.
Тем самым, пространство моделей механизмов поиска обладает свойством замкнутости относительно операции абстрактной композиции.
Применительно к разработанным моделям получаем:
- для модели механизма поиска, по совпадению терминов:
где преобразование представляет собой форми-
рование вектора
- для модели механизма поиска по логическому выражению (по дереву поиска из к операций): М^ =Ма< ФА/^ ®...ФМ„1, где. А/., ={£„ ,/»(£„ )а ).
При этом ^ - результат одного из операндов логической операции о,-, а Р(!„() - преобразование, включающее в себя вычисление другого операнда и выполнение операции
- для модели механизма поиска документов-аналогов:
- для модели механизма эвристического поиска: МНеыг ={1ы,РНа1Г{1ы\дк), где Ри.-Ьщ.й-РиогЬы^Рм.ы&яи)
Таким образом, любой поисковый процесс может быть представлен композицией моделей, преобразующих матрицу запроса в вектор результата. Предлагаемое пространство моделей построено над матрицей «термин-документ», поддержанной физически в документальных БД совокупностью частотного словаря и инвертированных списков.
Операция абстрактной композиции моделей построена таким образом, что результат первой модели композиции, преобразованный с помощью операции абстрактного умножения на матрицу «термин-документ», становится исходным запросом для реализации второй модели. Тем самым, абстрактная композиция моделей описывает процессы развития ПОЗа.
Во второй главе также представлены укрупненные алгоритмы, реализующие предложенные модели. В основу алгоритмов положена совокупность процедур, преобразующих матрицу «термин-документ».
В третьей главе рассматриваются средства лингвистической поддержки информационного поиска в документальных БД.
Степень смыслового соответствия отдельных документов запросу может связываться с различительной силой входящих в запрос терминов. Во многих экспериментах по оценке вероятности релевантности на основе весовых коэффициентов терминов оценка релевантности поисковых терминов связывалась с их частотными характеристиками. В основе расчета весовых коэффициентов были два предположения, имеющие альтернативную природу:
- гипотеза о независимости частотных распределений во множестве релевантных документов и либо во множестве нерелевантных документов, либо во всем массиве;
- оценка релевантности документа может производиться на основании; только присутствия терминов в документе либо на основании отсутствия.
Тем самым, на передний план выдвигается принцип взаимодействия пользователя с системой в процессе поиска. Это требует от АИПС наличия различных интерфейсных средств, ориентирующих пользователя в предметной области, например, в части терминологии. Такими средствами могут быть:
- автоматическое формирование наборов терминов для расширения запроса;
- терминологические таблицы, организованные в виде семантических сетей, каждому узлу в которых сопоставлен некоторый набор документов;
- электронные тезаурусы предметной области;
- автоматизированное ведение пользовательских мини-тезаурусов и тематических рубрикаторов и др.
В работе приведен обзор известных мер установления ассоциативных связей между терминами, широко используемых в методах автоматической классификации и кластерного анализа, а также мер, определяющих семантическое расстояние пар терминов; мер близости между лексическими единицами тезауруса и
др. Однако, основное внимание уделено исследованию эффективности мер, основанных на структурно-частотных характеристиках.
В качестве меры различительной силы термина введен и исследован весовой показатель, отражающий потенциальные возможности дескрипторного ИПЯ,
4
определяемые структурными свойствами терминологической системы:
где п0- общее число документов информационного массива;
Р) - частота 1-го термина; Ц - количество слов в термине.
Первое слагаемое отражает степень точности отождествления термина с определенным понятием (успешность угадывания смысла термина, образованного из 1 слов, по крайней мере, в 1 раз выше), второе - «специфичность», как величину, обратную «общности» в рамках множества возможных значений коллекции из документов.
Далее рассматривается суммарный весовой коэффициент термина на некотором множестве документов:
К
где - частота термина в исследуемом множестве документов.
Наблюдаемое понижение ранга словосочетаний (вследствие учета в весовом показателе длины термина) позволяет сделать предположение о том, что в ограниченные списки терминов тематической выборки при ранжировании по коэффициенту, учитывающему длину термина, попадет большее число значимых словосочетаний.
Ранжирование терминов по суммарному весовому коэффициенту положено в основу построения тематических словников двухуровневой иерархической структуры, которые в дальнейшем могут рассматриваться как исходные для формирования проблемно-ориентированных мини-тезаурусов.
Для создания мини-тезаурусов предложен следующий алгоритм:
1. Построение для некоторой тематической выборки словника ключевых слов (терминов с нормированной лексикой), отражающего частоту появления отдельного термина в выборке, инверсную частоту термина в БД и длину термина (количество слов).
2. Расчет суммарного весового коэффициента для терминов тематической выборки и ранжирование словника по убыванию значения суммарного веса.
3. Выбор терминов первого уровня (заглавных терминов) на основе оценки суммарного веса (например, терминов, у которых значение суммарного веса
удовлетворяет неравенству: число терминов словника
ключевых слов.
4. Присоединение к заглавным терминам терминов второго уровня иерархии по принципу включения лексических единиц заглавного термина.
4 Логарифмическая форма составляющих вводится по аналогии с обоснованием шенноновской теории связи для обеспечения аддитивности при «сложении» структурных свойств отдельного термина и терминологической системы в целом.
В соответствии с предложенным алгоритмом были построены иерархические словники ключевых слов для БД «Информатика» (около 74 тыс. рефератов с 1986 по 2000 г.). Тематические выборки соответствовали третьему уровню рубрик Рубрикатора ВИНИТИ (включая нижестоящие по иерархии).
Анализ полученных словников выявил, что происходит существенное сокращение необходимого терминологического пространства без ущерба для полноты тематического охвата, т.е. предлагаемый алгоритм позволил отобрать практически только те термины, которые являлись значимыми при индексировании документов БД. Результаты вычисления процентного отношения количественного состава иерархического словника относительно общего словника ключевых слов и процента тематического охвата (т.е. полноты выдачи по запросу, построенному как дизъюнкция всех терминов иерархического словника) показали, что в среднем около 40% терминов исходного словника дают полноту тематического охвата более 99%. При этом термины релевантных не выданных документов (и просмотр самих рефератов) позволяют предполагать в качестве причины некорректное индексирование документов.
Таким образом, экспериментальным путем было показано, что использование предложенного весового коэффициента позволяет выделить для темы пространство ядерных терминов частотного словаря, которые становятся дескрипторами мини-тезауруса. Второй (и, при необходимости, последующие) уровень составляют термины, являющиеся лексическими расширениями терминов верхнего уровня. Тем самым, происходит упорядочение лексики ПрО и сокращается число входов в словарную структуру без потери полноты охвата тематической области.
Другой аспект использования ранжирования терминов — это отбор терминов а для расширения поисковых запросов в алгоритмах поиска с использованием процедур автоматического формирования выборок на основе терминов документов, отмеченных пользователем как релевантные. При ранжировании терминов для автоматического расширения запроса ранг термина должен убывать по мере возрастания некоторого интегрального критерия, характеризующего возрастание полноты термина при минимальном убывании точности.
В рассмотрение вводится интегральный коэффициент близости, учитывающий специфичность лексики тематической области: = (2) где коэффициент линейной корреляции множества документов тематической выборки и множества документов БД, содержащих термин
Рт-вероятность появления документа тематической выборки в БД;
Р1 - вероятность появления документа с термином в БД;
Рл - вероятность появления документа тематической выборки, содержащего
термин, в БД; у/^ - весовой коэффициент термина согласно (1).
Ранжирование терминов тематических словников по интегральному коэффициенту (в сравнении с ранжированием по коэффициенту корреляции) показало
перемещение терминов с высоким коэффициентом корреляции вниз по ранжированному списку в том случае, когда их вес ниже, чем ожидается. И наоборот, термины с низкой корреляцией перемещаются вверх по ранжированному списку, если их мера специфичности высока.
Для оценки эффективности использования при ранжировании тематических словников исследуемых коэффициентов (2) и (3) было проведено сравнение рабочих характеристик дизъюнктивных запросов, полученных на основе словников, упорядоченных по интегральному коэффициенту (2) и коэффициенту корреляции (3). Запросы составлялись таким образом, чтобы для каждой темы обеспечивался одинаковый показатель полноты выдачи.
Для сравнительного анализа рабочих характеристик запросов использовался показатель полезной работы АИПС, базирующийся на измерении затрат инфор-
5
мационной деятельности пользователя :
х - количество выданных релевантных документов;
д:о - общее количество релевантных документов;
и - количество выданных документов;
по- общее количество документов информационного массива;
г ---полнота выдачи; & ---величина «поискового шума».
х„ "о ~
Рабочие характеристики запросов были построены в координатах (r,rj). Зависимость полезной работы от полноты представляется ломаной линией с изменяющимся углом наклона к оси ординат. При этом точки полезной работы «идеального» запроса (т.е., когда выдаются только релевантные документы) лежат на биссектрисе первой четверти координатной плоскости.
Пусть x,(rt,tj,) и *1+|(»;+|,7,+|) - две последовательные точки рабочей характеристики. Тогда коэффициент наклона прямой, соединяющей эти точки (тангенс угла наклона), вычисляется по формуле:
Г.+, -к
Для п точек рабочей характеристики рассматривается множество значений характеризующих изменение наклона рабочей характеристики при переходе из одной точки в другую. Среднее значение к и выборочная дисперсия задаются формулами:
В табл. 4 приведены результаты расчета значений к и S2 для тематических словников, упорядоченных, соответственно, по коэффициенту корреляции (R) и по исследуемому коэффициенту (К1).
Таблица экспериментальных данных показывает, что среднее значение тангенса угла наклона рабочих характеристик запросов, составленных из словников,
5 Попов И.И., Попов С.В. Об одном подходе к оценке технической эффективности ИПС и ее анализу.// НТИ, сер. 2, 1979, № 6.
упорядоченных по коэффициенту на полученных экспериментальных данных всегда выше (при меньшем отклонении точек рабочей характеристики от среднего значения). Это позволяет сделать вывод о том, что ранжирование терминов по интегральному коэффициенту приводит к более эффективным запросам (по сравнению с коэффициентом корреляции).
На рис. 3 изображены графики рабочих характеристик в координатах (г,>/) запросов, построенных ранжированием по коэффициентам К1 и Я, для рубрики 201.01.13 «Научные и технические общества по информатике и библиотековедению». Рис. 3а показывает прямые, построенные в соответствии со средними значениями тангенса угла наклона для рабочих характеристик, представленных на рис. 3.
В четвертой главе определены состав и структура документальной БД, в которой информационная база состоит из двух компонентов: коллекции записей собственно данных и описания этих данных.
Для класса информационных систем, предназначенных в основном для поиска отдельных фактов или описаний объектов, основной единицей обработки является документ. Документ базы данных как структурированная форма представления информации в общем случае определяется своим уникальным (в массиве документов базы данных) идентификатором. При этом структура документа может быть определена двумя путями: заданием общей схемы или контекстным определением каждого документа.
С точки зрения физической организации хранения данных в документальной АИПС предложена следующая иерархия понятий: База данных — > Файл БД — > Экстент — >Страница. Предложенная страничная форма представления структур БД обеспечивает компактное хранение и обновление лексикографических конструкций любого формата..
Комплекс поисковых средств включает информационно-поисковый язык, ряд процедур, реализующих различные механизмы поиска документов, а также интерфейсные средства, используемые для развития запроса.
Запрос в информационно-поисковом языке документальной АИПС представляет собой совокупность отдельных предложений, обычно объединенных общей тематикой и последовательностью поисковых действий, направленных на получение обобщенного результата. ИПЯ позволяет разрешать ссылки на результаты отдельных предложений в рамках текущего запроса, объединять поисковые результаты, выделять общее множество релевантных документов и т.п.
Формулы Бэкуса-Наура, описывающие базовые структурные единицы ИПЯ:
<Предложение запроса> ::=<Условие поиска> |
<Предложение запроса><Логическая операция><Предложение запроса>| (<Предложение запроса><Логическая операция><Предложение запроса>)
<Условие поиска> ::=<Область поиска><Оператор критерия><Выражение условия> | <Рёзультаг поиска>
Область поиска> ::=<Имя поля>|
(Область поиска> <Логическая операция> Область поиска>)
Отличительная особенность разработанного ИПЯ — возможность формирования логического выражения как в правой, так и в левой части условия поиска.
Использование терминов для поиска информации в документальной БД предполагает задание их не только путем выбора из частотного словаря или ввода с клавиатуры, но и с помощью специализированных словарных, рубрикационных или тезаурусных структур, а также путем отметки терминов в тексте документа. Допускается использование операторов маскирования, алгоритмов нормализации и ранее полученных результатов поиска.
Поисковые интерфейсные средства условно можно разделить на два класса. Первый класс (сценарии типа «укажи и выбери») - это конструкторы запросов, которые позволяют, используя термины поисковых словарей или других поисковых структур (тезаурусов, рубрикаторов, словников), в режиме диалога построить структурированное выражение той или иной сложности.
В основу средств формирования поискового запроса по технологии «укажи и выбери» положено три различных подхода к построению запроса,
ориентированных на разные степени подготовленности: пользователя:: конструктор запроса «по образцу», имеющий жестко фиксированную модель, поискового условия, предполагающую обязательное выполнение частных условий, относимых к полям, выбираемым из предопределенного списка; конструктор формирования запроса «по шагам», позволяющий формировать достаточно сложные предложения запроса последовательным наращиванием либо выражения условия (путем добавления очередного термина), либо всего предложения (путем добавления нового условия, поиска); конструктор формирования логического выражения, предполагающий непосредственный набор выражения запроса с возможностью обращения в произвольном порядке к словарям, спискам имен полей и т.д.
Второй класс интерфейсных средств - это средства, реализующие простейший сценарий типа «укажи и получи». В этом случае пользователь выделяет в отображаемом объекте (документе или множестве документов) значимые с его точки зрения элементы (термины в документе или словаре; документы в выборке) и, используя механизмы поиска по сходству (поиск аналогов, эвристический поиск, поиск с использованием обратной связи), получает выдачу, минуя этап составления поискового выражения.
Поиск путем реформулирования запроса на основе лексики документов, релевантность которых подтверждена пользователем, реализуется двумя типами поисковых технологий.
1. Поиск по терминам отдельного документа, который реализуется либо на основе комбинативной схемы (поиск документов-аналогов, содержащих указанное количество любых терминов текущего - просматриваемого пользователем документа), либо «жестким» отбором - по терминам, указанным; пользователем в текущем документе.
2. Поиск по терминам, статистически взвешенным на множестве документов, истинная релевантность которых была подтверждена пользователем. Группы статистически значимых терминов, на которых строится документальная выдача, формируются либо автоматически (в случае эвристического поиска), либо по отметкам пользователя (в случае поиска по обратной связи).
То есть, в процессе развития запроса используются оба типа обратной связи.
Схема поиска, представленная на рис.4, отражает требования к интерфейсным компонентам обоих классов и к организации процесса поиска в целом:
- подготовка следующего шага поиска выполняется непосредственно при обработке результата предыдущего: для развития поиска в качестве основного интерфейсного объекта в первую очередь используются документы;
- операционные объекты однородны на каждом шаге;
- на каждом шаге возможен возврат к ранее полученным результатам или оперативное переключение на другую операцию;
- оценка степени завершенности процесса поиска возможна по критерию исчерпания как лексики, так и документального пространства темы.
Статистически-значимые словосочетания
Тем самым, классическая схема выдачи документов «по запросу-выражению» расширена до динамически управляемого процесса кластеризации пространства документов и терминов. При этом процесс поиска может развиваться по принципу «расходящихся кругов», обеспечивая выявление «центров активации» искомого образа в семантической сети базы данных, т.е. построение множеств или цепочек документов, которые в свою очередь могут служить мостом к понятиям (документам), возможно, не содержащим терминов исходного запроса. При этом, для случая «проблемного» поиска, когда доказательство полноты не может быть сведено к формально вычисляемым показателям, оно компенсируется подтверждаемостью - получением результата другим путем, например, вхождением в информационное пространство БД через информационные объекты разной природы и/или использованием поисковых механизмов разного типа.
Таким образом, процесс поиска построен симметрично и реализует двойственную задачу: при подготовке запроса можно формировать коллекцию документов (непосредственным включением документов, к которым можно обращаться через «прямые» входы, такие как словари, рубрикаторы, указатели, мини-тезаурусы и т.д.), а при формировании поисковой выдачи -реформулировать запрос и формировать компоненты лингвистического обеспечения (словники, рубрикаторы и т.д.).
Основные результаты и выводы
Анализ состояния и тенденций развития поисковых систем и технологий показал, что перспективным направлением является создание персональных информационных систем. Функционально такие системы должны включать, помимо поисковых возможностей, средства формирования и систематизации информационных массивов, оценки и анализа результатов поиска, а также формирования и развития средств лингвистического обеспечения.
В рамках исследования информационно-поисковых систем и создания моделей, методов и средств поиска получены следующие результаты:
1. Для различных типов поисковых задач, характеризующихся различного типа информационными неопределенностями, определены логические модели и адекватные лингвистические средства поиска. Процесс поиска представлен как последовательность шагов, приводящих при посредстве системы к снятию информационных неопределенностей и получению значимого для пользователя результата. Разработана обобщенная схема информационного поиска, в которой технологические объекты обеспечивают локализацию и снятие неопределенностей соответствующего типа.
2. Определено понятие механизма поиска как преобразователя поискового запроса в выдачу, где в качестве поискового запроса может использоваться как совокупность терминов, так и совокупность ПОДов информационного массива. На основе линейного представления универсального информационного массива разработаны модели поисковых механизмов. Исследована взаимосвязь разработанных моделей и построена система моделей механизмов поиска, образующих
замкнутое пространство относительно операции абстрактной композиции, описывающей процессы развития ПОЗа.
3. Разработаны алгоритмы, реализующие модели поисковых механизмов. В основу алгоритмов положена совокупность процедур, преобразующих виртуальную матрицу «термин-документ», представленную на физическом уровне инвертированными словарными структурами. Обоснована целесообразность сохранения промежуточных поисковых результатов в физических структурах БД с тем, чтобы обеспечить возможность расширения матрицы «термин-документ».
4. На основе анализа лингвистических средств, используемых для фиксации контекста словоупотреблений, определено, что с точки зрения простоты и сбалансированности использования наиболее приемлемым лингвистическим средством является мини-тезаурус, оперативно создаваемый пользователем в процессе работы с информационным пространством предметной области.
Для построения семантической структуры мини-тезауруса предложено использовать меру, отражающую вес термина в тематическом информационном массиве и базирующуюся на структурных и частотных характеристиках термина. Экспериментально показано, что использование предложенного весового коэффициента позволяет выделить для темы пространство ядерных терминов частотного словаря, которые становятся дескрипторами мини-тезауруса.
5. На основе представления семантической связи между терминами как характеристики близости двух информационных потоков проведено экспериментальное исследование влияния предложенного весового коэффициента на коэффициент корреляции термина с тематической областью. Показано, что применение интегрального коэффициента, учитывающего две составляющие - коэффициент корреляции и вес термина в информационном массиве — позволяет повысить эффективность ранжирования терминов в процедурах расширения поискового запроса. Оценка эффективности интегрального коэффициента была проведена с использованием рабочей характеристики запроса в координатах «полнота - полезная работа». Результаты экспериментов для тематических областей БД «Информатика», задаваемых Рубрикатором ВИНИТИ, показали, что ранжирование терминов по значению интегрального коэффициента приводит к более эффективным запросам.
6. Определены состав и структура документальной базы данных, в которой информационная база состоит из двух компонентов: коллекции записей собственно данных и описания этих данных. Разработана форма представления инвертированных структур, обеспечивающая компактное страничное хранение и обновление лексикографических конструкций любого формата.
7. Разработан и описан комплекс поисковых средств, включающий информационно-поисковый язык и ряд процедур, реализующих различные механизмы поиска документов, а также интерфейсные средства, используемые для развития запроса. Построена технологическая схема, обеспечивающая выполнение требования адекватного информирования, которая включает два типа обратной связи: внешнюю, отражающую оценку пользователя, и внутреннюю, учитывающую статистические особенности использования терминов в конкретной базе данных.
Основные результаты диссертации отражены в следующих работах
Базы данных. Учебное пособие (Соавторы Максимов H.B., Попов И.И.) - М.: Форум, 2003,22,0 пл. (авт. 8,0 пл.).
Системы и технологии распределенной обработки научно-технической информации в ВИНИТИ (Соавторы Борисова Л.Ф., Максимов Н.В. и др.) // НТИ. -Сер. 1, -2003, - №10,2,3 пл. (авт. 1,0 п.л.).
Информационные ресурсы Internet. Электронный обучающий ? Web-узел. (CD ROM) (Соавторы Васина Е.Н. и др.) - М.: РГГУ, 2000.
Электронные библиотеки. Организация, технология и средства доступа (Соавторы Глухов В.А., Максимов Н.В.) // НТИ. -Сер. 1, -2000, - №10, 1,1 пл. (авт. 0,5 пл.).
Стратегии и технологии информационного поиска (Соавтор Максимов Н.В.) // НТИ-99: 4-я Международн. конференция «Интеграция. Информационные технологии. Телекоммуникации. Москва, 17-19 марта 1999г.» - М.:ВИНИТИ, 1999, 0,4 пл. (авт. 0,2 пл.).
Человеко-машинный информационный поиск в документальных базах данных (Соавтор Максимов Н.В.) // Теория и практика общественно-научной информации. - Вып. 12. -М.: ИНИОН РАН, 1996,1,0 пл. (авт. 0,5 пл.). Информационные ресурсы документальных баз; данных. (Соавторы Васина Е.Н., Максимов Н.В., Попов И.И., Резниченко П.И.) // НТИ-96: Международн. конференция. Москва, 20-21 ноября 1996г. - М.: ВИНИТИ, 1996, 0,2 пл. (авт. 0,05 пл.).
Исследование и сопоставление научно-технического потенциала России и других государств с помощью интеллектуальной ИПС (Соавторы Максимов Н.В., Эпштейн М.Я.) // Наука и технология: Россия и мир. - 1995, Вып. 5, 1,0 пл. (авт. 0,3 пл.).
Вопросы проектирования автоматизированной системы подготовки и выпуска информационных изданий. (Соавторы КопцеваЕ .Н., М акс им о вН. В. )//НТИ. -Сер. 1,1986. -№5,0,8 п л. (авт. 0,3 пл.).
Подписано в печать 15.01.2004. Формат 60x90/16. Печать цифровая. Бумага "Performer". Печ. л. 1,75. Тираж 80 экз. Заказ № 6114.
Отпечатано в ФГУП «Производственно-издательский комбинат ВИНИТИ», 140010, г. Люберцы Московской обл., Октябрьский пр-т, 403. Тел.554-21-86
А,
Оглавление автор диссертации — кандидата технических наук Голицына, Ольга Леонидовна
Введение.
Глава 1. Структурно-методологические основы информационнопоисковых систем
1.1. Информация в системах основной и информационной деятельности.
1.2. Человеко-машинный информационный поиск в документальных БД.
1.3. Типология информационной неопределенности и видов информационного поиска.
1.4. Обобщенная схема и средства информационного поиска.
1.4.1. Обобщенная схема информационного поиска.
1.4.2. Средства и интерфейсные объекты в поисковых технологиях.
1.4.3. Использование словарных и рубрикационных структур при подготовке и обработке запроса.
1.4.4.Средства поиска, обеспечивающие нормализацию лексики ИПЯ.
1.4.5.0ценка и обработка результатов поиска.
Выводы по первой главе.
Глава 2. Модели и алгоритмы информационного поиска в документальных
2.1. Матрица «термин-документ» как основа реализации поисковых механизмов.
2.1.1. Модель механизма поиска по совпадению терминов.
2.1.2. Модель механизма поиска по логическому выражению.
2.1.3. Модель механизма поиска с использованием контекстных операций
2.1.4. Модели механизма поиска по сходству.
2.1.4.1. Модель механизма поиска документов-аналогов.
2.1.4.2. Модель механизма эвристического поиска.
2.1.4.3. Модель механизма поиска с использованием обратной связи по релевантности терминов.
2.2. Взаимосвязь моделей механизмов поиска.
2.3. Алгоритмическая реализация моделей механизмов поиска.
2.3.1. Базовые процедуры работы с матрицей «термин-документ».
2.3.2. Алгоритм процедуры поиска по совпадению терминов.
2.3.3. Алгоритм процедуры поиска по логическому выражению.
2.3.4. Алгоритм процедуры поиска аналогов.
2.3.5. Алгоритм процедуры эвристического поиска.
2.3.6. Алгоритм процедуры поиска с использованием обратной связи по релевантности терминов
Выводы по второй главе.
Глава 3. Средства лингвистической поддержки информационного поиска в документальных БД.
3.1. Логика ИПЯ.
3.2. Статистические меры близости.
3.3. Исследование эффективности мер, основанных на структурно-частотных характеристиках.
3.3.1. Алгоритм построения иерархических словарных структур.
3.3.2. Ранжирование терминов словаря для расширения поискового запроса в технологии обратной связи.
3.3.3. Оценка эффективности использования интегрального коэффициента при ранжировании терминов для расширения запроса.
Выводы по третьей главе.
Глава 4. Реализация поисковых моделей и лингвистических средств в документальной ИПС.
4.1. Логическая структура документальной базы данных.
4.2. Физическая структура документальной базы данных.
4.3. Информационно-поисковый язык документальной ИПС.
4.4. Синтаксис и семантика использования дескрипторов.
4.5. Средства формирования запросов.
4.6. Реализация технологий поиска документов по сходству.
4.7. Технологические объекты для построения предложения запроса.
4.8. Схема и средства развития поискового процесса.
Выводы по четвертой главе.
Введение 2004 год, диссертация по документальной информации, Голицына, Ольга Леонидовна
Современный уровень развития информационных технологий делает доступными в реальном масштабе времени информационные ресурсы (ИР) самого разного объема и содержания. Для облегчения работы с большими объемами информации разрабатываются разнообразные формы и способы ее представления, а также методы поиска, что выражается, например, в создании «фирменных» стандартов и систем, индивидуально настраиваемых самим пользователем.
Широко используемое понятие «информационные системы» практически не имеет единого концептуального определения. Наиболее часто это понятие трактуется как «комплекс, состоящий из информационного фонда и процедур: управляющей, обновления, информационного поиска и завершающей обработки, - позволяющей накапливать, хранить, корректировать и выдавать информацию» [20].
Такое интуитивно-утилитарное определение информационной системы (ИС) «вытекает» и связано с устоявшейся и уже привычной, но, тем не менее, особой формой целенаправленной деятельности человека - обработкой информации как сведений
0 чем-то, материально представленных в форме документов на традиционных бумажных или машиночитаемых носителях. Т.е., «системность» отражает существо функционального отношения: состав и структура ИС определяется, исходя из требований к уровню эффективности обслуживания информационных потребностей конечных пользователей, прежде всего в части нахождения в накопленных массивах тех записей (документов), которые предположительно содержат нужные сведения.
Однако принципиально важным фактором, определяющим направление развития современных информационных систем, является то, что взаимодействие пользователей с информационными ресурсами происходит в режиме «информационного самообслуживания», когда пользователь, по существу, уже не разделяет свою деятельность на информационную и основную1. Это особенно важно учитывать в процессах информационного обеспечения научных исследований, когда объект поиска не может быть заранее четко определен и когда изначально определенная цель поиска может измениться в процессе самого поиска, например, при ознакомлении с найденным документом, причем факт изменения цели может быть и не осознан исследователем явно, что в итоге может привести к неполному результату поиска.
Автоматизированная информационная система, ориентированная на персональную информационную поддержку основной деятельности, интегрирующая такие спе
1 На наш взляд, именно эта особенность определяет необходимость создания информационных систем с поисковыми интерфейсами более сложными, чем «запросно-ответные». циализированные средства, как поиск, обработка и организация информации, должна строиться с учетом ряда следующих разноплановых особенностей.
1. Используемые информационные ресурсы наряду с оригинальным авторским представлением материала в большинстве своем характеризуются высокой системати-зированностью (тематической профильностью источников и ядерностью тематических потоков), а также практически обязательным наличием справочной информации (поисковых образов документов в предметной области — ПОДов, и систем нормативно-справочной информации - рубрикаторов и тезаурусов, обеспечивающих единообразие представления и организации доступа к ИР).
2. Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию «профессионализма» - информационного (подготовленный/неподготовленный пользователь) и предметного (профессионал/непрофессионал).
Функционирование современных ИПС [67] основывается на двух предположениях: 1) документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков; 2) пользователь способен указать этот признак. Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому, процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой. Такие понятия, как стратегия и технология поиска, средства и методы, модели и алгоритмы являются достаточно употребляемыми, однако разные авторы используют эту терминологию в разных контекстах и зачастую наделяют разным содержанием. Приведем несколько примеров.
В [50] процесс поиска сведен к выбору критерия отбора, максимизирующего количество релевантных документов, минимизирующего количество выданных документов или обеспечивающего уникальность получаемой информации.
В [51] стратегия поиска определяется как общий план диалогового сеанса, а тактика - как путь дальнейшего перемещения в процессе поиска. В [70] вводятся библиографическая, аналитическая и эмпирическая стратегии, которые выделяются по специфичности информационной потребности и требованиям к знаниям пользователя и ресурсам ЛИПС. Библиографическая стратегия ориентирована на поиск по заданным библиографическим характеристикам документа, аналитическая - на поиск, когда конкретные характеристики документа отсутствуют, однако требования к его информационному содержанию известны достаточно точно. Эмпирическая - на поиск, когда вводится информация о пользователе, которая используется для построения профиля его интересов. Профиль сопоставляется с хранящимися в системе профилями-прототипами (если профиль близок к прототипу, в качестве ответа на запрос предлагаются результаты поиска по запросу-прототипу). В [14, 17] определяются четыре основных класса стратегий информационного поиска: случайная (последующий вариант формулировки поискового предписания никак не связывается с предыдущими пробами), стратегия расширения, стратегия сужения, смешанная (композиционная) стратегия. В [52] стратегия связывается с выбором различных подвидов функции просмотра и печати результатов поиска с точки зрения снижения суммарных затрат пользователя.
В [56, 80, 82] рассматриваются технологии отбора документов и формы задания условия отбора; определяется поиск с обратной связью по релевантности как одна из поисковых стратегий. В [69] рассматриваются технологии поиска с использованием логических операторов и методов сходства документов по ближайшему окружению. В [83] как ключевая часть поиска рассматривается интерактивный отбор поисковых терминов. В [65] информационный поиск рассматривается как способ ориентации в базе данных. В [68] предложена логическая модель информационного поиска в ситуации неопределенности.
В [62] дано 6 видов рекомендаций по отысканию информации при интерактивном поиске: начальный поиск документов, отбор документов по ссылкам, просмотр потенциально релевантных документов, отбор документов по характеристикам первоисточников, постоянное отслеживание определенных источников информации, систематическая работа с определенным источником для отбора релевантной информации.
В [73] рассматриваются три вида методов поиска: 1) математические (вероятностный, векторного пространства и кластеризации); 2) лингвистические; 3) алгоритмические. Автор утверждает, что, определив соответствующую логику с моделью и методом доказательств, можно использовать все три вида методов.
В [63] анализируются четыре метода информационного поиска (булева логика с точным совпадением, расширенная булева логика, вероятностный поиск, поиск по кластерам) в связи с характером информационной потребности и даются рекомендации по использованию методов. В случае уточнения (пользователю известны какие-то библиографические признаки нужного ему документа) наиболее эффективен поиск на точное совпадение терминов. При тематическом поиске (пользователь может сформулировать тематику своего запроса в адекватных понятиях и терминах) рекомендуется использовать кластерные или вероятностные методы и расширенную булеву логику. В случае неопределенного поиска (пользователь хочет получить информацию о понятиях и отношениях в малознакомой ему тематической области) лучше применять кластерные методы.
Метод оценки эффективности поиска, предлагаемый в [55], базируется на смешивании моделированных и реальных информационных потребностей и предполагает использование для оценки результатов как группы испытуемых, так и индивидуальных планов экспертной группы. При оценках различается тематическая и ситуационная релевантность. Учитывается также динамический характер информационных потребностей, которые у одного и того же потребителя могут со временем изменяться.
В [86] перечисляются 7 этапов поиска: 1) организация стратегии поиска, 2) ввод первой версии запроса, 3) начальная адаптация к интерактивному поиску, 4) выработка конечной версии поисковой стратегии, 5) испытание конечной версии стратегии на выбранных файлах, 6) применение поисковой стратегии для поиска в различных интерактивных службах, 7) постпоисковые операции - заказ документов, связь с авторами, разработка стратегии.
Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, либо отыскав дополнительные сведения, либо организовав процесс таким образом, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.
В то же время, для пользователей-профессионалов характерна устойчивость тематического профиля, а в том случае, если они являются «информационно-ориентированными», то им также свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь создает по существу новый, «самостоятельный» проблемно-ориентированный, индивидуально обновляемый и пополняемый информационный ресурс, включающий помимо подборок документов также и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т.д.
Упомянутая ранее особенность работы пользователя' в режиме «самообслуживания», в контексте задачи автоматизации совокупной деятельности означает, что система должна представлять собой среду, обеспечивающую поддержку не только функций потребителя по обработке найденной информации и тех функций, которые традиционно относились к функциям информационного посредника (интерпретация запроса, его перевод на информационно-поисковый язык - ИПЯ, выбор ИР,' автоматизированный поиск и ручной отбор материалов), но также и такие «обеспечивающие» функции, как структурирование информационной потребности, лексическая адаптация запроса, оценка, систематизация : и обработка результатов поиска, причем на уровне как отдельного документа, так и информационных ресурсов в целом. Отметим, что технические возможности, которыми ныне располагает пользователь, вполне позволяют ему фактически создавать информационный; ресурс— формировать массивы, систематизировать и создавать внешние представления их содержания для собственного или внешнего использования.
При всем разнообразии, средств поиска и представления ресурсы научной информации: по-прежнему характеризуются достаточной формализованностью и систематизированностью как в части формирования, так и в части существования в виде потребительского информационного продукта. Основой, обеспечивающей стабильность процесса генерации-потребления информации, является лингвистическое обеспечение (JIO).
В условиях совмещения г пользователем функций генератора ИР и потребителя принципиальными становятся такие системные требования, предъявляемые к лингвистическому обеспечению, как. простота к сбалансированность: JIO должно включать лишь те средства, которые образуют единое целое, соразмерны и, безусловно, необходимы для эффективного функционирования системы.
Большое значение имеет гибкость лингвистического обеспечения. Эффективность поиска, безусловно, повышается при использовании на этапе формирования запроса отраслевых словарей и тезаурусов. Следует, однако, отметить, что составление таких средств вручную занимает несколько лет, причем за это время многое меняется и в проблематике, и в лексике отрасли.
Для анализа использования лексики тезаурусов автором было проведено исследование динамики использования дескрипторов информационно-поискового тезауруса по информатике [16] при индексировании базы данных ВИНИТИ РАН «Информатика». Результаты исследования представлены в Таблице 1 и на Рис. 1.
Таблица 1. Анализ использования дескрипторов тезауруса
Год Кол-во док-тов Кол-во кл. сл. в поле KW Кол-во дескрипторов тезауруса в словнике Доля дескрипторов в поле KW
1981 5 18 11 0,611
1982 23 93 46 0,495
1983 42 147 91 0,619
1984 167 454 210 0,463
1985 713 1461 479 0,328
1986 4718 5242 991 0,189
1987 6165 6398 1025 0,160
1988 6575 6518 1013 0,155
1989 7017 7000 983 0,140
1990 6715 6805 963 0,142
1991 5699 6515 865 0,133
1992 4473 5977 794 0,133
1993 3932 5218 734 0,141
1994 4473 7400 722 0,098
1995 4420 5367 533 0,099
1996 4355 4195 684 0,163
1997 2758 7200 596 0,083
1998 832 2999 346 0,115
Доля дескрипторов в словнике по годам
0.050 --
0.000 I . I . , I . . I . . I . . . .
1981 1982 1983 1984 1985 1906 1987 1988 1989 1990 1991 1992 1993 1994 1995 199в 1997 1998
Рис. 1. Распределение доли дескрипторов тезауруса по годам.
Исследования показали, что доля дескрипторов тезауруса, использованных при индексировании документов, существенно уменьшается с течением времени.
С другой стороны, использование при поиске достаточно сложных структур, каковыми являются информационно-поисковые тезаурусы, для пользователя может представлять определенную трудность. Поэтому одной из задач данной работы является разработка и исследование мини-тезауруса - иерархически упорядоченного проблемно-ориентированного словника, поддержка которого в актуальном состоянии ведется достаточно простыми автоматизированными средствами.
В целом же, автоматизация информационной деятельности должна основываться на общих принципах и теоретических моделях, которые, во-первых, охватывают максимальное количество типов и уровней процессов, как генерации, так и обработки информации, а во-вторых — будут работоспособны при реализации конкретных систем.
Целью диссертационной работы является исследование информационно-поисковых систем и создание комплекса моделей, методов и средств поиска в документальных ИР.
В работе определены следующие основные задачи:
- системный анализ взаимосвязи информационных объектов в процессах генерации-поиска информации;
- определение основных принципов функционирования документальных информационных систем (ИС) и построение обобщенной схемы поиска в документальных БД;
- определение понятия механизма поиска и разработка замкнутой системы математических моделей механизмов информационного поиска в документальных БД;
- исследование состава и структуры лингвистического обеспечения автоматизированных ИС, ориентированных на поиск научной информации;
- разработка средств автоматизированного создания и использования компонентов лингвистического обеспечения, в том числе разработка методов и средств построения иерархически упорядоченных проблемно-ориентированных словников (мини-тезаурусов);
- разработка обобщенной технологии, языка запросов и программных средств поиска информации в документальных БД.
Диссертационная работа состоит из введения, четырех глав, заключения и приложений.
Заключение диссертация на тему "Моделирование и разработка средств и технологий поиска документальной информации"
Выводы по четвертой главе
1. Определены состав и структура документальной базы данных, в которой информационная база состоит из двух компонент: коллекции записей собственно данных и описания этих данных. При этом структура документов может быть определена двумя путями: заданием схемы - последовательности именованных типизированных полей данных, или контекстным определением — использованием специализированных языков разметки (например, HTML или XML), задающих индивидуальные особенности представления материала каждого документа. Использование встраиваемых определений структуры позволяет ввести «самоопределяемые» форматы представления документов, что обеспечивает практически неограниченную гибкость при организации хранения коллекций разнородных документов.
2. Разработана форма представления словарных структур, обеспечивающая компактное страничное хранение и обновление лексикографических конструкций любого формата.
3. Разработан и описан комплекс поисковых средств, включающий информационно-поисковый язык, ряд процедур, реализующих различные механизмы поиска документов, а также интерфейсные средства, используемые для развития запроса.
4. Построена схема соотношения основных объектов и средств, участвующих в процессе поиска. Показано, что технологическая схема, обеспечивающая выполнение требования адекватного информирования, включает два типа обратной связи: внешнюю, отражающую оценку пользователя, и внутреннюю, учитывающую статистические особенности использования терминов в конкретной базе данных.
Заключение
Анализ состояния и тенденций развития поисковых систем и технологий показал, что перспективным направлением является создание персональных информационных систем. Функционально такие системы должны включать, помимо поисковых возможностей, средства формирования и систематизации информационных массивов, оценки и анализа результатов поиска, а также формирования и развития средств лингвистического обеспечения.
В рамках исследования информационно-поисковых систем и создания моделей, методов и средств поиска получены следующие результаты:
1. Для различных типов поисковых задач, характеризующихся различного типа информационными неопределенностями, определены логические модели и адекватные лингвистические средства поиска. Процесс поиска представлен как последовательность шагов, приводящих при посредстве системы к снятию информационных неопределенностей и получению значимого для пользователя результата. Разработана обобщенная схема информационного поиска, в которой технологические объекты обеспечивают локализацию и снятие неопределенностей соответствующего типа.
2. Определено понятие механизма поиска как преобразователя поискового запроса в выдачу, где в качестве поискового запроса может использоваться как совокупность терминов, так и совокупность ПОДов информационного массива. На основе линейного представления универсального информационного массива разработаны модели поисковых механизмов. Исследована взаимосвязь разработанных моделей и построена система моделей механизмов поиска, образующих замкнутое пространство относительно операции абстрактной композиции, описывающей процессы развития ПОЗа.
3. Разработаны алгоритмы, реализующие модели поисковых механизмов. В основу алгоритмов положена совокупность процедур, преобразующих виртуальную матрицу «термин-документ», представленную на физическом уровне инвертированными словарными структурами. Обоснована целесообразность сохранения промежуточных поисковых результатов в физических структурах БД с тем, чтобы обеспечить возможность расширения матрицы «термин-документ».
4. На основе анализа лингвистических средств, используемых для фиксации контекста словоупотреблений, определено, что с точки зрения простоты и сбалансированности использования наиболее приемлемым лингвистическим средством является мини-тезаурус, оперативно создаваемый пользователем в процессе работы с информационным пространством ПрО.
Для построения семантической структуры мини-тезауруса предложено использовать меру, отражающую вес термина в тематическом информационном массиве и базирующуюся на структурных и частотных характеристиках термина. Экспериментально показано, что использование предложенного весового коэффициента позволяет выделить для темы пространство ядерных терминов частотного словаря, которые становятся дескрипторами мини-тезауруса.
5. На основе представления семантической связи между терминами как характеристики близости двух информационных потоков проведено экспериментальное исследование влияния предложенного весового коэффициента на коэффициент корреляции термина с тематической областью. Показано, что применение интегрального коэффициента, учитывающего две составляющие — коэффициент корреляции и вес термина в информационном массиве — позволяет повысить эффективность ранжирования терминов в процедурах расширения поискового запроса. Оценка эффективности интегрального коэффициента была проведена с использованием рабочей характеристики запроса в координатах «полнота — полезная работа АИПС». Результаты экспериментов для тематических областей БД «Информатика», задаваемых Рубрикатором ВИНИТИ, показали,, что ранжирование терминов по значению интегрального коэффициента приводит к более эффективным запросам.
6. Определены состав и структура документальной базы данных, в которой информационная база состоит из двух компонент: коллекции записей собственно данных и описания этих данных. Разработана форма представления инвертированных структур, обеспечивающая компактное страничное хранение и обновление лексикографических конструкций любого формата.
7. Разработан и описан комплекс поисковых средств, включающий информационно-поисковый язык, технологию и ряд процедур, реализующих различные механизмы поиска документов, а также интерфейсные средства, используемые для развития запроса. Построена технологическая схема, обеспечивающая выполнение требования адекватного информирования, которая включает два типа обратной связи: внешнюю, отражающую оценку пользователя, и внутреннюю, учитывающую статистические особенности использования терминов в конкретной базе данных.
Представленные в диссертационном исследовании модели и средства обеспечивают создание комплекса компонентов лингвистического, информационного и программного обеспечения автоматизированных информационных систем. На их основе были разработаны:
- концепция, архитектура и ряд программных компонентов информационной системы IRBIS, предназначенной для многоаспектного поиска информации в библиографических, реферативных и полнотекстовых базах данных разнородных документов;
- система управления базами данных, обеспечивающая контроль доступа и необходимое разнообразие форм представления документальной информации;
- информационно-поисковый язык, обеспечивающий расширенные возможности управления отбором документов в разнородных документальных базах данных;
- обобщенная технология информационного поиска и ряд унифицированных интерфейсных средств, обеспечивающих эффективные стратегии информационного поиска.
Разработанная при непосредственном участии автора документальная ИПС IRBIS применяется для создания промышленных информационных ресурсов: для генерации баз данных, использующихся в локальном режиме (MS DOS и Windows версии), в том числе на CD ROM носителях, а также для создания электронных библиотек (Web-версия и Z39.50-Bepcra).
Результаты диссертационной работы внедрены в ВИНИТИ РАН, ИНИОН РАН, ВНТИЦентре РФ, и др. (акты о внедрении приведены в Приложении 13)
Библиография Голицына, Ольга Леонидовна, диссертация по теме Информационные системы и процессы, правовые аспекты информатики
1. Аветисян Д.О. Проблемы информационного поиска. — М.: Финансы и статистика, 1981.
2. Базмаджян Р.А. и др. Универсальная система «Кристалл». — Ереван: АрмНИИНТИ, 1969.
3. Белнап Н., Стал Т. Логика вопросов и ответов. — М.: Прогресс, 1981.
4. Белоозеров В.Н., Косарская Ю.П. Опыт разработки словаря с разветвленной системой тезаурусных связей // НТИ. Сер. 2,2001. N 8. - С. 28-31.
5. Браславский П.И., Гольдштейн С.Л., Ткаченко Т.Я. Тезаурус как средство описания систем знаний // НТИ. Сер. 2,1997. N 11. - С. 16-22.
6. Васина Е.Н., Голицына О.Л., Максимов Н.В., Попов И.И. Информационные ресурсы и документальные базы данных. Создание, использование, анализ (учебное пособие). М.: РГГУ., 1997.
7. Войшвилло И.К. Понятие. М., 1967.
8. Воробьев Г.Г. Проблема документальной информации / сб. Кибернетика и документалистика. Механизмы процесса накопления, хранения и поиска научной информации. М.: Наука.—1966., с.5-34.
9. Герасимов М.Б., Пунтиков Н.П., Перегудова М.В., Маленков С.А., Цыганков М.А., Евграфов А.А., Виноградов А.Е. Методы автоматического построения специализированного тезауруса // СТАР СПб / www.dialog-21 ,ru
10. Голицына О.Л., Максимов Н.В. Стратегии и технологии информационного поиска // 4-я Международная конференция НТИ-99: «Интеграция. Информационные технологии. Телекоммуникации. Москва, 17-19 марта 1999г.» М.:ВИНИТИ, 1999.
11. Голицына О.Л., Максимов Н.В. Человеко-машинный информационный поиск в документальных базах данных // Теория и практика общественно-научной информации. Вып. 12. - М.: ИНИОН РАН, 1996.
12. Голицына О.Л., Максимов Н.В., Попов И.И. Базы данных: Учебное пособие. — М.: Форум: ИНФРА-М, 2003. 352 с.
13. Горькова В.И., Зотова Л.А. Критерии оценки структурных связей понятий классификационных систем. // НТИ, сер. 2, 1979, № 9.
14. Димитрова К. Стратегии информационного поиска // Библиотека, 1995, 3, №1, С. 16-22.
15. Забегаева Н.Н., Максимов Н.В. Информационный поиск и модели поведения пользователей. // НТИ. Сер.2. -2001, №10.
16. Информационно-поисковый тезаурус по информатике. / Сост. Пащенко Н.А., Ксенофонтова Е.Б. Скоробогатая В.Ф., научный редактор Черный А.И. -М.:ВИНИТИ, 1987.
17. Карначук В.И. Классификация информационно-поисковых стратегий. — Новосибирск, 1986.
18. Козачук М.В. Концептуальный анализ текстов в системах автоматической обработки научно-технической информации. Дисс. на соискание ученой степени кандидата техн. наук по спец. 05.25.05. М.: ВИНИТИ, 2002.
19. Кравченко Е. А., Павлов А. Н., Попов И. И. Реализация ассоциативных поисковых стратегий в документально-лексической информационной базе // НТИ, Сер.2, 1985. -№1.
20. Криницкий Н.А., Миронов Г.Д., Фролов Г.Д. Автоматизированные информационные системы /Под ред. Дородницына А.А. М.: Наука, 1982. —384 с.
21. Лукашевич Н.В., Салий А.Д. Тезаурус для автоматического индексирования и руб-рицирования: разработка, структура, ведение // НТИ, Сер. 2, 1996. N 1. - С. 1-6.
22. Мазур М. Качественная теория информация. М.: Мир, 1974,239с.
23. Максимов Н.В. Исследование и моделирование систем управления доступом к гетерогенным информационным ресурсам. Дисс. на соискание ученой степени доктора техн. наук по спец. 05.25.05. — М.: РГГУ, 2001.
24. Максимов Н.В. Компоненты и технологии интерактивного поиска документальной информации. // МФД. 2001, №3.
25. Маршакова Н.Б. Построение информационно-поискового тезауруса методов дистрибутивно-статистического анализа. // НТИ, сер. 2,1977, № 5.
26. Михайлов А.И., Черный А.И., Гиляревский Р.С. Основы информатики. М.: Наука, 1968.
27. Москович В.А. Информационные языки. М.: Наука, 1971.
28. Озкарахан Э. Машины баз данных и управление базами данных. / Пер. с англ. М.: Мир, 1989.-С. 539-593.
29. Пименов Е.Н. Нормативность и некоторые проблемы разработки тезаурусов и других лингвистических средств ИПС // НТИ. Сер. 1,2000. N 5. - С. 7-16.
30. Плотников Б.А. Об использовании лексико-графических данных при построении тезауруса. // НТИ, сер. 2.1975, № 9.
31. Покрас Ю.Л. Об одном способе установления парадигматических отношений при построении информационно-поискового тезауруса. // НТИ, сер. 2,1971, №3.
32. Попов И.И. Информационные ресурсы и системы: реализация, моделирование, управление. М.: ТПК АЛЬЯНС, 1996,408с.
33. Попов И.И. Моделирование и оптимизация автоматизированных информационных систем и технологий управления документальными информационными ресурсами. / Дисс. на соискание уч. степени доктора техн. наук. — М.: РГГУ, 1996.
34. Попов И.И. Некоторые модели оценки и оптимизации информационных систем: математический аппарат моделирования // НТИ, Сер. 2,1981. № 3. - С. 10-16.
35. Попов И.И. Некоторые модели оценки и оптимизации информационных систем: оценка качества лингвистического обеспечения // НТИ, Сер.2,1981. № 6. -С. 7-14.
36. Попов И.И. Оценка и оптимизация информационных систем. М.: МИФИ, 1981.
37. Попов И.И., Попов С.В. Об одном подходе к оценке технической эффективности ИПС и ее анализу. // НТИ, сер. 2,1979, № 6.
38. Попов И. И., Романенко А. Г. Некоторые вопросы оптимизации комплектования информационных фондов. // Вопросы моделирования и оптимизации информационных систем, Вып. 4 М.: Информэлектро, 1973.
39. Попов И.И., Храмцов П.Б. Распределение частоты встречаемости терминов для линейной модели информационного потока // НТИ, Сер. 2,1991. № 2. - С. 23-27.
40. Ратцева И.И. Проблема выбора значения слова и смысловые расстояния. //НТИ, 1966, №5.
41. Селезнева Л.В. Принципы построения функционального тезауруса: структурный аспект / Текст: варианты и интерпретации. Бийск, Вып. 5. 2000. - С. 121-122.
42. Семенов Ю.А. Современные поисковые системы // (ГНЦ ИТЭФ) / book.itep.ru
43. Скороходько Э.Ф. Лингвистические проблемы обработки текстов в автоматизированных информационно-поисковых системах. // Вопросы информационной теории и практики. Сб.№25, М.: ВИНИТИ. 1974.
44. Смирнов В.А., Финн В.К. Предисловие к книге Белнап Н., Стал Т. Логика вопросов и ответов. — М.: Прогресс, 1981.
45. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. М.: Советское радио, 1973.
46. Урманцев Ю.А. Начала общей теории систем. //Системный анализ и научное знание. -М.: Наука, 1978, с.7-41.
47. Урсул А.Д. Отражение и информация. М.: Мысль, 1973.
48. Харин Н. П. Метод ранжирования выдачи, учитывающий автоматически построенные ассоциативные отношения между терминами. // НТИ, Сер. 2, № 9, 1989г., С. 19-93.
49. Шайкевич А.Я. Дистрибутивно-статистический анализ в семантике. // Принципы и методы семантических исследований М.:Наука, 1976.
50. Шкаренкова JI. Оптимизация стратегии поиска при работе с зарубежными базами данных. София, 1987.
51. Bates М. How to use information search tactics online. // Online, 1987, 11, №3.
52. Bates M. Search strategies for dialog's view fee. // Online, 1995, 1, pp.22-31.
53. Bates M. The design of browsing and berrypieking techniques for the online search interface. Online Rev. V.13, № 5,1989, p. 407-424.
54. Bookstein A. Probability and fuzzy-set applications to information retrieval. White Plains, N.Y. 1985.
55. Borlund P., Ingwersen P. The development of a method for the evaluation of interactive information retrieval systems // J. Doc., 1997, 53,3, pp.225-250.
56. Boughanem M., Chrisment C., Soule-Dupuy C. Query modification based on relevance back-propagation in an ad hoc environment // Inf. Process, and Manag., 1999,35, pp. 121139.
57. Buckley C., Allan J., Salton G. Automatic routing and retrieval using SMART: TREC-2. Inf. Proc.& Manag. V. 31, №3, 1986, p. 315-326.
58. Cooper William S. Getting beyond Boole. Inf. Process, and Manag. V.24, № 3, 1988.
59. Cory K. Discovering hidden analogies in an online humanities database // Libr. Trends, 1999,48, pp.60-71.
60. Deogun Jitender S. Integration of information retrieval and database management systems. Inf. Process, and Manag. V 24, №3, 1988.
61. Ellis D., Cox D., Hall K. A comparison of the information seeking patterns of researchers in the physical and social sciences // J. Doc., 1993,49(3), pp.356-369.
62. Ingwersen P. Wormell I. Modern indexing and retrieval techniques matching different types of information needs. // 44th FID Conf. and Congr., Aug. 28 Sept. 1, 1988. Pt 1. -1988, pp. 192-203.
63. Keen E. Michael. The use of term position devices in ranked output experiments. J. Doc. V.47, № 1, 1991, C. 1-22.
64. Kerr S.T. Wayfinding in an electronic database: the relative importance of navigational cues vs. mental models // Inform, processing a. management, 1990, Vol.26, N 4. P. 511533.
65. Losee Robert M. An analytic measure predicting information retrieval system performance. Inf. Process, and Manag. V.27, № 1,1991, C. 1-13.
66. Maron M.E. Probabilistic design principles for conventional and full-text retrieval systems. // Inf. Process, and Manag., 1988, 24, 3.
67. Miyamoto S. Application of rough sets to information retrieval // J. of the Amer. soc. for inform, science Vol. 49, N 3. P. 195-205.
68. Mohan К. C. Free-text retrieval systems: R&D in information retrieval // J. Sci. and Ind. Res., 1993, 52, №5, pp. 338-349.
69. Pejtersen A.M. Design of intelligent retrieval systems for libraries based on models of users search strategies. New York, 1986.
70. Radecki Tadeusz. Probabilistic methods for ranking output documents in conventional Boolean retrieval systems. Inf. Process, and Manag. V 24, N 3, 1988.
71. Rijsbergen C.J. Information Retrieval. London-Boston, Butterworths, 1975.
72. Rijsbergen K.V. Logics for information retrieval. // Note recens. e notiz, 1988, 37 (1-2), pp.121-124.
73. Robertson S. E.; Beaulieu M. Research and evaluation in information retrieval. J. Doc. V. 53, №1,1997, P. 51-57.
74. Robertson S.E., Sparck J.K. Relevance weighting of search. Doc. Retriev. Syst., London, 1988 C. 143-160.
75. Robertson S.E. On relevance weight estimation and query expansion J. Doc. V.42, № 3, 1986.
76. Robertson S.E., Thompson C.L., Macaskill M.J.; Bovey J.D. Weighting, ranking and relevance feedback in a front end system. J. Inf. Sci. V. 12, №1-2, 1986.
77. Salton G., Zhang Y. Enhancement of text representations using related document titles. Inf. Proc.& Manag. V. 22, №5, 1986, p. 385-394.
78. Satoh Kenji, Akamine Susumu, Okumura Akitoshi. Improvements on query term expansion and ranking formula. Pap. 4th Text RE trie v. Conf. (TREC-4), Gaithersburg, Md, Oct., 1996. N1ST Spec. Publ., № 500-236,1996, C. 475-481.
79. Shaw W. M. Retrieval expectations, clusterbased effectiveness, and performance standards in the CF database // Inf. Process, and Manag., 1994,30, №5, pp.711-723.
80. Sparck J.K. The way forward in information retrieval. ELSNews, june, 1997, P. 12-13.
81. Spink A. Study of interactive feedback during mediated information retrieval // J. of the Amer. soc. for inform. Science, 1997, Vol. 48, N 5. P. 382-394.
82. Spink A., Saracevic T. Interaction in information retrieval: selection and effectiveness of search terms // J. of the Amer. soc. for inform. Science, 1997, Vol. 48, №8. pp.741-761.
83. Swanson D. R. Undiscovered public knowledge // Libr. Quart. 1986, 56, №2.
84. Tailor R.S. Question-negotiation and information seeking in libraries. // College and Research Libraries, 1968,29, pp. 178-194.
85. Tenopir C. Online information hunting //J. Amer. Soc. Inf. Sci., 1993, 44, №6, pp.365367.
86. Tenopir C., Shu Man Evena. Magazines in full text: uses and rearch strategies , Online Rev., V.13,№ 2,1989, p. 107-118.
87. Wade Stephen J., Willett Peter, Bawden David. SIBRIS: the Sandwich Interactive Browsing and Ranking Information System: J. Inf. Sci., V 15, N 4-5, 1989, p. 249-260.
88. Yochum Julian A. Research in automatic profile creation and relevance ranking with LMDS: Pap. 3rd Text REtriev. Conf. (TREC-3), Gaithersburg, Md, Nov. 2-4, 1994. NIST Spec. Publ, №500-225, 1995, C. 289-297.
-
Похожие работы
- Разработка математического и программного обеспечения систем управления знаниями на основе семантических сетей для поиска информации
- Исследование и разработка моделей и алгоритмов структурно-логической обработки информации в документальных информационно-аналитических системах
- Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет
- Исследование и моделирование взаимодействия пользователя с информационной системой в задачах документального поиска
- Документальный подход в библиотековедении и библиографоведении