автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов

кандидата технических наук
Дружинин, Александр Вячеславович
город
Ханты-Мансийск
год
2005
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов»

Автореферат диссертации по теме "Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов"

На правах рукописи УДК 519.15; 004.657

Дружинин Александр Вячеславович

РАЗРАБОТКА ТЕХНОЛОГИИ, МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ И ПРОГРАММНЫХ СРЕДСТВ ОРГАНИЗАЦИИ СМЕШАННОГО ПОИСКА В БАЗАХ ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ

05.13.01 - системный анализ, управление и обработка информации (технические науки)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Барнаул - 2005

Работа выполнена в Югорском научно-исследовательском институте информационных технологий

Научный руководитель:

доктор технических наук Камышников Алексей Иванович

Официальные оппоненты:

доктор технических наук, профессор Поляков Юрий Александрович

кандидат технических наук, старший

научный сотрудник

Врагов Андрей Владимирович

Ведущая организация:

Томский университет систем управления и радиоэлектроники (г. Томск)

Защита диссертации состоится 07 октября 2005 г. в 12 часов, на заседании регионального диссертационного совета КМ 212.004.01 в Алтайском государственном техническом университете по адресу: 656038, г. Барнаул, пр. Ленина, 46.

С диссертацией можно ознакомиться в библиотеке Алтайского государственного технического университета им. И.И. Ползунова.

Автореферат разослан 6 сентября 2005 г.

Ученый секретарь диссертационного совета к.э.н., доцент

¿006 967

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. Достижения в представлении информационных массивов, в том числе электронных каталогов библиотек, позволили получать более полную информацию о составе, наполнении и доступности фондов конкретной библиотеки. Для этих задач в настоящее время активно используются сервисы сети Интернет, позволяющие сократить временные затраты на поиск источников, находящихся в библиотеках, а также определить библиотеку, в которую можно обратиться для получения необходимого источника, в том числе на электронном носителе.

Растущие потребности общества требуют наличия качественных и быстрых способов создания электронных источников информации. На данном этапе развития современных информационных технологий и получения дополнительных возможностей копирования и воспроизводства цифровой и иной информации у библиотек появилась возможность самостоятельно создавать базы полнотекстовых документов.

Обеспечение эффективного поиска в больших массивах полнотекстовых документов (ПД) - новая задача, которую требуется решить для обеспечения доступа к базам полнотекстовых документов. В то же время задача информационного поиска постоянно усложняется с ростом числа и объема доступных документов. Для базы полнотекстовых документов можно говорить о двух видах поиска:

1. Поиск по метаданным - по полям библиографической записи в БД автоматизированной библиотечной информационной системы.

2. Полнотекстовый поиск - поиск по любому фрагменту текста документа.

Полнотекстовый поиск предназначен для организации поиска только по электронным полнотекстовым документам. Поиск по метаданным более универсален, так как может быть использован для поиска любых типов документов - графических, аудио-видео документов, компьютерных программ.

Эффективность поиска зависит от точности поискового запроса. Сложность формирования полнотекстовых запросов может быть обусловлена:

• незнанием набора поисковых терминов, определяющих искомый документ;

• отсутствием достаточного опыта и квалификации формирования таких запросов;

• отсутствием принятой и устоявшейся терминологии в интересующей области. Нередко пользователь, осуществляющий поиск, имеет самое приблизительное представление о специфике интересующей его тематики.

Результатом выполнения неточного запроса является значительное число документов, релевантных запросу, но не отражающих намерения пользователя - информационный шум. Введение формализованных параметров в процесс поиска - указание автора, предметной рубрики, ключевых слов или других метаданных значительно уменьшает число релевантных документов и повышает качество результатов поиска. Использование метаданных из полей библиографического описания БД автоматизированной библиотечной информационной системы (АБИС) позволяет обеспечить соответствие метаданных стандартам на создание библиографических описаний.

Все это обуславливает актуальность и значимость исследований, направленных на решение одной из ключевых проблем информационного поиска - проблемы правильного отображения информационных потребностей пользователей при организации уточненных запросов. Решение этой проблемы позволит уменьшить информационный шум, возникающий при поиске в базе полнотекстовых документов.

Цель исследования. Разработать новую технологию смешанного поиска в базе полнотекстовых документов, позволяющую повысить эффективность поиска за счет использования метаданных о документах в БД АБИС, и математическую модель оптимизации процесса создания баз полнотекстовых

документов, рацибнально использовать доступные ресурсы.

ч»»ми » | 4 »»• «у *

Достижение цели потребовало решения следующих задач:

1. Провести анализ литературы по проблемам создания баз полнотекстовых документов и организации информационного поиска.

2. Обобщить практический опыт создания баз полнотекстовых документов в библиотеках России и предложить модель оптимизации процесса создания баз ПД.

3. Разработать технологию смешанного поиска по базе полнотекстовых документов с минимизацией информационного шума при поиске и провести ее апробацию на реальных данных.

4. Разработать программное обеспечение (ПО) для организации технологического процесса создания баз ПД с использованием разработанной модели.

5. Разработать ПО для реализации технологии и модели смешанного поиска.

Объект исследования. Процессы создания баз полнотекстовых документов и система организации информационного поиска.

Предметом исследования настоящей работы является совершенствование технологического процесса создания базы полнотекстовых документов и технологии информационного поиска с учетом особенностей доступной метаинформации ПД.

Методы исследования. При выполнении работы использовались методы системного анализа, методы теории управления, методы моделирования технологических и информационных процессов.

Научная новизна.

1. Показано, что совершенствование процесса создания базы ПД может быть основано на декомпозиции технологического процесса на этапы и их распределение между автономными исполнительскими группами.

2. Предложены новые математические модели оптимизации процесса создания баз ПД и технологии смешанного поиска по этим базам.

3. Разработан программный комплекс организации смешанного поиска в базах полнотекстовых документов.

Практическая значимость результатов диссертационной работы

состоит в разработке рекомендаций по созданию баз ПД; в создании программного комплекса для смешанного поиска в базе ПД; в разработке программного обеспечения для поддержки технологического процесса создания баз ПД.

Основные положения, выносимые на защиту.

1. Способы организации технологических процессов создания баз полнотекстовых документов, основанные на выделении этапов обработки полнотекстового документа и их распределение между автономными группами.

2. Методы и программные средства, используемые при проектировании и реализации системы смешанного поиска в базах полнотекстовых документов.

3. Результаты апробации системы смешанного поиска в базах полнотекстовых документов и технологии создания полнотекстовых документов на примере Государственной библиотеки Югры и научной библиотеки Югорского НИИ информационных технологий.

Апробация работы. Основные положения и отдельные результаты исследования докладывались и обсуждались на научных семинарах Югорского НИИ информационных технологий; X Международной конференции «Крым-2003» (Судак, 2003); VII Международной конференции «ПВСОМ-2003» (Звенигород, Московская область 2003); 1П научно-практической конференции «Электронная Россия» (Ханты-Мансийск, 2004); XI Всероссийской научно-методической конференции «Телематика'2004» (Санкт-Петербург, 2004); XI Международной конференции «Крым-2004» (Судак, 2004); VIII Международной конференции «ЫВСОМ-2004» (Звенигород, Московская область, 2004); Международной конференции «Информационные технологии и обратные задачи рационального природопользования» (Ханты-Мансийск,

2005); IV научно-практической конференции «Электронная Россия» (Ханты-Мансийск, 2005).

Результаты диссертационной работы используются в Государственной библиотеке Югры и в ряде библиотек Ханты-Мансийского автономного округа.

Публикации. По теме диссертации опубликовано 7 научных работ, в том числе тезисов докладов на научных конференциях - 3, препринтов - 2, статей - 2.

Структура и объем работы. Работа состоит из введения, трех глав, заключения и приложений. Основное содержание диссертации изложено на 134 страницах, включающих 5 таблиц, 26 рисунков, список литературы (184 названия).

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во введении обосновывается актуальность исследования, определяются цель, задачи, объект, предмет, методы исследования, раскрывается научная новизна, формулируются положения, выносимые на защиту.

В первой главе «Проблемы создания баз полнотекстовых документов и организации поиска по ним» рассмотрены теоретические проблемы создания баз ПД, хранения библиографических данных, организации поиска по базам полнотекстовых документов.

Анализ литературных источников по данной проблеме позволил выделить следующие аспекты проблем работы с базами полнотекстовых документов: вопросы создания корпоративных электронных каталогов (Воройский Ф.С., Шрайберг Я.Л., Мазов H.A. и другие); принципы формирования полнотекстового электронного ресурса (Терехова М.В., Логинов Б.Р., Негуляев Е.А., Киселев И.Н. и другие); вопросы организации доступа к ПД (Меше-чак H.A., Карауш A.C., Терехова М. В. и другие); проблемы создание полнотекстовых поисковых систем (Головинский О.Б., Лимонова Т.И., Долгополов К.Г., Байгарова Н.С., Андреев Ю.В., Гасанов Э.Э. и другие); проблемы соз-

7

дания поисковых систем с использованием метаданных (Захаров В.П., Васина E.H., Племнек А.И., Половикова О.Н.); использование Интернет для эффективного доступа к электронным и традиционным источникам информации (Гаврилин A.A., Гитер Д.М., Жижимов O.JI. и другие). В зарубежных источниках данные проблемы рассматривается в работах международных центров полнотекстовой каталогизации (OSSREA, The Mística Project, Fedora Project, Cornell, CNRI, OP AC), участвующих в технологии корпоративной каталогизации с использованием Интернет, где дается описание технологии создания и организации поиска по базе ПД. Тем не менее, вопросы построения эффективной системы создания баз полнотекстовых документов и реализации смешанного поиска для баз ПД на базе автоматизированной библиотечной информационной системы (АБИС) в литературных источниках практически не затрагиваются, скорее большинство авторов на данный момент уделяют внимание лишь отдельным аспектам данных проблем, не решая их целиком. В частности, в работах посвященных созданию поисковых систем с одной стороны рассматривается поиск по метаданным (Племнек А.И., Половикова О.Н. и другие) без предоставления возможности поиска по полному тексту документа, а с другой (Гасанов Э.Э., Долгополов К.Г. и другие) - поиск по полному тексту документа без возможности использования метаданных из БД АБИС.

В работе показана перспективность исследования модели создания базы ПД. Одной из проблем при создании базы ПД является оптимизация распределения вычислительных и трудовых ресурсов. Описаны две модели создания баз ПД.

В случае использования последовательной модели документы проходят все этапы: сканирование, распознавание и редактирование. На практике нет необходимости полностью обрабатывать все документы - обязательным является только этап сканирования. Для организации полнотекстового поиска необходимо распознавать те документы, которые включены в поиск. Этап редактирования оправдан только для наиболее востребованных документов.

Для реализации такого деления нужно обеспечить возможность вернуться к документам, требующим доработки, позже.

Для разрешения этого противоречия в диссертационном исследовании предложена модель распределенной обработки ПД. Современные технологии создания и обработки полнотекстовых документов позволяют выполнять технологические процессы сканирования, распознавания и редактирования документов в различное время и на нескольких удаленных друг от друга рабочих местах. Такое распределение позволяет более гибко подходить к выбору документов для обработки на этапах распознавания и редактирования (обрабатываются только наиболее востребованные документы). С другой стороны, пользователь может получить доступ к любому отсканированному документу, даже если он еще не обработан.

Общая технологическая схема распределенного создания полнотекстовых БД в системе с тремя рабочими группами представлена на рисунке 1.

Сканирование -

Заимствование

дум

Сщщ Сервер

ЛВС чпт

шкш ¡и1ши

Рис. 1. Технологическая схема распределенного создания полнотекстовых БД библиотеки

В общем виде работу системы можно описать следующим образом. На сервере ЛВС хранятся графические и текстовые документы, созданные на различных этапах обработки полнотекстового документа. Каждая из автономных групп создает документы или получает для обработки с сервера и

возвращает обработанные документы на сервер. При добавлении документов библиографические описания создаются или корректируются соответствующей группой.

Распределенная модель обработки ПД предоставляет следующие возможности:

• обработка документа автономными, несвязанными группами;

• распределение нагрузки между специализированными отделами, что позволяет ускорить выполнение наиболее медленного этапа - ручного редактирования документов;

• легкий доступ пользователей ко всем документам, созданным в процессе обработки - графические файлы, распознанный документ, отредактированный документ;

• доступ к документу сразу после его сканирования.

Рассмотрены хранилища метаданных, технологии полнотекстового поиска, поиск по метаданным. Обоснована возможность создания системы смешанного поиска для базы полнотекстовых документов, имеющих описания в АБИС.

Во второй главе «Модели технологической схемы создания базы полнотекстовых документов н смешанного поиска по базе полнотекстовых документов» рассмотрен коммуникативный формат ЯиЗМАЯС, форматы хранения индексной информации при организации полнотекстового поиска и разработаны модели технологического процесса создания базы ПД и системы смешанного поиска.

Для обеспечения совместимости с большинством АБИС был выбран обменный формат ЯиБМАЛС, широко распространенный в настоящее время и утвержденный приказом Министра культуры РФ № 45 от 27.01.98 в качестве обязательного формата при обмене библиографическими записями среди библиотек сети Министерства культуры

В последовательной модели, при существовании электронных технологий сбора статистики использования полнотекстовых документов читателями

10

и сотрудниками, нет цепочки обратной связи, позволяющей обслуживающему персоналу эффективно проводить коррекцию перечня обрабатываемых ПД с учетом потребностей пользователей. В распределенной модели этот недостаток устранен.

Обозначим Р - количество бумажных документов в исходном массиве, подготовленном для обработки по выбранной теме в плановый период времени;

Р0 - количество отсканированных документов;

Р] - количество распознанных документов после сканирования;

Р2 - количество документов, прошедших ручное редактирование и вычитку после распознавания.

При этом справедливо неравенство:

Р2<Р{<Р0<Р. (1)

Я Ру

Введем коэффициенты: а = —, р = —, (2)

р0 р0

0<а<\ где л „ . и а 2. В.

0</?<1

В модели не рассматривается процесс выбора бумажных документов для сканирования, так как этот процесс в большей степени административный и плохо под дающийся формализации.

Рассмотрим задачу оптимизации плана создания полнотекстовых документов. Целевая функция данной задачи может быть сформулирована следующими способами:

1) максимизация результата при ограничениях на ресурсы;

2) двойственная задача минимизации ресурсов, используемых для получения заданного результата.

В настоящее время мы находимся на этапе экстенсивного развития процесса преобразования документов в цифровую форму, то есть нужно обработать как можно больше документов. Поэтому актуальной является пер-

вая постановка оптимизационной задачи. Она формулируется в следующем виде:

к

к

= (3)

где р} - полезность документа /-го типа; х] - число обработанных документов 7-го типа; ац - удельный расход ресурса г'-го вида на обработку документа /-го типа; А, - лимит ресурсов г'-го вида; к,1 - число выделенных этапов обработки и число видов ресурсов соответственно.

В диссертации принято, что библиотека при создании баз ПД использует ресурсы трех типов: рабочую силу (Л/), сканирующее оборудование (А2) и вычислительное оборудование (А3). Полезность документов определяется коэффициентами а VI Р при анализе статистики использования документов за некоторый период.

Таким образом, получив в процессе работы данные о востребованности документов различных типов, можно определить коэффициенты а и /3 на следующий плановый период и рассчитать оптимальные размеры групп документов Рд, Р; и Р2. Количество документов Рд, Р1 и Р2 будет изменяться в соответствии с изменяющимся спросом пользователей на различные типы полнотекстовых документов. При этом будет меняться и распределение ресурсов на обработку групп ПД, согласно выражения (3). Параметры а„ определяются выбранной технологией создания базы ПД и могут существенно различаться для разных библиотек и типов обрабатываемых документов.

При использовании распределенной модели создания базы ПД, появляется возможность более гибко контролировать ресурсы (как вычислительные, так и трудовые). Кроме того, при периодической оценке востребованности

документов различных типов, возможен учет требований пользователей для изменения процесса обработки ПД.

Для предоставления доступа пользователям к подготовленным документам могут использоваться стандартные технологии доступа по локальным и глобальным сетям.

Для модели смешанного поиска были выбраны следующие начальные условия: используется база полнотекстовых документов, имеющих библиографическое описание в текстовом формате RUSMARC и хранящихся с возможностью локального доступа к файлу ПД, либо по протоколам HTTP, FTP. Библиографические описания в виде текстовых файлов хранятся локально. Возможно ограничение доступа на двух уровнях: проведение поиска и доступ к ПД.

При поиске двум запросам и qm соответствуют два множества документов Rf и Rm, получаемые при независимом поиске по полнотекстовому индексу (R/) и индексу метаданных (/?„). Для выполнения поставленной задачи - уменьшения информационного шума при поиске, пользователю предоставляется пересечение R этих множеств:

R=RfC\Rm ф

Для хранения индексной информации используются триады следующей структуры:

< IDUM, word, w >г

где IDurl - идентификатор документа; word - слово; w - вес слова.

Введем множество идентификаторов тех документов, которые удовлетворяют запросу:

Я/ = К -1/ с Ii,i = 1,2(6)

где dt - проиндексированный документ; qf - полнотекстовый поисковый

запрос; - набор индексных терминов для документа dt, р - число документов.

Выражение (6) соответствует конъюнктивному запросу. Для дизъюнктивного запроса можно записать:

Ц = : е/,,/ = 1,2,...,^, у = 1,2,..., г}

Rf= Щ

(7)

где г - число поисковых терминов.

По аналогии с Л/определяется множество Rm.

Поисковая система может использоваться для распределенного поиска по каталогам библиотек, входящих в корпорацию. При этом предполагается, что библиотеки-участники обмениваются электронными каталогами в формате RUSMARC. В ходе такого обмена все электронные каталоги накапливаются в центральной библиотеке, например Государственной библиотеке Югры. Индексируемые документы могут находиться на сервере центральной библиотеки или на серверах владельцев полнотекстовых документов.

В диссертационной работе рассмотрены пути реализации системы смешанного поиска в базах полнотекстовых документов на основе предложенной информационной технологии.

В третьей главе «Разработка программного комплекса смешанного поиска в базе полнотекстовых документов» рассмотрены проблемы создания программного обеспечения для реализации разработанной модели создания баз полнотекстовых документов и технологии поиска в базах ПД.

На основе модели смешанного поиска нами была создана программный комплекс «YAMS» (Yet Another MetaSearch). В библиотеках корпорации библиотек ХМАО для создания электронных каталогов библиотек широко используется ПО «ИРБИС» (разработка ГПНТБ России), созданное на основе разработок UNESCO в области электронных каталогов библиотек - CDS/ISIS. В данное время ПО «YAMS» оптимизировано для использования системы «ИРБИС» в качестве источника метаданных в текстовом формате RUSMARC.

Основные положения, используемые при создании ПО «YAMS»:

• за основу разработки взят свободно распространяемый программный продукт MnogoSearch (www.mnogosearch.org);

• использование операционных систем семейства Unix;

• использование нескольких СУБД, в том числе InterBase, Oracle, MS SQL, MySql;

• поддержка многоязыковых версий;

. индексирование различных типов документов (html, doc, pdf, и т.д.);

• индексирование локальных документов;

• доступ к индексируемым документам по протоколам HTTP, FTP.

MnoGoSearch является свободно распространяемой поисковой системой, работающей в операционных системах семейства Unix, предназначенной для организации поиска на Web-серверах. В отличие от большинства подобных систем с открытым кодом MnoGoSearch позволяет индексировать текстовые файлы любых форматов, используя для этого внешние модули с открытым интерфейсом.

Программный комплекс «YAMS» использует трехзвенную архитектуру доступа к СУБД. При этом созданное программное обеспечение выступает в роли сервера приложений.

В базовой системе MnogoSearch нами было предложены изменения для работы с СУБД Oracle на процессорах архитектуры UltraSPARC Ш.

Для реализации модели смешанного поиска нами был создан модуль индексирования метаданных и модифицирован модуль поиска. Модуль индексирования метаданных содержит лексический анализатор для разбора файлов в текстовом обменном формате RUSMARC.

При разборе данные из информативных полей (автор, заглавие, год издания, предметные рубрики и т.п.) заносятся в БД. Для вносимых слов устанавливается секция в соответствии с полем-источником. Такое деление позволяет учитывать метаданные при определении релевантности документа. Релевантность каждого документа вычисляется как нормированное скаляр-

ное произведение вектора весов этого документа и вектора весов, соответствующего поисковому запросу. Каждая координата вектора весов соответствует слову из запроса в той или иной секции документа. Значение для этой координаты вычисляется на основе весов секций, заданных в файле конфигурации. При определении релевантности документа таким же способом может анализироваться результат сравнения: является ли найденное слово именно указанным в запросе или его словоформой. При проведении смешанного поиска к секциям документа добавляются секции метаданных документа, веса которых также определяются в файле конфигурации.

В модуле поиска нами предложен алгоритм выборки документов, позволяющий уменьшить число нерелевантных документов при поиске. При первом обращении модуля к БД выбираются не просто все документы, содержащие заданное слово, а только те, которые одновременно соответствуют запросу поиска по метаданным. Для реализации этого алгоритма используются вложенные запросы SQL.

Для проверки работоспособности полученной поисковой системы был проведен ряд тестов: для случайных пользовательских запросов из протокола работы системы «YAMS» были выполнены контрольные запросы:

• полнотекстовый запрос без метаданных;

• запрос на поиск по метаданным (в системе Weblrbis);

• запросы на смешанный поиск.

Фиксировалось число найденных документов и время поиска. Измерения проводились на компьютере SUN Fire 15К при использовании СУБД Oracle 10g. При тестировании было обработано 299 документов, в таблице ссылок была 301 запись, в таблице полнотекстового индекса - 5 668 833 записи, в таблице индекса метаданных - 1 338 записей (см. табл. 1).

Таблица 1

Параметры базы данных полнотекстовых документов, используемой для тестирования технологии смешанного поиска

Параметр Числовое значение

Число обработанных документов 299

Записей в таблице url 301

Записей в таблице diet 5 668 833

Записей в таблице dict_meta 1 338

Результаты тестов для 100 случайных пользовательских запросов приведены на рисунке 2. При полнотекстовом поиске в среднем найдено 44,6 документов; поиске по метаданным - 19,3; смешанном поиске - 2,5.

-♦—Полнотекстовый поиск -в-Поиск по метаданным Смешанный поиск

Рис. 2. Количество найденных документов для различных типов поиска

Кроме того, наблюдается увеличение скорости поиска, в некоторых случаях довольно значительное - поиск с учетом метаданных выполняется на 10-40% быстрее соответствующего запроса без метаданных, так как производиться меньше запросов к БД для получения дополнительной информации.

Для реализации модели распределенного создания базы ПД разработана программа «Link». Данная программа используется в технологическом

процессе создания баз полнотекстовых документов для управления созданными файлами и обеспечения доступа к ним. Программа создает в заданном каталоге жесткие ссылки на файлы и символические ссылки на каталоги, расположенные в исходной файловой иерархии документов.

Разработанные технология и программные средства могут быть использованы при проектировании и реализации систем смешанного поиска в базах полнотекстовых документов в условиях библиотек и архивов России.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Предложена технология смешанного поиска по базе полнотекстовых документов. Проведен анализ развития данного вида поиска и обоснована возможность его применения для организации поиска по базе документов, имеющих описание в БД автоматизированной библиотечной информационной системы.

2. Предложена математическая модель оптимизации процесса распределенного создания баз ПД. Модель учитывает распределение нагрузки между автономными группами, использование обратной связи о востребованности ПД, гибкое изменение соотношения между распознанными и отредактированными документами. Разработана схема предоставления доступа к созданным ПД из локальной сети и из сети Интернет.

3. Разработан программный комплекс для организации смешанного поиска. Комплекс включает модули администрирования, полнотекстового индексирования, индексирования метаданных, поиска. Комплекс реализован на языке С для ОС семейства UNIX и тестировался на платформах Linux х86, SunOS spare с использованием для хранения индексов СУБД Oracle.

4. Разработано программное обеспечение для реализации доступа к полнотекстовым документам в соответствии с разработанной схемой предоставления доступа к созданным ПД из локальной сети и из сети Интернет.

Разработанные модели смешанного поиска и технология распределенного создания баз ПД внедрены в Государственной библиотеке Югры и биб-

лиотеке Югорского НИИ информационных технологий. Планируется их внедрение в корпорации библиотек Ханты-Мансийского автономного округа.

ПУБЛИКАЦИИ ПО ТЕМЕ ИССЛЕДОВАНИЯ

1. Дружинин A.B., Камышников А.И., Огородников И.Н., Заленский Д.А. Создание корпоративной автоматизированной библиотечной информационной системы Ханты-Мансийского автономного округа // Информационные технологии и космический мониторинг: Материалы 3-й научно-практической конференции «Электронная Россия». - Екатеринбург: «Издательство Баско», 2004. - С. 10-13.

2. Дружинин A.B., Камышников А.И., Огородников И.Н. Создание корпоративной системы библиотек ХМАО // «Телематика'2004»: Материалы XI Всероссийской научно-методической конференции, 2004. Том 2. Санкт-Петербург, 2004. - С. 42-43.

3. Дружинин A.B., Камышников А.И., Огородников И.Н. Поисковая система смешанного типа для электронных ресурсов по экологии // Информационные технологии и обратные задачи рационального природопользования: Материалы Международной конференции, г. Ханты-Мансийск, 2005. -С. 64-67.

4. Дружинин A.B. Программный комплекс организации смешанного поиска по коллекциям полнотекстовых документов в корпорации библиотек ХМАО // Информационные технологии и решения: Материалы 4-ой межрегиональной конференции «Электронная Россия». - Ханты-Мансийск, 2005. -С. 27-29.

5. Дружинин A.B. Модели технологического процесса создания базы полнотекстовых документов и смешанного поиска в ней: Препринт. - Барнаул: Изд-во Алтайского госуниверситета. 2005. - 17 с.

6. Дружинин A.B. Программный комплекс смешанного поиска в базе полнотекстовых документов: Препринт. - Барнаул: Изд-во Алтайского госуниверситета. 2005. - 15 с.

7. Дружинин A.B. Проблемы организации смешанного поиска в базах полнотекстовых документов // Единая образовательная информационная среда: проблемы и пути развития: Тезисы докладов четвертой Всероссийской научно-практической конференции-выставки. - Барнаул, 2005. С. 35-36.

*15998

РНБ Русский фонд

2006-4 12967

Изд. Лиц. ЛР020261 от 14.01.97. Подписано в печать 01.09.2005. Формат 60x84/16. Печать офсетная. Усл. печ. л. 1,0. Тираж 100 экз. Заказ 2М_.

Типография Алтайского государственного университета 656049, г. Барнаул, ул. Димитрова, 66

Оглавление автор диссертации — кандидата технических наук Дружинин, Александр Вячеславович

ВВЕДЕНИЕ

ГЛАВА 1. ПРОБЛЕМЫ СОЗДАНИЯ БАЗ ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ И ОРГАНИЗАЦИИ ПОИСКА ПО НИМ

1.1 Общие вопросы создания электронных каталогов

1.2 Модели хранения библиографической информации

1.3 Модели поиска в электронном каталоге

ГЛАВА 2. МОДЕЛИ ТЕХНОЛОГИЧЕСКОЙ СХЕМЫ СОЗДАНИЯ БАЗЫ ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ И СМЕШАННОГО ПОИСКА ПО БАЗЕ ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ

2.1 Форматы представления библиографической информации

2.2 Представление индексной информации при полнотекстовом поиске

2.3 Модель создания баз полнотекстовых документов

2.4 Технология смешанного поиска

ГЛАВА 3. РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА СМЕШАННОГО ПОИСКА В БАЗЕ ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ

3.1 Описание модулей ПО «YAMS»

3.2 Описание ПО поддержки технологического процесса создания баз ПД

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Дружинин, Александр Вячеславович

Актуальность темы исследования. Достижения в представлении информационных массивов, в том числе электронных каталогов библиотек, позволили получать более полную информацию о составе, наполнении и доступности фондов конкретной библиотеки. Для этих задач в настоящее время активно используются сервисы сети Интернет, позволяющие сократить временные затраты на поиск источников, находящихся в библиотеках, а также определить библиотеку, в которую можно обратиться для получения необходимого источника, в том числе на электронном носителе.

Растущие потребности общества требуют наличия качественных и быстрых способов создания электронных источников информации. На данном этапе развития современных информационных технологий и получения дополнительных возможностей копирования и воспроизводства цифровой и иной информации у библиотек появилась возможность самостоятельно создавать базы полнотекстовых документов.

Обеспечение эффективного поиска в больших массивах полнотекстовых документов (ПД) — новая задача, которую требуется решить для обеспечения доступа к базам полнотекстовых документов. В то же время задача информационного поиска постоянно усложняется с ростом числа и объема доступных документов. Для базы полнотекстовых документов можно говорить о двух видах поиска:

1. Поиск по метаданным - по полям библиографической записи в БД автоматизированной библиотечной информационной системы.

2. Полнотекстовый поиск - поиск по любому фрагменту текста документа.

Полнотекстовый поиск предназначен для организации поиска только по электронным полнотекстовым документам. Поиск по метаданным более универсален, так как может быть использован для поиска любых типов документов - графических, аудио-видео документов, компьютерных программ.

Эффективность поиска зависит от точности поискового запроса. Сложность формирования полнотекстовых запросов может быть обусловлена:

• незнанием набора поисковых терминов, определяющих искомый документ;

• отсутствием достаточного опыта и квалификации формирования таких запросов;

• отсутствием принятой и устоявшейся терминологии в интересующей области. Нередко пользователь, осуществляющий поиск, имеет самое приблизительное представление о специфике интересующей его тематики.

Результатом выполнения неточного запроса является значительное число документов, релевантных запросу, но не отражающих намерения пользователя - информационный шум. Введение формализованных параметров в процесс поиска - указание автора, предметной рубрики, ключевых слов или других метаданных значительно уменьшает число релевантных документов и повышает качество результатов поиска. Использование метаданных из полей библиографического описания БД автоматизированной библиотечной информационной системы (АБИС) позволяет обеспечить соответствие метаданных стандартам на создание библиографических описаний.

Все это обуславливает актуальность и значимость исследований, направленных на решение одной из ключевых проблем информационного поиска - проблемы правильного отображения информационных потребностей пользователей при организации уточненных запросов. Решение этой проблемы позволит уменьшить информационный шум, возникающий при поиске в базе полнотекстовых документов.

Цель исследования. Разработать новую технологию смешанного поиска в базе полнотекстовых документов, позволяющую повысить эффективность поиска за счет использования метаданных о документах в БД АБИС, и математическую модель оптимизации процесса создания баз полнотекстовых документов, позволяющую рационально использовать доступные ресурсы.

Достижение цели потребовало решения следующих задач:

1. Провести анализ литературы по проблемам создания баз полнотекстовых документов и организации информационного поиска.

2. Обобщить практический опыт создания баз полнотекстовых документов в библиотеках России и предложить модель оптимизации процесса создания баз ПД.

3. Разработать технологию смешанного поиска по базе полнотекстовых документов с минимизацией информационного шума при поиске и провести ее апробацию на реальных данных.

4. Разработать программное обеспечение (ПО) для организации технологического процесса создания баз ПД с использованием разработанной модели.

5. Разработать ПО для реализации технологии и модели смешанного поиска.

Объект исследования. Процессы создания баз полнотекстовых документов и система организации информационного поиска.

Предметом исследования настоящей работы является совершенствование технологического процесса создания базы полнотекстовых документов и технологии информационного поиска с учетом особенностей доступной метаинформации ПД.

Методы исследования. При выполнении работы использовались методы системного анализа, методы теории управления, методы моделирования технологических и информационных процессов.

Научная новизна.

1. Показано, что совершенствование процесса создания базы ПД может быть основано на декомпозиции технологического процесса на этапы и их распределение между автономными исполнительскими группами.

2. Предложены новые математические модели оптимизации процесса создания баз ПД и технологии смешанного поиска по этим базам.

3. Разработан программный комплекс организации смешанного поиска в базах полнотекстовых документов.

Практическая значимость результатов диссертационной работы состоит в разработке рекомендаций по созданию баз ПД; в создании программного комплекса для смешанного поиска в базе ПД; в разработке программного обеспечения для поддержки технологического процесса создания баз ПД.

Основные положения, выносимые на защиту.

1. Способы организации технологических процессов создания баз полнотекстовых документов, основанные на выделении этапов обработки полнотекстового документа и их распределение между автономными группами.

2. Методы и программные средства, используемые при проектировании и реализации системы смешанного поиска в базах полнотекстовых документов.

3. Результаты апробации системы смешанного поиска в базах полнотекстовых документов и технологии создания полнотекстовых документов на примере Государственной библиотеки Югры и научной библиотеки Югорского НИИ информационных технологий.

Апробация работы. Основные положения и отдельные результаты исследования докладывались и обсуждались на научных семинарах Югорского НИИ информационных технологий; X Международной конференции «Крым-2003» (Судак, 2003); VII Международной конференции «LIBCOM-2003» (Звенигород, Московская область 2003); III научно-практической конференции «Электронная Россия» (Ханты-Мансийск, 2004); XI Всероссийской научно-методической конференции «Телематика'2004» (Санкт-Петербург, 2004); XI Международной конференции «Крым-2004» (Судак, 2004); VIII Международной конференции «LIBCOM-2004» (Звенигород, Московская область, 2004); Международной конференции «Информационные технологии и обратные задачи рационального природопользования» (Ханты-Мансийск,

2005); IV научно-практической конференции «Электронная Россия» (Ханты-Мансийск, 2005).

Результаты диссертационной работы используются в Государственной библиотеке Югры и в ряде библиотек Ханты-Мансийского автономного округа.

Публикации. По теме диссертации опубликовано 7 научных работ, в том числе тезисов докладов на научных конференциях - 3, препринтов - 2, статей - 2.

Структура и объем работы. Работа состоит из введения, трех глав, заключения и приложений. Основное содержание диссертации изложено на 134 страницах, включающих 5 таблиц, 26 рисунков, список литературы (184 названия).

Заключение диссертация на тему "Разработка технологии, математических моделей и программных средств организации смешанного поиска в базах полнотекстовых документов"

Основные результаты представленной работы:

1. Предложена технология смешанного поиска по базе полнотекстовых документов. Проведен анализ развития данного вида поиска и обоснована возможность его применения для организации поиска по базе документов, имеющих описание в БД автоматизированной библиотечной информационной системы.

2. Предложена математическая модель оптимизации процесса распределенного создания баз ПД. Модель учитывает распределение нагрузки между автономными группами, использование обратной связи о востребованности ПД, гибкое изменение соотношения между распознанными и отредактированными документами. Разработана схема предоставления доступа к созданным ПД из локальной сети и из сети Интернет.

3. Разработан программный комплекс для организации смешанного поиска. Комплекс включает модули администрирования, полнотекстового индексирования, индексирования метаданных, поиска. Комплекс реализован на языке С для ОС семейства UNIX и тестировался на платформах Linux х86, SunOS spare с использованием для хранения индексов СУБД Oracle.

4. Разработано программное обеспечение для реализации доступа к полнотекстовым документам в соответствии с разработанной схемой предоставления доступа к созданным ПД из локальной сети и из сети Интернет.

Разработанные модели смешанного поиска и технология распределенного создания баз ПД внедрены в Государственной библиотеке Югры и библиотеке Югорского НИИ информационных технологий. Планируется их внедрение в корпорации библиотек Ханты-Мансийского автономного округа.

ЗАКЛЮЧЕНИЕ

Автоматизация основных технологических процессов в библиотеках России связана с внедрением новых достижений в области информационных и компьютерных технологий. При этом не все технологии, разработанные для информационных систем применимы в библиотеках без дополнительной доработки и настройки.

Автоматизация в библиотеках не завершается на этапе создания полнотекстового документа, как это принято во многих информационных системах. Работа с полнотекстовым документом и его библиографическим описанием происходит постоянно в течение всего срока его использования. Стандартные решения полнотекстового поиска для коллекций полнотекстовых документов, создаваемых библиотеками, неприменимы, поскольку не позволяют использовать особенности предметной области -библиотечного дела и доступные библиографические описания в электронных каталогах на базе автоматизированных библиотечных информационных систем.

Автоматизация технологических процессов создания коллекций полнотекстовых документов систем библиотек и вопросы, связанные с полнотекстовым поиском по таким коллекциям, с каждым годом приобретают все большую актуальность.

Библиография Дружинин, Александр Вячеславович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. ГОСТ 7.14-98. Формат для обмена информацией. Структура записи. Взамен ГОСТ 7.14-84; Введ. 01.01.99. — М.: Изд-во стандартов, 1998. 4 с.

2. ГОСТ 7.19-85. Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Содержание записи. — Взамен ГОСТ 7.19-79; Введ. 01.01.86. — М.: Изд-во стандартов, 1985. 102 с.

3. Головинский О.Б., Лавинский Г.В. Поисковые системы.- Киев: Техника, 1979. 104 с.:ил.

4. Лимонова Т.И. и др. Запросно-поисковая система АСУ МИЭТ/ Науч.-исслед. ин-т пробл. Высш. шк., Отдел науч. информ.; Сост. : Т. И. Лимонова, В. Е. Коваленко, С. Б. Тарасов.- М.:Б. И., 1975. 54 с.

5. Создание и развитие информационных, вычислительных и телекоммуникационных ресурсов. Научные проекты Электронный ресурс. // Информационный бюллетень РФФИ. Режим доступа: http://www.rfbr.ru/default.asp?docid=10232 26.04.05. Загл. с экрана.

6. Дмитриев А.С. Запись и восстановление информации в одномерных динамических системах//РЭ., 1991.-Т.З6. -№1.-с. 101-108.

7. Гасанов Э.Э., Фещук А.А. Информационно-графовая модель данных с нечеткой логикой // Труды IV Международной конференции по математическому моделированию, Москва (27 июня — 4 июля 2000 г.),- М.: Станкин, 2001. Т.2.

8. Андреев Ю.В., Дмитриев А.С. Запись и восстановление информации в одномерных динамических системах // РЭ.,1994, Т.39, №1, с.104-113.

9. Гитер Д.М., Лавринович М.Б. Использование Интернет для эффективного доступа к электронным и традиционным источникам информации // Науч. и техн. б-ки — 1999. — № 2.

10. Воройский Ф.С. О корпоративных библиотечных системах и перспективах их развития в России // Информационные ресурсы России 2001. - № 3-4. - С. 7-10.

11. Воройский Ф.С. Основы проектирования автоматизированных биб.-инф. систем. М.: ФИЗМАТЛИТ, 2002. - 384 с.

12. Воройский Ф.С., Шрайберг Я.Л. Корпоративные автоматизированные библиотечно-информационные системы: состояние, принципы построения и перспективы развития. М.: ГПНТБ России, 2003. — 62 с.

13. Шрайберг Я.Л., Воройский Ф.С. Автоматизированные библиотечно-информационные системы России: состояние, выбор, внедрение и развитие. -М.: Либерея, 1996. -271 с.

14. Мазов Н.А. Разработка и построение распределенной информационно-библиотечной системы на основе СУБД CDS/ISIS: Автореф. дисс. канд. техн. наук: 05.25.05. Новосибирск, 2000.

15. Чугреев В. Л. Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации: Автореф. дисс. канд. техн. наук: 05.13.01.1. Санкт-Петербург, 2003.

16. Баранов В.Л., Племнек А.И., Соколова Н.В. Распределенные библиотечные системы // Науч. и техн. б-ки 1997. - № 12. - С. 11-30.

17. Баранов В.Л., Соколова Н.В., Сова Д.Н., Филиппов А.Н., Пирог В.П. Технология организации библиотечного консорциума пяти университетов Санкт-Петербурга // Науч. и техн. б-ки — 2001. № 3. — С. 42-44.

18. Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытые Системы 1996. - № 6.

19. Касумов В.А. Организация системы поиска в Азербайджанской части Internet // Открытые системы 2000. - № 3. С.59-62.

20. Солтон Дж. Динамические библиотечно-информационные системы. — М.: Мир, 1979.-558 с.

21. Yanhong Li. Toward a qualitative search engine. IEEE Internet Computing Электронный ресурс., 1998. July-August. — pp.24-29. Режим доступа: http://csdl.computer.org/comp/mags/ic/1998/04/w4toc.htm 21.04.05. - Загл. с экрана.

22. Roberto Okada at al. A method for personalized web searching with hierarchical document clustering. Transaction of Information Processing Society of Japan, 1998. Vol.39. - №4 (Apr). - pp. 868-877.

23. Сбойчаков K.O. Автоматизированная система классификации текстов на основе визуального эвристического кластерного анализа // Науч. и техн. б-ки 2002. - № 1.

24. Камышников А.И., Дружинин А.В., Огородников И.Н. Создание корпоративной системы библиотек ХМАО И Материалы XI Всероссийской научно-методической конференции «Телематика'2004» 7-10 июня, 2004 г. СПб, 2004.

25. Камышников А.И., Дружинин А.В., Огородников И.Н. Поисковая система смешанного типа для электронных ресурсов по экологии //Международная конференция «Информационные технологии и обратные задачи рационального природопользования».

26. Sue O'Neil Johnson, Nathalie Leory, PHANDAO RATCHATAVORN Development of Electronic Resources across Networks in Thailand //International Information & Library Review 2002. - №3. - pp. 279-287.

27. Sue O'Neill Johnson, Nathalie Leroy, IRINA KIRILLOVA Through Information Technologies to a World-Class Level of Education // International Information & Library Review 2002. - №3. - pp. 175-182.

28. DANIEL PIMIENTA The Mistica Project: Social and Collaborative Work with the Internet // International Information & Library Review 2001. -№4.-pp. 359-390.

29. Sue O'Neill Johnson, Nathalie Leroy, ISMAIL FAHMI The Indonesian Digital Library Network is Born to Struggle with the Digital Divide // International Information & Library Review 2002. - №2. - pp. 153-174.

30. ALI UZUN Library And Information Science Research in Developing Countries and Eastern European Countries: A Brief Bibliometric Perspective // International Information & Library Review 2002. - №1. - pp. 21-33.

31. DIANNE OBERG, JAMES HENRI Information Transfer and Transformation in Teacher-Librarianship: Synergy Across the Pacific // International Information & Library Review 2002. - №1. - pp. 35-56.

32. Sue O'Neil Johnson, Nathalie Leoiy, OZIOMA IJEOMA ORJI Information in a Networked World: the Nigerian Perspective // International Information & Library Review 2002. - №3. - pp. 271-277.

33. Sue O'Neill Johnson, Nathalie Leroy, YAHIA BAKELLI Building Digital Collections in the Algerian Context: Assets and Prospects // International Information & Library Review 2002. - №2. - pp. 113-127.

34. Sue O'Neil Johnson, Nathalie Leory, SMITA CHANDRA Information in a Networked World: the Indian Perspective // International Information & Library Review 2002. - №3. - pp. 235-246.

35. Staples, Thornton, Ross Wayland and Sandra Payette The Fedora Project: An Open-source Digital Object Repository System // D-LIb Magazine. — 2003.-April.

36. Payette, Sandra, Christophe Blanchi, Carl Lagoze, and Edward Overly, Interoperability for Digital Objects and Repositories: The Cornell/CNRI Experiments // D-Lib Magazine 1999. - May.

37. Payette, Sandra and Carl Lagoze Policy-Carrying, Policy-Enforcing Digital Objects // Fourth European Conference on Research and Advanced Technology for Digital Libraries, Portugal, Springer. 2000.

38. Колмановская E. Яndex: система русского поиска Internet/Intranet Электронный ресурс. Режим доступа: http://www.sdteam.com/index.php?id=7 21.04.05. — Загл. с экрана.

39. Лингвистическое обеспечение информационно-поисковой системы Excalibur Retrieval Ware: Аналитический аспект Электронный ресурс. / Центр • информационных технологий. Режим доступа: http://www.sdteam.com/index.php?id=3724 21.04.05. Загл. с экрана.

40. Гасанов Э.Э., Кудрявцев В.Б. Теория хранения и поиска информации. -М.:Физматлит, 2002. 288 с.

41. Гасанов Э.Э. Функционально-сетевые базы данных и сверхбыстрые алгоритмы поиска. М.: Издательский центр РГТУ, 1997.

42. Кузьмин Е.И., Логинов Б.Р. Программа Либнет: современное состояние и перспективы// Науч. и техн. б-ки 1997.- №1. — С. 42-48.

43. Кулиш О.Н. Создание и использование НИБЦ ЛИБНЕТ как новый этап кооперации российских библиотек // «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества»: Материалы конф. — М.: ГПНТБ России, 2003. — Т. 3.

44. Когаловский М.Р. Технология баз данных на персональных ЭВМ. М.: Финансы и статистика, 1992. — 224 с.

45. Когаловский М.Р. Энциклопедия технологий баз данных. — М.: Финансы и статистика, 2002. — 800 е.: ил.

46. Замулин А. В. Системы программирования баз данных и знаний. — Новосибирск: Наука, 1990. — 352 с.

47. Васина Е.Н., Голицына О.Л., Максимов Н.В. Организация человеко-машинного поиска информации в комплексных базах данных Электронный ресурс. / РГГУ, Москва. Режим доступа: http://www.benran.ru/Magazin/cgi-bin/Sb97/pr5.exe7132 21.04.05. Загл. с экрана.

48. Структура и представление метаданных для цифровых коллекций Электронный ресурс. / Российская национальная библиотека. Режим доступа: http://www.nlr.ru:8101/e-res/dcrus.html 12.11.04. Загл. с экрана.

49. Типы электронных копий Электронный ресурс. / Российская национальная библиотека. Режим доступа: http://www.nlr.ru-.8101/e-res/dcrus.html 12.11.04. — Загл. с экрана.

50. Лавренова О.А. Электронная библиотека диссертаций в РГБ // Материалы 9-й Международной конференции "Крым — 2002" "Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества". Судак; Ялта. 2002. - Т.1 - С. 235-239

51. Лавренова О.А., Литвинова Н.Н., Сарычева Н.В. Электронные библиотеки диссертаций за рубежом // Библиотековедение. — 2004. -№1. С. 85-92; №2. - С.91-96

52. Сахаров А.А. Концепции построения и реализации информационных систем, ориентированных на анализ данных // СУБД 1996. - №4. - С. 55-70.

53. Цимбал А.А., Аншина M.JT. Технологии создания распределенных систем. Для профессионалов. — СПб.: Питер, 2003. — 576 е.: ил.

54. Афанасьев В.Н. Архитектура распределенного автоматизированного банка данных // Принципы построения РАБД государственной сети ВЦ.- Киев: ИК АН УССР, 1975. С. 35-47.

55. Кнут Д. Искусство программирования, том 3. Сортировка и поиск, 2-е изд.: Пер. с англ.: Уч. пос. — М.: Издательский дом «Вильяме», 2000. — 832 е.: ил. — Парал. тит. англ.

56. Коннолли Т., Бегг К., Страчан, А. Базы данных: проектирование, реализация и сопровождение. Теория и практика, 2-е изд.: Пер. с англ.- М.: Издательский дом «Вильяме», 2001. — 1120 е.: ил. Парал. тит. англ.

57. Кузнецов С.Д. Введение в системы управления базами данных // СУБД- 1995 -№1,2, 3,4; 1996.-№1, 2, 3, 4, 5.80. ' Ролланд, Ф. Основные концепции баз данных. : Пер. с англ. — М.:

58. Издательский дом «Вильяме», 2002. 256 е.: ил. - Парал. тит. англ.

59. Гома X. UML. Проектирование систем реального времени, параллельных и распределенных приложений.: Пер. с англ. М.: ДМК Пресс, 2002. - 704 е.: ил. - (Серия «Объектно-ориентированные технологии в программировании»).

60. Цикритзис Д., Лоховски Ф. Модели данных / Пер. с англ. М.: Финансы и статистика, 1985. - 344 с.

61. Оленин М.В., Седляр В.М. Модель параллельного выполнения транзакций в распределенных информационных системах // Тез. докл. IV Всесоюз. конф. «Системы баз данных и знаний». Калинин, 1989. -С. 28-30.

62. Ярошевич М.Е. Адаптивное размещение информации в распределенных базах данных // Тез. докл. IV Всесоюз. конф. «Системы баз данных и знаний». Калинин, 1989. - С. 23-24.

63. Ульман Д. Основы систем баз данных. — М.: Финансы и статистика, 1983.-334 с.

64. Форсайт Дж., Малькольм М., Моулер Е. Машинные методы математических вычислений. -М.: Мир, 1980.

65. Шрейдер Ю.А., Шаров А.А. Системы и модели. М.: Радио и связь. 1982.-152 с.

66. Хаббард Дж. Автоматизированное проектирование баз данных. М.: Мир, 1984.-294 с.

67. Ellis С. A. Consistency and correctness of duplicate database systems // Operating Systems Review, №11, November, 1977.

68. Sibley E.H., Hardgrave W.T., Kogalovsky M.R., Makalsky K.I. A conceptual model to support multi-model external views. Data Models and Database Systems. Proc. of the Joint US-USSR Seminar, Austin, Texas. October 25-27, 1979, p. 146-185.

69. Kung H. Т., Robinson John T. On optimistic methods for concurrency control // ACM Transactions on Database Systems, №6. June 1981. P. 213-226.

70. Garcia-Molina H., Wiederhold G. Read-only transactions in a distributed database // ACM Transactions on Database Systems, №7(2), June 1982. P. 209-234.

71. Атре Ш. Структурный подход к организации баз данных. М.: Финансы и статистика, 1983. - 320 с.

72. Якубайтис Э.А. Информационно-вычислительные сети. М.: Финансы и статистика, 1984. — 232 с.

73. Гилуа М.М. Множественная модель данных в информационных системах. М.: Наука, 1992.

74. Нагао М., Катаяма Т., Уэмура С. Структуры и базы данных. М.: Мир, 1986.- 197 с.

75. Тиори Т., Фрай Дж. Проектирование структур баз данных. В 2 кн. — М.: Мир, 1985. Кн. 1.-287 с.

76. Тиори Т., Фрай Дж. Проектирование структур баз данных. В 2 кн. М.: Мир, 1985. Кн. 2.-320 с.

77. Wiederhold G., Qian X. Modeling asynchrony in distributed databases. In Proceedings of the Third International Conference on Data Engineering, February 1987. P. 246-250.

78. Papadimitriou C. The Theory of Database Concurrency Control. Computer Science Press, 1986.

79. Schiper A., Raynal M. From group communication to transactions in distributed systems // Communications of the ACM, №39, April, 1996. P. 84-87.

80. Барсуков A.B., Гаврилов A.B. Распределенная система баз знаний в среде Internet // Труды 6-го междунар. семинара «Распределенная обработка информации», Новосибирск: 1998. С. 353-356.

81. Байкова И.В., Кольтов М.А., Кулагин М.В., Михайлов Г.М., Привезенцев Ю.А., Рогов Ю.П. Распределенные информационновычислительные системы / ВЦ РАН // Информационные технологии и вычислительные системы. 1997. -№ 3.

82. Кульба В.В., Ковалевский С.С., Косяченко С.А., Сиротюк В.О. Теоретические основы проектирования оптимальных структур распределенных баз данных М.: СИНТЕГ, 1999. - 659 с.

83. Карпова Т.С. Базы данных: модели, разработка, реализация. — СПб.: Питер. 2001.

84. Вендров A.M. CASE-технологии. Современные методы и средства проектирования информационных систем. — М.: Финансы и статистика, 1998.

85. Грейвс, М. Проектирование баз данных на основе XML.: Пер. с англ. — М.: Издательский дом «Вильяме», 2002. — 640 е.: ил. — Парал. тит. англ.

86. Рамбо Дж., Якобсон А., Буч Г. UML: специальный справочник. СПб.: Питер, 2002. - 656 е.: ил.

87. Пуха Ю. Объектные технологии построения распределенных информационных систем // СУБД 1997. - № 3. - С. 4-20.

88. Ризаев И.С., Суздальцев В.А. Размещение информации в распределенных базах данных по узлам сети // Вестн. Казан, гос. техн. ун-та. 1997. - № 3. - С. 79-81.

89. Чистяков В. Средства разработки для баз данных и распределенных архитектур // Технол. «клиент-сервер» 1998. — № 3. - С. 33-34.

90. Шехватов Д. Принципы построения хранилищ данных // READ ME — 1998.-№4.-С. 20.

91. Шокин Ю.И., Федотов A.M. Распределенные информационные системы // Вычисл. технол. 1998. - Т. 3. - № 5. - С. 79-93.

92. Энсор Д., Стивенсон И. Oracle: Проектирование баз данных: Пер. с англ. Киев: BHV, 1999. - 557 е.: ил.

93. Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В.А. Интегрированная система информационных ресурсов РАН и технология разработки цифровых библиотек // Программирование -2000.-№4.-С. 3-14.

94. Subject-Oriented Journal Indexes Электронный ресурс. / J. Murrey Atkins Library. Режим доступа: http://library.uncc.edu/display/ ?dept=rds&format=open&page=240 26.04.05. Загл. с экрана.

95. Брюхов Д.О., Задорожный В.И., Калиниченко Л.А., Курошев М.Ю., Шумилов С.С. Интероперабельные информационные системы: архитектуры и технологии // СУБД 1995. - №3. — С. 20-24.

96. Киселев И.Н. Информационная система архива: модель и воплощение // Отеч. арх. 1997. - № 6. - С. 28-35.

97. Шокин Ю.И., Федотов A.M. Информационно-вычислительная сеть Сибирского отделения РАН // Информационные технологии и вычислительные системы. 1996. — № 3. — С. 14-18.

98. Андреев A.M., Кантонистов Ю.А., Березкин Д.В. ODB-Text объектно-ориентированная база данных // Мир ПК - 1997. - № 8. - С. 49-52.

99. Древицкая Ирина, Клейнер Яков, Федоровский Николай Методические аспекты разработки электронной библиотеки // 1нформатиз. та hobi технол. 1996. - № 3. - С. 18-20.

100. Елепов Б.С., Марчук А.Г., Бобров Л.К., Константинов В.И. Новые информационно-библиотечные технологии // Инф. технол. и вычисл. системы 1997. - № 2. - С. 83-89.

101. Каленов Н.Е. Создание тестовой распределенной электронной библиотеки // «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества»: Материалы конф. — М.: ГПНТБ России, 2001. Т. 2 - С. 1044.

102. Лаврик О.Л. Подход к созданию проблемно-ориентированной электронной библиотеки // «Библиотеки и ассоциации в меняющемсямире: новые технологии и новые формы сотрудничества»: Материалы конф.-М.: ГПНТБ России, 2000.-Т. 1 С. 308-311.

103. Попов В.В. Проблемы создания электронных ресурсов для библиотек отраслей и корпораций // «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества»: Материалы конф. М.: ГПНТБ России, 2001. - Т. 2 - С. 852-853.

104. Жижимов O.JL Введение в Z39.50. — Новосибирск: Изд-во НГОНБ, 2003.-262 с.

105. Власова С.А., Каленов Н.Е. Развитие Интернет-версии системы «Наука России» // «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества»: Материалы конф. — М.: ГПНТБ России, 2001. Т. 1. - С. 225-227.

106. Вольф Ю.А., Капустин С.Д., Щуревич В.А. Разработка системы управления базами данных «Библиотека» // Науч.-техн. творчество студ.: Сб. тез. докл. — Барнаул: Изд-во Алт. гос. техн. ун-та, 1996. — Ч.2.-С. 39.

107. Михалкина О.Б. Состояние и тенденции развития библиотечно-информационных систем России // Библ. дело на пороге 21 в.: Тез. докл. и сообщ. междунар. науч. конф., Москва, 15-16 апр., 1998 М., 1998.-Ч. 2.-С. 57-58.

108. Гриханов Ю.А. Информационные технологии в библиотеках на рубеже веков: проблемы, поиски, решения // Библиография — 1999. № 1. - С. 129-130.

109. Филиппова Л.Я. Библиографическая база данных как информационная основа автоматизированных библиотечных систем // Библ. дело на пороге 21 в.: Тез. докл. и сообщ. междунар. науч. конф., Москва, 15-16 апр., 1998 М., 1998. - Ч. 1 - С. 160-161.

110. Левицкая Л.В., Сибирцева Е.А., Карауш А.С. Публичная библиотека как провайдер экологической информации // Науч. и техн. б-ки 2003. - № 4 . - С. 38-43.

111. Аналитико-синтетическая обработка документов. Библиотечные каталоги: Учеб.-метод. материалы для слушателей / Ин-т переподготовки работников искусства, культуры и туризма; Сост.

112. Р.Сукиасян. М.: Изд-во ИПРИКТ, 1999. - 44 с.

113. Столяров Ю.Н. Документный ресурс: Учеб. Пособие. М.: Либерея,2001.- 149 с.

114. Matthews, Joseph R. Time for new OP AC initiatives: An overview of landmarks in the literature and introduction to WordFocus // Libr. Hi Tech -1997.-Vol. 15.-№ 1-2.-P. 111-122.

115. Smiraglia Richard P., Leazer Gregory H. Derivative bibliographic relationships: The work relationship in a global bibliographic database // J. Amer. Soc. Inf. Sci. 1999. - Vol. 50. - № 6. - P. 493-504.

116. Правила составления библиографического описания / Межвед. каталогизац. комис. при Гос. б-ке СССР им. В.И. Ленина. М.: Книга, 1986 - 4.1: Книги и сериальные издания. - 1986. - 528 с.

117. Гендина Н.И. Лингвистическое обеспечение автоматизированных библиотечных систем. — Алма-Ата: Гылым, 1991. 222 с.

118. Пилко И.С., Тараненко Л.Г. Электронный библиографический сервис: расчеты и просчеты // Библиография 2000. - № 6. — С. 3-7.

119. Питера, Джаксо Что такое электронное библиотековедение? // Науч. и техн. б-ки 2002. - № 1. - С. 123-126.

120. Папенфот Н.В. Формирование баз данных коллективного пользования // Библиография 2001. - № 2. - С. 67-68.

121. Половикова О.Н. Применение теории алгебр Халмоша для математического моделирования информационно-поисковых систем: дис. . канд. ф.-м. наук. Барнаул, 2003.

122. Баранов В.Л., Сова Д.Н. АБИС "Руслан" — от локальной автоматизации к корпоративным проектам // «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества»: Материалы конф. М.: ГПНТБ России, 2002. - Т.2. - С. 820-822.

123. Карауш А.С., Копытков Д.Ю. Программное обеспечение для автоматической синхронизации баз данных системы «ИРБИС» // Науч. и техн. б-ки.-2003.-№ Ю.-С. 88-91.

124. Племнек А.И., Усманов Р.Т. Z39.50: открытый доступ к библиографической информации Электронный ресурс. Режим доступа: http://www.unilib.neva.ru/rus/olsc/publications/z3904.html 21.04.05. Загл. с экрана.

125. UNIMARC Manual. Руководство по UNIMARC / Пер. на рус. яз. коллектива под рук. А.И. Земскова, Я.Л. Шрайберга. М.: ГПНТБ России, 1992.-319 с.

126. Бахтурина Т.А. Российский коммуникативный формат в терминологическом аспекте // Науч. и техн. б-ки — 1998. № 7. — С. 21-32.

127. Российский коммуникативный формат представления библиографических записей в машиночитаемой форме: (Российская версия UNIMARC): (Книги и сериальные издания) / Рос. библ. ассоц. СПб.: Изд-во РНБ, 1997. 532 с.

128. Бакстон, Э. Руководство по CDS/ISIS для Windows/ Э. Бакстон, А. Хопкинсон; Пер. с англ. творческого коллектива Ассоциации ЭБНИТ, Рук. работы Я.Л. Шрайберг, Отв. ред. Е.М. Зайцева. М.: ГПНТБ, 2002.

129. Дейт, К., Дж. Введение в системы баз данных, 7-е издание.: Пер. с англ. М.: Издательский дом «Вильяме», 2001. - 1072 е.: ил. - Парал. тит. англ.

130. Джексон Г. Проектирование реляционных баз данных для использования с микроЭВМ. — М.: Мир, 1991. — 252 с.

131. Ладыженский Г.М. Системы управления базами данных — коротко о главном // СУБД, 1995.

132. Хансен Г., Хансен Дж. Базы данных: разработка и управление: Пер. с англ. М.: ЗАО «Издательство БИНОМ», 2000. - 704 е.: ил.

133. Леффингуэлл, Дин, Уидриг, Дон Принципы работы с требованиями к программному обеспечению. Унифицированный подход.: Пер. с англ. -М.: Издательский дом «Вильяме», 2002. — 448 е.: ил. Парал. тит. англ.

134. Степанов В.К. Библиотека в круглосуточном режиме работы // Библиотечное дело — 2002. Библиотечное образование и практика: поиски взаимопонимания М.: Изд-во МГУКИ, 2002. - С. 208-209.

135. Степанов В.К. Гибридный Интернет: перспективная технология или временное решение? // «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества»: Материалы конф. М.: ГПНТБ России, 2002. - Т. 1.

136. Карауш А.С. Модель корпоративного создания и тиражирования электронных каталогов библиотек: дис. . канд. техн. наук. — Новосибирск, 2004.

137. Карауш А.С. Модель тиражирования библиографических баз данных с использованием алгоритмических кодов записей // «VIII Международная конференция по электронным публикациям «EL-PUB2003»«: Сб. тез. докл. Новосибирск: ИВТ СО РАН, 2003. - С. 1415.

138. Карауш А.С., Копытков Д.Ю. Программное обеспечение корректора электронного каталога системы «ИРБИС» // Науч. и техн. б-ки. — 2003. -№ 10.-С. 83-87.

139. England М., Joseph L., Schlecht N. W. A low-cost library database solution // Inf. Technol. and Libr. 2000. - Vol. 19. - № 1. - P. 46-49.

140. Калинина Г.П. Заголовок библиографической записи: новое в правилах составления // Библиография 2000. - № 2. - С. 41-45.

141. Jizba L. Reflections on summarizing and abstracting: Implications for Internet Web documents, and standardized library cataloging databases // J. Internet Catal. 1997. - Vol. 1. - № 2. - P, 15-39.

142. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: дис. . канд. ф.-м. наук. — Санкт-Петербург, 2000. ' 1

143. Браун М., Ханикатт Д. HTML 3.2 в подлиннике / Пер. с англ.: А. Карташев, А. Сергеев. Спб. : BHV - Санкт-Петербург, 1998. - (В подлиннике).-1040 с.:ил.