автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Моделирование и разработка средств и технологий представления информации в распределенных электронных библиотеках
Автореферат диссертации по теме "Моделирование и разработка средств и технологий представления информации в распределенных электронных библиотеках"
На правах рукописи СЫСОЙКИНА МАРИЯ АЛЕКСАНДРОВНА
Моделирование и разработка средств и технологий представления информации в распределенных электронных библиотеках
05.25.05 - «Информационные системы и процессы, правовые аспекты информатики»
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Москва - 2003
Работа выполнена в Российском государственном гуманитарном университете
Научный руководитель: доктор технических наук, доцент
Максимов Николай Вениаминович
Ведущая организация: Всероссийский научно-технический информационный центр
в -¿Учасов на заседании диссертационного совета Д 212.198.02 при Российском государственном гуманитарном университете по адресу: 125267, Москва, Миусская пл., 6
С диссертацией можно ознакомиться в библиотеке Российского государственного гуманитарного университета
Автореферат разослан -/^октября 2003 г.
Официальные оппоненты:
доктор технических наук, профессор Полтев Александр Алексеевич доктор технических наук, профессор Попов Игорь Иванович
Защита диссертации состоится
2003 г.
Ученый секретарь диссертационного совета
Меркулов В.Н.
з
Общая характеристика работы Актуальность работы
Стремительное развитие информационных и коммуникационных технологий повлекло за собой создание нового типа информационных ресурсов - распределенных информационных систем, предоставляющих систематизированный доступ к разнородной информации, хранимой в электронной форме. Такие системы, получившие название «электронные библиотеки» (ЭБ), также как и традиционные библиотеки, поставлены перед необходимостью интегрировать существующие ресурсы в единое информационное пространство, что позволило бы обеспечивать «прозрачный» и унифицированный доступ к распределенной информации.
Однако процесс интеграции сильно затрудняется различиями в представлении информации, поскольку каждая ЭБ использует собственные модели представлении данных и средства их обработки, что в итоге определяет степень совместимости, а также способы доступа к информации и форматы выдачи данных. Представление документальной информации, охватывающее разные аспекты представления документа (такие, как доступ или хранение) является предметом многих научных исследований и разработок. Научная разработанность проблемы Представлению библиографической информации всегда уделялось много внимания. Существует целый ряд разработок, например, форматы семейства MARC, используемые для хранения и передачи библиографических данных, протокол поиска Z39.50, определяющий правила доступа к библиографическим БД.
Другим актуальным направлением исследований является унификация представления полных текстов. На текущий момент из существующих средств стандартизации представления полнотекстовых документов можно назвать языки разметки (на основе XML), а также семейство стандартов обмена документами ODA/ODIF. Однако существующие разработки в области применения форматов представления на базе XML ориентированы на использование в каком-либо одном аспекте: существуют XML-форматы хранения документов, XML-форматы обмена и т.д.
Отсутствие общей модели документа, отражающей представление документа на различных этапах его существования, и обеспечивающей унификацию представления информации, определило направление данного диссертационного исследования.
Цель работы
Основная цель диссертационной работы заключается в создании обобщенной модели представления документов, применимой к основным процессам обработки документа, что позволит определить для каждого функционального аспекта ряд форм и представлений документа, а также множество необходимых операций его преобразования.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Определить множество необходимых и достаточных процессов обработки информации и их взаимосвязь, в том числе:
построить схему функционирования ЭБ в аспекте управления документальными ресурсами; определить основные процессы обработки и построить модель их взаимодействия; определить особенности представления документальной информации в различных процессах.
2. Определить соответствующие формы представления документа и особенности преобразования его в каждом процессе, в том числе:
проанализировать структуру представления информации, хранимой в документе; определить возможные преобразования документа в каждом процессе обработки и варианты его представления;
рассмотреть существующие средства представления документов и их возможности для использования в преобразованиях.
3. Построить модель представления документа, позволяющую оптимизировать процессы преобразования.
Гипотеза работы заключается в построении абстрактной модели представления документа для класса задач по обработке информации в ЭБ, опирающейся на основные принципы функционирования электронных библиотек.
Объектом исследования является электронная библиотека, рассматриваемая как средство управления электронными информационными ресурсами, обеспечивающее эффективное хранение информации и унифицированный распределенный доступ к ней.
Предметом исследования являются процессы преобразования информации на различных этапах ее существования в ЭБ и их взаимодействие, а также особенности представления информации в каждом из этих процессов.
Научная новизна работы
Новизна предлагаемого подхода к представлению документа в распределенных электронных библиотеках состоит в том, что практическая реализация модели возможна с использованием самых различных механизмов обработки информации. Это могут быть как локальные средства управления информационными ресурсами, использующие собственные оригинальные метода представления и обработки документов, так и стандартные технологии распределенной обработки данных, такие как модели унифицированного представления данных, основанные на общепринятых стандартах, например, протокол доступа к данным Z39.50 или языки XML.
Разрабатываемая модель за счет многоуровневого описания этапов обработки документа и своей ориентированности на общую абстрактную схему функционирования ЭБ позволяет успешно комбинировать средства представления документа для достижения оптимального результата. Такая гибкость и возможность оптимизации для конкретных случаев определяет значимость данной разработки для использования ее в различных системах.
Основные научные результаты диссертационного исследования:
- разработана общая схема функционирования ЭБ. описывающая три функциональных уровня. Схема опреде-
ляет этапы представления и преобразования информации в системе в нескольких аспектах: взаимодействие системы с пользователем, внутрисистемная организация массива данных и технологический уровень функционирования;
- разработана модель взаимосвязи необходимых и достаточных процессов обработки документа, определяющая два независимых аспекта представления документа в системе: коммуникационный и внутрисистемный;
- проведен сравнительный анализ существующих средств описания представления полнотекстовых документов (языки разметки, форматы на базе стандарта ODA, локальные средства) для каждого из этапов обработки;
- разработана модель преобразования документа в рамках общего процесса, описывающая преобразования логической структуры документа и макетной структуры. Модель позволяет определить два базовых типа преобразования информации - преобразование структуры и преобразование конечной формы представления;
- разработана обобщенная модель представления документа. учитывающая преобразование информации в четырех процессах обработки: наполнение, хранение, доступ, выдача, и позволяющая оптимизировать представление документа в этих процессах для конфетных случаев.
Научные положения, полученные лично автором и выносимые на защиту:
- обоснована необходимость и достаточность определения в любой системе четырех основных процессов обработки информации - наполнения, хранения, доступа и выдачи;
- построена модель преобразования информации для отдельного процесса, определяющая последовательное преобразование логической и макетной структур документа с использованием декларативных и процедурных средств;
- построена обобщенная модель представления информации в информационной системе, отражающая четыре необходимых и достаточных процесса обработки документа и преобразования логической и макетной структур документа, позволяющая оптимизировать частные случаи преобразования.
Теоретическую и методологическую основу исследования составили труды российских и зарубежных авторов в области создания электронных библиотек, обработки информации, разработки моделей и средств представления электронной информации. В исследовании использовались также существующие стандарты и рекомендации таких организаций как ISO, ANSI/NISO, WWW Consortium и т.д. Кроме того, использован личный опыт автора в разработке и создании средств и механизмов представления полнотекстовой информации в распределенных ЭБ.
Обоснованность и достоверность научных положений и выводов подтверждается:
- разработкой обобщенной формализованной модели представления информации, и ее оптимизацией для частных случаев;
- экспериментальными результатами применения обобщенной модели представления информации для унификации преобразования информации в ЭБ и реализацией механизмов интеграции нескольких ЭБ на основе разработанной модели.
Научное значение диссертационного исследования заключается в том, что разработанная обобщенная модель представления документа применима к любой системе и к любому исходному представлению документа, так как описывает процессы и формы представления документа абстрактно, независимо от конкретной реализации системы. Однако при этом ее использование позволяет в значительной степени унифицировать описываемые процессы и представление информации, что в свою очередь упрощает процессы взаимодействия электронных библиотек между собой, и обеспечивает легкость их интеграции в общее информационное пространство.
Практическое значение диссертационного исследования определяется тем, что на основе разработанных в диссертации положений и при непосредственном участии автора создаются и реализуются механизмы и средства представления информации, обеспечивающие процесс интеграции ресурсов электронной библиотеки ИНИОН РАН в мировое информационное пространство.
Результаты диссертационной работы также используются в учебном процессе РГГУ в курсе "Стандартизация информационного и программного обеспечения
Реализация выводов работы
Результаты проведенных исследований использованы в работах по созданию информационного пространства электронной библиотеки ИНИОН РАН и поддерживающей его информационной системы, в частности при реализации механизма интеграции информационного пространства ЭБ ИНИОН РАН с электронными библиотеками НЭБ и ЕЬэсо. Результаты исследования также использовались для интеграции распределенного сервера \ЛЛЛЛЛ/иЬ и полнотекстовой БД ВИНИТИ РАН.
Апробация работы и публикации
Материалы диссертации докладывались на 6-й Международной конференции "НТИ-2002" в 2002 году. По теме диссертации опубликовано 3 работы.
Объем и структура работы
Диссертационная работа состоит из введения, четырех глав, заключения, приложений, списка использованной литературы, включающего 66 наименований. Работа содержит 125 страниц машинописного текста, 22 рисунка, 15 таблиц и 3 приложения на 10 страницах.
Содержание работы
Во введении обоснована актуальность работы, дана характеристика современного состояния проблемы, сформулирована цель работы и ее научная новизна. Показано, что проблема интеграции электронных библиотек в единое информационное пространство может быть эффективно решена на основе предлагаемой обобщенной унифицированной модели представления информации.
В первой главе проведен анализ функционирования электронной библиотеки и основные задачи ее в аспекте управления информационными ресурсами.
Одно из определений термина "электронная библиотека" гласит, что под электронными библиотеками понимается технология создания распределенных информационных систем, характеризующихся высокой степенью интероперабельности составляющих компонент, предоставляющих универсальный доступ к хранящейся информации и содержащих мультимедийную информацию1.
В аспекте управления информационными ресурсами первоочередными задачами ЭБ являются интеграция и хранение информационных ресурсов и обеспечение распределенного доступа к информации.
Исходя из перечисленных задач и целей ЭБ, было предложено считать информационное пространство ЭБ совокупностью самостоятельных объектов - документов. При этом документом будем считать условно ограниченный объем информации, хранимый в определенной среде и имеющий структуру, диктуемую особенностями содержания документа и средой его хранения.
В результате анализа деятельности электронных библиотек выделены три их функциональных уровня:
1. Уровень взаимодействия пользователей с электронной библиотекой, определяющий условия работы пользователей с информационными массивами (доступ к базам данных, интерфейсы и т.д.)
2. Уровень системной организации информационного массива. определяющий условия, связанные со структурой информационного массива (структура баз данных, форматы данных и т.д.)
3. Технологический уровень организации ЭБ. определяющий условия функционирования и сопровождения электронных библиотек на протяжении всего жизненного цикла информационного массива.
1 Фонотов А.Г., Якуцени П.П. Роль электронных библиотек в передаче технологий II Электронные библиотеки.-1999, т.2, вып.4.
Взаимосвязь уровней функционирования ЭБ представлена в виде схемы, представленной на рис.1.
Технологический уровень организации
Рис.1. Общая схема функционирования ЭБ
На основе схемы функционирования в контексте моделей глобального информационного обмена2 и модели воспроизводства информации3 были выделены два аспекта анализа представления документа в системе:
1. Внутрисистемное представление документа, определяющее этапы занесения документа в систему и хранения документа в среде ЭБ.
2. Коммуникационные преобразования, определяющие доступ извне к документу, представленному в соответствии с требованиями среды, а также выдачу документов во внешнем представлении, отличающемся от принятого в системе.
2 Попов И.И. Информационные ресурсы и системы: реализация, моделирование, управление. - М.: ТПК «Альянс», 1996, с. 278
1 Максимов Н.В. Исследование и моделирование систем управления доступом к гетерогенным информационным ресурсам. Диссертация на соискание ученой степени доктора технических наук,- М, 2001.
Анализ представления документа в системе позволил определить четыре необходимых и достаточных процесса преобразования информации и их взаимосвязь (см. рис. 2).
Рис. 2. Взаимосвязь процессов обработки информации
По результатам анализа существующих подходов к представлению структуры информации в документе (языки разметки на базе SGML и XML, архитектура ODA) были выделены два типа структур - логическая и макетная. Логическая структура предназначена для представления произвольных иерархических видов организации информации, например, рубрикация документа, включение в текст таблиц и рисунков. Макетная структура служит для описания правил отображения документа и оперирует такими объектами, как, например, группы взаимосвязанных страниц для представления конкретных разделов документа или отдельные страницы и блоки, размещаемые на страницах.
Анализ существующих средств был проведен по нескольким параметрам: по общим возможностям представления документа в целом, а также по использованию преобразований макетной и логической структур в каждом процессе обработки. Таким образом, основываясь на выделении в документе двух типов структур, были определены два типа преобразований для каждого процесса обработки: структурные преобразования, осуществляемые с использованием декларативных описаний, и преобразования представления, осуществляемые процедурно.
Во второй главе проведен структурный анализ форм представления информации в документе и выделены четыре основных категории данных:
- сами данные (содержание);
- информация об идентификации элементов документа;
- информация о представлении элементов документа;
- метаинформация (служебная или системная информация об экземпляре документа в целом).
В зависимости от того, насколько эти категории выделимы и существенны для определенной модели, во внутрисистемном представлении информация, относящаяся к документу, разбивается в соответствии с этим делением.
Следует различать идентификацию элемента в структуре документа - логическую, и идентификацию в самом теле документа - физическую.
Физическая идентификация элемента - это средство точного определения местоположения элемента в документе, его адреса, или границ содержимого элемента в теле документа, причем безотносительно самой природы элемента.
Логическая идентификация - это механизм уникального определения элемента, отличающего его от остальных, например, заданием некоего имени.
Выделение в документе информации об идентификации и информации о представлении позволяет определить два типа альтернативных по цели, но взаимодополняющих структур - логической и макетной.
Каждый элемент содержания документа может принадлежать как элементу логической структуры, так и быть элементом макетной. Множество схожих элементов содержания, относящихся к одному и тому же логическому или макетному объекту, называется порцией содержания4 (см. рис. 3).
4 С1ТТ/1Ти Р?есоттегк)айоп5 (Т.410 эепеБ) http://www.incoma.ai/cdготЗ/ссШ1992А/
Рис.3. Взаимосвязь логической и макетной структур документа
Рассмотрим подробнее процессы обработки информации.
Хранение документа включает в себя три самостоятельных операции:
• Разбиение документа представляет собой физическое разнесение элементов документа (информации о представлении и идентификации непосредственно данных) в соответствии с физической моделью хранения документа.
• Размещение документа представляет собой способ записи информации на носителе (например, на диске).
• Сборка документа - это процесс, во многом связанный с этапом выдачи информации. Сборка документа, по сути, является обратной процессу разбиения.
Наполнение документа информацией представляет собой процесс создания нового документа путем преобразования некоторых уже существующих документов к выбранному виду.
В случае полной автоматизации процесса наполнения (при ограниченном количестве неизменяемых входных форматов) каждый элемент входной структуры однозначно сопоставляется с элементом используемой модели.
Доступ к документу подразумевает его поиск и навигацию, например, в БД. Здесь можно выделить два этапа.
На начальном этапе происходит преобразование запроса (как гипотетического документа) к системной структуре представления. Затем производится сопоставление поисковых терминов запроса с индексами БД или значениями соответствующих полей документа и определяется степень соответствия найденного документа запросу.
Выдача документа - процесс обратный хранению и наполнению.
На практике хранимый в БД документ при выдаче чаще всего преобразуется к некому обменному или выходному формату. В этом случае возможно как структурное преобразование документа, так и изменение способа его отображения.
Под структурным преобразованием документа подразумевается как изменение физической структуры документа, так и логической - выходной формат документа требует совершенно иной структуры, иных взаимосвязей отдельных частей и элементов документа и т.д.
Анализ действий, производимых для преобразования документа в каждом процессе, позволил выделить два типа преобразований: структурное изменение (преобразование логической структуры) и формирование внешнего представления (изменение макетной структуры).
Основным инструментом изменения логической структуры документа являются таблицы или схемы соответствия структур и языки-посредники, позволяющие однозначно сопоставить элементы исходной и требуемой логической структуры документа.
Преобразования представления документа (адаптация к внешним требованиям) осуществляются преимущественно процедурно, с использованием различных алгоритмов.
Построим модель преобразования структур документа, общую для всех процессов (рис. 4).
(внутрисистемное (новая структура) (в среде выдачи)
представление) „ „
Преобразование Преобразование
логической структуры макетной структуры
(язык преобразования) (язык-посредник)
Рис. 4. Обобщенная модель преобразования логической и макетной структур документа (на примере процесса выдачи)
Процессы обработки информации и преобразования макетной и логической структур документа послужили основой для дальнейшего анализа средств представления структуры документа.
Существующие средства были условно разделены на две категории:
1) локализованные средства - информационно-поисковые системы, имеющие собственные стандарты хранения информация и поддерживающие собственные (уникальные) форматы представления структуры и формы документов;
2) распределенные средства представления данных - языки разметки на базе XML и протокол поиска информации Z39.50.
Сравнительный анализ достоинств и недостатков этих средств позволил сделать выводы о том, что языки разметки на базе XML, а также дополнительные средства (XSL, XSLT и т.д.) позволяют в значительной степени унифицировать внутрисистемное представление документа - цепочку преобразований, включающую процессы наполнения документа и его хранения. Протокол Z39.50, ориентированный на процессы доступа и выдачи, позволяет унифицировать коммуникативную сторону представления документа.
Учитывая достоинства и недостатки существующих в настоящее время средств представления информации, можно сделать вывод о том, что эти средства следует комбинировать.
В третьей главе описывается процесс разработки обобщенной модели представления документа.
Исходя из детального рассмотрения процессов обработки информации, мы можем сформировать структурную модель документа, представленную на рис. 5, уточнив определенный ранее список категорий информации:
- сами данные (содержание);
- информация об идентификации элементов документа;
- информация о представлении элементов документа;
- метаинформация (служебная или системная информация об экземпляре документа в целом).
Наполнение
|\Правила представления
Поиск
Схемы отображения
Логическая идентификация
Физическая идентификация
У///ШУ///Л
VI__________
____________м
Выдача
Хранение
Рис. 5 Структурная модель информации в документе
В информации об идентификации выделим два самостоятельных уровня - информацию о физической и информацию о логической идентификации. Соответственно, в информации о представлении документа - информацию о структурном отображении и правила представления данных в конечной среде.
Первые два уровня - физическая и логическая идентификация - являются общими базовыми уровнями для всех процессов обработки.
Информация об отображении - это схемы, декларативно описывающие некоторые правила преобразования элементов логической структуры документа в требуемый вид. Схемы отображения могут быть многоуровневыми.
Правила представления документа - это в большей степени процедурные правила визуального представления документа в конечной среде выдачи.
Теперь формализуем и сведем воедино модели взаимодействия процессов и структурную модель информации в документе. Для этого определим функциональную модель, формально определяющую каждый процесс:
~ Наполнение документа.
^-Хранение документа.
Расз - Доступ к документу.
Рп, - Выдача документа.
Таким образом, мы можем представить схему взаимодействия процессов в несколько ином виде (см. рис. 6).
Относительно каждого процесса обработки выделяются три состояния документа:
си - внешний документ;
Э^в- внешняя структура;
- внутрисистемная структура;
Внешние документы с точки зрения обработки следует разделять на входные и выходные. Обозначать мы их будем соответственно, как совокупности из к и т элементов. При этом типов входных и выходных документов может быть несколько.
Каждый тип внешнего документа имеет свою структуру, также представленную совокупностью к или т элементов.
Внешний документ
Процедуры представления
Схемы . отображения
оо
Внешний документ
■геттаттштши
Схемы ^ . отображения
Системная структура документа
Лог. идентификация
Физ идентификация
Внешний документ
Схемы отображения
Процедуры ^ представления
'£1
Внешний документ
Рис. 6. Функциональная схема взаимосвязи процессов
Системная структура документа состоит из п элементов:
Далее, в каждом преобразовании выделяются два типа трансформаций: отображение документа (обозначаемое как Ттар) и представление документа (ЬеР).
Функции, ^р и описывающие процессы представления и отображения, позволяют определить затраты на преобразование документа в каждом процессе. Используя время преобрази вания I в качестве аргумента этих функций, определим затраты на отображение и представление документа. Представление одного документа, содержащего к элементов, будет занимать М времени, а отображение ~ пк-1 времени.
Такая модель подразумевает два возможных представления документа на каждом этапе обработки.
Поэлементное представление означает, что обрабатываемый документ разбивается на взаимосвязанные элементы данных - поля, структуры, блоки и т.д.
Функции представления и отображения могут комбинироваться несколькими различными способами для достижения оптимального результата обработки в каждом конкретном случае.
Учитывая множественные условия комбинирования функций, задача выбора оптимального способа преобразования документа была сведена к многокритериальной задаче принятия решений. Основной целью задачи является поиск такого решения, при котором способ представления документа в системе будет максимально эффективным, а затраты на преобразование будут минимальными.
Определим семь альтернатив, образующих множество Эджворта-Парето (см. табл. 1), описывающих возможные варианты последовательного использования преобразований представления и отображения.
Далее определим критерии: : X > 1, где X - число типов входных документов.
К2:У > 1, где У - число типов выходных документов К3: п > 1, где п - число элементов во внутрисистемной структуре
К^ :к>\,к п, где к - количество элементов входной структуры, сопоставимых с элементами внутрисистемной структуры К5: т > \,т —> п, где т - количество элементов выходной структуры, сопоставимых с элементами внутрисистемной структуры К6: Тх- время преобразования входного документа к внутрисистемному представлению
К1: Т - время преобразования документа к выходной
структуре.
_ Таблица 1. Альтернативы организации обработки документов
К, (Х>1) К2 (Y>1) Kj (n) K4 W к5 (m) K6 (Tx) K7 (Ty) Примечание
м Х>1 Y>1 1 1 1 10/ 10t Документ не преобразуется
А 2 1 Y>1 N k = n т—>п 10ч/ n к lOnt + kt + mt + ZH' .-1 7=1 = 12n/ + n2/ Цокумент преобразуется полностью только на зыходе
АЗ 1 Y>1 N k-n m-wi kt + lOnt =11 nt 11nt+rft Преобразование представления на зходе, полное преобразование ría выходе
А4 Х>1 У>1 N k т-м IOÍZ+H2/ Y2nt+rft Преобразование структуры на зходе, полное преобразование ría выходе.
А5 Х>1 Y>1 N k-*n m-wi 11и/+п2/ 11W/+H2/ Полное преобразование в обоих случаях
А6 Х>1 1 N k -> я 1 11И/+И2/ 10tí Цокумент преобразуется только на зходе
А 7 Х>1 1 N к -» я 1 lln/ч-и2/ 11и/ Полное преобразование на входе, преобразование представления на зыходе
Теперь будем искать оптимальную альтернативу, используя метод анализа иерархий: сравним попарно критерии (первые пять качественных критериев) и альтернативы, и вычислим интегральные показатели эффективности для каждой альтернативы. Для количественных же критериев мы определим лишь их нормированные значения.
В таблице 2 отражены функции полезности каждой альтернатив, отражающие отношение временных затрат (стоимости) к эффективности. Наиболее перспективной будет считаться та альтернатива, для которой функция полезности принимает наименьшее значение при заданном п.
Для окончательного принятия решения определим интервал значений п от 1 до 250 (верхняя граница определяется количеством элементов в формате описания полного текста) и построим графики функций (см. рис.7).
Анализ графиков показал, что большинство альтернатив, предлагающих неполные преобразования документа, эффективно при возрастающем п. Однако, альтернативы А4 и А5, описывающие полные преобразования документов, в целом имеют лучшие показатели при любом количестве элементов, хотя с возрастанием п их эффективность незначительно уменьшается.
Таким образом, для достижения максимальной эффективности работы системы можно комбинировать описанные подходы к преобразованию документа, например, в случае использования большого числа типов входных документов, наиболее часто повторяющиеся типы можно преобразовывать (по альтернативам А4 и А5), а остальные заносить в систему полностью (А2, Аз).
В четвертой главе описываются практическая реализация результатов проведенного исследования.
На основе разработанной модели представления документа были реализованы функциональные модули, обеспечивающие унификацию преобразования и представления информации в различных процессах ее обработки.
Таблица 2. Функции полезности альтернатив H
Нормированное значение Тх Нормированное значение Ту Показатель Et Функция полезности
А1 10 10 0,0650803 10 10
64«+10+4я2 87л+10+4л2 лА ) ^
А2 Юл 12л+л2 0,0833968 10J 1Э5+И1
64л+10+4яг 87л+10+4л2 r (ny 6*г+\0+4п} 8>1+10—4п3 Цг
A3 lin 11л+и2 0,0833968 1 h 1 h+л2
64л+10+4 и2 87л+10+4л2 г ,„ч 64J+1&+4«3 S'fc+lO+W Ej
A4 10я+яг 12л+и2 0,2470613 1ÛÏ+/Î2
64я+10+4я2 87и+10+4л2 р ,т>. 64J+10+4«1 87h+10-4«J
А5 11л+я2 11л+пг 0,2470613 10i 1 л2 13мл2
64я+10+4яг 87л+10+4«2 р 64г+10+4и «Ъ+Ю+Фз1 гЛп)~ - — - с..................
А6 11«+я2 10и 0,1370017 11» 1 и2 10»
64«+10+4л2 87и+10+4й2 Г- 64!+1()-4иг 8Ъ+1()+Ф1г Л*.(Д)= ........ с
А7 11л+лг 11л 0,1370017 1 Ь+л2 11га
64я+10+4л2 87и+10+4и2 ^ 64|+10+4и3 »Ъ+10-V П,
Рис. 7. График функций полезности альтернатив А1-А7
Коммуникационная составляющая модели, обеспечивающая процессы доступа и выдачи информации, была реализована в рамках проекта организации доступа к ресурсам ЭБ ИНИОН и доступа к ассоциированным внешним ресурсам.
Разработанная компонента информационной системы ИНИОН РАН (см. рис. 8) включает в себя возможности по предоставлению доступа к базам данных под управлением ИПС IRBIS по протоколам Z39.50 и HTTP.
Рис. 8. Оема доступа кресурсам ИНИОН РАН по протзюлам HTTP и Z39.50
Интеграция сервера Z39.50 с ИПС IRBIS обеспечивается за счет подключения провайдера данных dprvjrbls, реализованного в виде динамической библиотеки. Провайдер данных отвечает за декодирование входящего запроса на поиск и передачу его ИПС, и кодирование выданных записей и передачу их серверу (см. рис. 9).
Помимо доступа к собственным ресурсам, в информационной системе ИНИОН РАН также был реализован поиск ассоциированных ресурсов. Для этого были разработаны модули, осуществляющие сборку поискового выражения в формате Z39.50 и передачу его требуемому Z39.50-cepBepy, а также компоненты, обрабатывающие полученные документы для определения URL полного текста (см. рис. 10).
Клиент Z39.50
Сервер Z39.50
' Провайдер данных Перевод
Перевод запроса в формат
Irbis
результата в нужный формат
БД Irbis
Рис. 9. Схема взаимодействия ИПС IRBIS с клиентом Z39.50
Рис. 10. Доступ к внешним ресурсам по протоколу Z39.50
Внутрисистемная составляющая модели представления информации применялась при разработке средств наполнения полнотекстовых документов для интеграции ЭБ ИНИОН и баз данных НЭБ.
Разработанная в ходе исследования модель реализована для процессов наполнения документов - на основе XML создана обобщенная схема представления входящих документов, разработаны средства разметки таких документов, также созданы средства их отображения (XSL-таблицы). Кроме того, в соответствии с моделью разработаны процедуры внесения полнотекстовых XML-документов в БД IRBIS.
Кроме этого, в соответствии с предложенной моделью в рамках схемы интеграции сервера WWWLib и БД ВИНИТИ разработан клиентский модуль для получения документов с сервера, их дальнейшей доработки и загрузки в БД. После доработки и окончательного разбора документ, представленный в памяти в виде дерева (с использованием модели DOM), по полям переводится в структуру данных, воспринимаемую SQL-сервером и базой ЕТБД. Созданный таким образом документ сохраняется в БД.
В приложениях приводятся разработанные описания структур
документов для реализованных средств, а также листинги процедур преобразования макетных структур документов.
Основные выводы по диссертации
1. Проведен анализ функционирования ЭБ в аспекте управления полнотекстовыми ресурсами, построена трехуровневая схема функционирования ЭБ.
2. На основе схемы функционирования ЭБ определены основные процессы обработки информации, и разработана модель их взаимосвязи. Исследованы и проанализированы основные подходы к представлению структуры документа.
3. Определены категории информации в структуре документа, обосновано существование в документе макетной и логической структур.
4. Для каждого процесса обработки информации выделены возможные преобразования. В общем случае определены два вида преобразований: преобразования логической структуры, использующие декларативные описания, и процедурные преобразования макетной структуры документа. Построены модели взаимозависимости макетной и логической структур и модель последовательных преобразований этих структур в отдельно взятом процессе.
5. Проанализированы существующие средства представления документов и их возможности для использования в преобразованиях. Для достижения максимальной гибкости и функциональности системы предложено комбинировать возможности локализованных и распределенных средств представления данных.
6. Разработана и формализована обобщенная модель представления документа. Определены уровни преобразования документа для каяедого процесса и разработана схема их взаимодействия в целом. Полученная модель позволяет оптимизировать частные случаи обработки документов.
По теме диссертации опубликованы следующие работы:
1. О реализации электронной библиотеки с использованием протоколов HTTP и Z39.50 (Соавтор Максимов Н.В.)// Электронные библиотеки 2002 - Т. 5- Вып. 1
2. Системы и технологии распределенной обработки НТИ (Соавторы Борисова Л.Ф., Васина E.H., Голицына O.J1., Двойченкова Е.Ю., Максимов Н.В., Резниченко П.И.)// НТИ Сер.2,2003 №9, стр. 6-17
3. Протокол Z39.50: история создания, основные положения, область применения//Теория и практика общественно-научной информации, 2002. -Вып.18. - стр. 127-138.
i 15 9 5 5
Оглавление автор диссертации — кандидата технических наук Сысойкина, Мария Александровна
Введение.
Глава 1. Основные процессы обработки информации в ЭБ.
1.1. Функционирование ЭБ в аспекте управления информационными ресурсами.
1.1.1. Уровень взаимодействия пользователей с электронной библиотекой.
1.1.2. Уровень внутрисистемной организации информационного массива.
1.1.3. Технологический уровень организации.
1.2. Основные процессы обработки информации.
1.2.1 Внутрисистемные преобразования документа.
1.2.2 Коммуникационные преобразования документа.
1.2.3 Взаимосвязь представлений документа.
1.3. Подходы к представлению структуры информации.
1.3.1. Основные требования к представлению полнотекстовых документов.
1.3.2. Унифицированные средства разметки документов.
1.3.3. Средства описания архитектуры документа.
Выводы.
Глава 2. Представление документа в процессах обработки.
2.1 Структура информации в документе.
2.1.1 Информация об идентификации документа.
2.1.2. Информация о представлении документа.
2.1.3. Взаимосвязь двух структур документа.
2.2. Процессы обработки документа.
2.2.1 Хранение документа.
2.2.2. Наполнение документа.
2.2.3. Доступ.
2.2.4. Выдача.
2.2.5. Модель преобразования логической и макетной структур.
2.3. Средства представления структуры документов.
2.3.1. Локализованные средства представления.
2.3.2. Распределенные средства представления информации.
Выводы.
Глава 3. Обобщенная модель представления документа в процессах обработки.
3.1. Структурная модель обработки документа.
3.2. Функциональная модель обработки документа.
3.3. Частные случаи реализации модели.
3.4. Оптимизация модели с использованием метода анализа иерархии.
Выводы:.
Глава 4. Практическая реализация модели.
4.1 Реализация коммуникационной составляющей модели.
4.1.1 Использование коммуникационной составляющей модели для унификации доступа к собственным ресурсам ЭБ.
4.1.2. Использование коммуникационной составляющей модели для унификации доступа к удаленным ассоциированным ресурсам.
4.2 Реализация внутрисистемной составляющей модели.
Выводы.
Введение 2003 год, диссертация по документальной информации, Сысойкина, Мария Александровна
Конец двадцатого столетия характеризуется как период становления информационного общества, в котором информация становится одним из основных экономических ресурсов и структурирующим социальным фактором, под воздействием которого меняются формы экономической деятельности, виды и типы предприятий и организаций, социальные взаимоотношения. Информация становится таким же национальным ресурсом, как недра, вода, леса и т.п. Сохранение, развитие и рациональное использование этого стратегического ресурса будущего является задачей огромного значения для любого общества и государства.
Одной из важнейших задач, практически всегда стоявшей перед человечеством, является сохранение информации с целью ее передачи во времени и/или пространстве. После возникновения книгопечатания основной формой фиксации и распространения информации являются печатные издания, а главными средствами хранения и доступа к информации стали библиотеки.
Стремительное развитие и активное использование современных информационных и коммуникационных технологий позволило приступить к широкомасштабному переводу накопленной человечеством информации в электронную форму и созданию новых электронных информационных ресурсов. Эта новая форма представления информации позволяет на качественно ином уровне организовать процессы производства, хранения и распространения информации. Обеспечение публичного (в том числе удаленного) доступа пользователей к информационным ресурсам стало одной из первоочередных задач обслуживания науки, культуры и образования.
Электронная форма позволяет на сегодня хранить информацию надежно и компактно, распространять ее намного оперативнее и шире и, кроме того, предоставляет такие возможности манипулирования с ней, которых не могло быть при иных формах.
Основными средствами для реализации этих возможностей являются электронные библиотеки (ЭБ) — распределенные информационные системы, позволяющие надежно сохранять и эффективно использовать разнообразные коллекции электронных документов (текст, графика, аудио, видео и др.), доступных через глобальные сети передачи данных в удобном для конечного пользователя виде.
Начало созданию ЭБ было положено еще в 70-х годах, когда начались первые разработки в области документальных ИПС. В начале 70-х гг. абсолютное большинство машиночитаемых баз данных составляли библиографические базы [33]; к концу 70-х положение начало меняться. Распространение технологии электронного набора на широкую область издательской деятельности привело к появлению разнообразных баз данных, включающих полные тексты документов. Одновременно резко увеличилось число и объем фактографических баз, в том числе не имеющих печатных аналогов. Связано это было прежде всего с удешевлением средств массового хранения и процессов ввода данных в компьютер. Благодаря этому для ряда центров-генераторов стала возможной подготовка ретроспективных массивов за годы, предшествовавшие началу их промышленного выпуска. Так, уже к началу 80-х годов для поиска был доступен полный массив американских патентов (ретроспектива по базе USCLASS/USPA в ИПС System Development Corporation (SDC)/Orbit - начиная с 1798 г.); в этом же направлении работал Chemical Abstracts Service (CAS), где вводились сведения о химических соединениях, описанных в научной литературе до пуска регистрационной системы CAS (1965г.), и ряд других центров-генераторов баз данных.
Дальнейшие изменения на рынке информационных услуг заключались в появлении и более широком распространении целого ряда новых типов информационных систем, таких как:
- автоматизированные библиотечные системы и сети, предоставляющие простые, предназначенные для непрофессиональных пользователей средства диалогового поиска информации в каталогах библиотек; среди них системы OCLC, RLIN, WLN, система библиотеки Конгресса США и др.;
- локальные интерактивные ИПС на персональных ЭВМ, в том числе использующие базы данных на оптических дисках;
- информационные системы и службы общего характера, предоставляющие общественно-политическую и/или экономическую информацию, услуги типа электронной почты, «компьютерного магазина» и т. д.; среди них Dow Jones News Retrieval, The Source и др.
- вычислительные центры коллективного пользования, предоставляющие доступ к машинным ресурсам, пакетам программ и базам данных для экономических и/или научных расчетов, например Sharp;
- разнообразные информационные системы в банковском деле, сфере обслуживания и т. д., предоставляющие доступ к своим услугам в режиме диалога.
Существенно сложнее было освоение полнотекстовых и библиографических баз данных, однако и эта задача тоже была постепенно решена. Например, в крупнейшей на тот период на Западе ИПС Dialog число небиблиографических баз увеличилось с 32 в 1980 г. до 96 в 1986 г.
Наиболее общая тенденция в эволюции баз данных, предоставляемых большими ИПС для диалогового поиска, прослеживалась с самого начала работы таких ИПС и состояла в увеличении объема доступной пользователю информации. Это происходило, во-первых, благодаря увеличению числа баз и глубины ретроспективы и, во-вторых - благодаря обогащению содержания записей в базах данных.
Первые базы данных включали только библиографические описания и ключевые слова. Со временем падение стоимости хранения данных и увеличение числа обращений к ИПС экономически оправдали включение рефератов в поисковые файлы. К концу 80-х гг. уже имелись базы данных, содержащие полные тексты документов, например:
- машинные аналоги сериальных изданий, например, соответствующая нескольким журналам база ASAP (ИПС Dialog), база, содержащая тексты статей из всех журналов американского химического общества (STN International) и др.;
- аналоги энциклопедий и справочников, такие, например, как Американская академическая энциклопедия (на базе ИПС Dialog, BRS, Data-Star), справочник терапевта (Dialog, BRS), справочник по лекарствам (Dialog, BRS) и др.;
- службы новостей, такие, как базы New York Times (система NEXIS), агентств Associated Press, United Press International и ТАСС (Dialog) и др.
- Работа с полнотекстовыми базами требует более тонких методов учета структуры текстов при поиске и большей избирательности при их просмотре по сравнению с библиографическими или реферативными базами.
Наиболее очевидный путь обогащения содержания баз данных - включение в них полных текстов. Другой путь - это организация и использование фактографических баз, записи в которых не обязательно однозначно соответствуют документам. Это могут быть:
- базы, фактографическая информация в которых имеет в основном символьное представление, интерпретируется как текст и допускает обработку с помощью стандартных для ИПС средств (это, например, семейство экономических баз Predicasts (Dialog, Data-Star);
- базы, информация в которых имеет символьное представление, но интерпретируется и обрабатывается при поиске не совсем так, как текст; сюда относятся, например, химические словари к базе СА Search (CAS) - Chemname (Dialog), Chemdex (SDC/Orbit) CNAM (Data-Star) и др.;
- базы со специальным представлением данных, определяемым характером описываемых объектов и требующим соответствующих средств обработки; наиболее известные примеры - база данных по структурам химических соединений Registry в STN International или ее европейский аналог в ИПС DARC,
Оценивая эволюцию функциональных возможностей больших диалоговых ИПС, необходимо иметь в виду особенности функционирования этих систем - работу со значительным числом пользователей и баз данных объемом 106 — 107 записей. Вводя в этих условиях новые поисковые или сервисные возможности, необходимо было заботиться о сохранении достаточно высокой производительности системы. Большие ИПС по необходимости строились предельно экономно. Можно перечислить ряд функциональных возможностей большой ресурсоемкости, которые предоставлялись многими поисковыми системами, работавшими с базами малого и среднего объема, но которых не было в ИПС с большими базами данных. Так, использование «тонких» контекстных операторов - дорогостоящая услуга, считавшаяся необязательной в библиографических базах данных без рефератов. Эта услуга являлась стандартной в целом ряде типовых пакетов программ, однако в системах Dialog и Questel она появилась сравнительно позже (в 1985 г.), в SDC/Orbit предоставлялась только в тех базах, в которых без нее нельзя было обойтись, а системы BRS и Data-Star предоставляли лишь часть контекстных операторов, которыми располагал, например, Dialog.
Быстрый рост производительности, обеспечиваемый развитием технических и системных программных средств, стал основой эволюции функциональных возможностей больших ИПС.
Таким образом, к концу 80-х - середине 90-х годов полнотекстовые ИПС постепенно эволюционировали до электронных библиотек за счет изменения и самого состава хранимой информации, и функциональных возможностей систем и естественно прогресса в развитии программно-аппаратных средств.
Согласно исследованиям Института развития информационного общества [9], в той или иной форме идея электронной библиотеки уже работает во многих университетах и крупных библиотеках ведущих стран мира.
Одно из определений термина "электронная библиотека", утвержденное в 1995 году Ассоциацией исследовательских библиотек США, гласит, что под электронными библиотеками понимается технология создания распределенных информационных систем, характеризующихся высокой степенью интероперабелъности составляющих компонент, предоставляющих универсальный доступ к хранящейся информации и содержащих мультимедийную информацию, а также сами информационные ресурсы, созданные с помощью такой технологии [40].
Естественно, что электронные библиотеки для выполнения своих функций фактически должны реализовываться в виде некоторых информационных систем, отличительным свойством которых является длительное хранение и использование информации, в частности ее распространение.
Основные задачи электронных библиотек — интеграция информационных ресурсов и эффективная навигация в них [1]. Под интеграцией информационных ресурсов понимается их объединение с целью использования различной информации с сохранением ее свойств, особенностей представления и пользовательских возможностей манипулирования с ней. При этом объединение ресурсов не обязательно должно осуществляться физически - оно может быть виртуальным. Главное - то, что пользователю должно быть обеспечено восприятие доступной информации как единого информационного пространства. В частности, предполагается, что электронные библиотеки должны обеспечивать работу с разнородными БД или системами БД, сохраняя эффективность информационного поиска независимо от особенностей конкретных информационных систем, к которым осуществляется доступ.
Сегодня существует огромное количество массивов информации, которые можно называть электронными библиотеками, в силу того, что они распределены среди многих сетей, центров, университетов и фирм, а поддерживающие их информационные системы хоть сколько-нибудь интероперабельны, и доступ - в основном посредством Internet - уже обеспечивает универсальность доступа и мультимедийность.
Однако универсальность доступа отнюдь не означает унифицированность. Последняя характеристика подразумевает наличие единого для многих ЭБ механизма доступа к хранимой в них информации. Такой механизм предполагает несколько уровней, начиная от пользовательского интерфейса и заканчивая поисковым языком и унифицированными выходными форматами представления информации.
На концепцию электронных библиотек, а также на их программное обеспечение существенное влияние оказывают требования, связанные с представлением информации и возможностью ее использования. Все информационное пространство электронных библиотек, доступное пользователю, должно быть представлено в виде совокупности самостоятельных объектов. В качестве таковых во многих случаях могут выступать электронные документы. На данном этапе ограничимся следующим определением электронного документа. Под электронным документом будем понимать законченное произведение, имеющее автора и допускающее однозначную идентификацию. Более подробно это понятие будет рассмотрено в главе 1.
Однако процесс интеграции ЭБ в единое информационное пространство не так прост, как это может показаться на первый взгляд. Каждая ЭБ — это отдельная, сложная многоуровневая система со своими подходами к обработке информации, своими методами и технологиями представления данных, моделями хранения и преобразования документов. Основным препятствием на пути к созданию такого пространства является различие в подходах к представлению информации.
В любой системе можно выделить два взаимосвязанных уровня представления информации - концептуальный и прикладной.
На концептуальном уровне различия в представлении документа объясняются использованием различных моделей представления как документов в целом, так и отдельных их элементов и связей между документами. Выбор модели документа на концептуальном уровне во многом определяет способ представления документа на прикладном уровне, обусловливая использование различных стандартов и форматов хранения информации.
Прикладной уровень представления (в частности, особенности физической среды хранения и физической организации данных) в свою очередь накладывает ограничения на выбор той или иной концептуальной модели.
Очевидно, что такая взаимосвязь уровней представления предполагает использование в каждом случае моделей, наиболее соответствующих требованиям конкретной системы. А это в свою очередь приводит использованию в ЭБ различных, а потому часто несовместимых средств хранения и форм представления информации.
Обобщая все сказанное выше, можно сделать вывод о том, что наиболее актуальной проблемой при создании ЭБ является использование различных, зачастую несовместимых способов представления информации в каждой отдельно взятой системе. Отсутствие единой модели представления документов делает невозможным процесс интеграции электронных библиотек в единое информационное пространство.
На сегодняшний день существует множество разработок в области представления полнотекстовой информации. Однако, они охватывают лишь отдельные аспекты представления документа (такие, как доступ или хранение), но не весь процесс существования документа в системе.
Основная цель диссертационной работы заключается в создании обобщенной модели представления документов, применимой к различным процессам обработки документа (наполнение, хранение, доступ, выдача). Эти процессы определяются исходя из общей схемы функционирования ЭБ, описывающей для каждого функционального уровня ряд форм и представлений документа, а также необходимых действий над ним.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Определить основные процессы обработки информации и их взаимосвязь, в том числе:
- построить схему функционирования ЭБ в аспекте управления документальными ресурсами;
- определить основные процессы обработки и построить модель их взаимодействия;
- рассмотреть существующие подходы к представлению структуры информации.
2. Определить особенности преобразования документа и соответствующие формы его представления в каждом процессе, а именно:
- проанализировать структуру информации, хранимой в документе;
- определить возможные преобразования документа в каждом процессе обработки и варианты его представления;
- рассмотреть существующие средства представления документов и их возможности для использования в преобразованиях.
3. Формализовать и оптимизировать полученную модель представления документа:
- определить уровни преобразования документа для каждого процесса и схему их взаимодействия в целом;
- решить задачу выбора оптимального преобразования документа.
Новизна предлагаемого подхода к представлению документа в распределенных электронных библиотеках состоит в том, что практическая реализация модели возможна с использованием самых различных механизмов обработки информации. Это могут быть как локальные средства управления информационными ресурсами (ИС, СУБД), использующие собственные, уникальные методы представления и обработки документов, так и технологии распределенной обработки данных. К последним относятся модели унифицированного представления данных, основанные на общепринятых стандартах, например, протокол доступа к данным Z39.50 или языки разметки, и прежде всего XML.
Разрабатываемая модель, за счет подробного, многоуровневого описания этапов обработки документа и своей ориентированности на общую, абстрактную схему функционирования ЭБ позволяет успешно комбинировать средства представления документа для достижения оптимального результата. Такая гибкость и возможность оптимизации для конкретных случаев и определяет значимость данной разработки для использования ее в различных системах.
Использование этой модели в конкретных системах позволяет оптимизировать преобразования документа для представления его в каждом отдельном процессе обработки и в системе в целом.
Работа состоит из введения, 4 глав, заключения и 3 приложений.
Первая глава включает в себя описание функционирования электронных библиотек в целом, особенности представления полнотекстовой информации и состояние текущих разработок в области создания полнотекстовых ИС.
В главе подробно рассмотрены варианты функционирования ЭБ с точки зрения нескольких уровней организации. Рассматриваются аспекты взаимодействия пользователей с ЭБ, аспекты системной организации массивов информации ЭБ, а также технологический уровень работы ЭБ.
На основе проведенного анализа и построенной схемы функционирования определяются процессы преобразования информации и их взаимосвязь.
Основываясь на модели взаимодействия процессов, рассматриваются существующие подходы к представлению информации — языки разметки, архитектура документа по стандарту ODA, и их основные возможности.
Вторая глава работы посвящена рассмотрению определенных ранее процессов обработки информации - хранению, наполнению, поиску и выдаче, а также зависимости преобразований информации в этих процессах от структуры информации в документе.
В результате анализа структуры информации в документе выделяются несколько категорий данных, в той или иной степени значимых для каждого конкретного случая. На основе этого анализа исследуются процессы обработки информации и взаимосвязь возможных типов преобразований с конкретными категориями информации в документе.
Также во второй главе содержится анализ существующих средств представления структуры информации - локализованных средств и средств распределенного представления, и возможности их интеграции.
Третья глава описывает формализованную модель документа в контексте процессов обработки. Задача выбора оптимального преобразования документа в системе сводится к многокритериальной задачи теории принятия решений. Оптимальной альтернативой, найденной методом анализа иерархий, является последовательность преобразований документа, включающая полную цепочку операций отображения и представления данных.
Глава 4 содержит описание практических реализаций разработанной модели:
- реализацию коммуникационной цепочки преобразований (процессов доступа и выдачи) в проекте по интеграции информационной системы ИНИОН РАН и протокола Z39.50;
- реализацию внутрисистемной составляющей модели (процессов наполнения и хранения) в проекте интеграции сервера WWWLib и полнотекстовой ЕТБД ВИНИТИ РАН.
Заключение диссертация на тему "Моделирование и разработка средств и технологий представления информации в распределенных электронных библиотеках"
Выводы
Для выбора оптимальной организации преобразования информации в рамках каждой реализуемой цепочки модели (внутрисистемной и коммуникационной) были использованы функции полезности, определенные в главе 3. Использование функций полезности позволило определить для каждого процесса преобразования показатели эффективности, необходимое количество элементов внутрисистемной структуры, а также использование декларативных и процедурных преобразований на каждом этапе обработки.
Возможность совместного использования различных механизмов и технологий для достижения целей унификации обработки документов показана на примерах практической реализации разработанной модели представления информации и отдельных ее составляющих.
При реализации коммуникационной составляющей в проектах интеграции информационных ресурсов ИНИОН РАН в мировое информационное пространство использование функций полезности позволило определить оптимальную альтернативу, соответствующую схеме полного преобразования документа как при поиске, так и при выдаче, что обусловило использование преобразований и макетной и логической структур документ на каждом этапе.
Внутрисистемная составляющая модели (проект создания полнотекстовой БД ИНИОН РАН) была реализована с учетом выбора оптимальной альтернативы, описывающей неполные преобразования документа на входе (отсутствие преобразования представления - макетной структуры). В проекте интеграции БД ВИНИТИ и распределенного сервера WWWLib оптимальным решением было признано совместное использование альтернатив, описывающих схемы с неполным преобразованием на входе и с отсутствием преобразований.
Заключение
В рамках диссертационного исследования был проведен последовательный анализ функционирования ЭБ, начиная с деятельности ЭБ в аспекте управления информационными ресурсами, и заканчивая процессами преобразования информации в каждом процессе функционирования ЭБ.
Для исследования функционирования электронных библиотек в аспекте управления информационными ресурсами были определены следующие направления:
- взаимодействие ЭБ с пользователем,
- системная организация массива данных,
- технологический уровень организации ЭБ.
Схема функционирования ЭБ, построенная по результатам такого анализа, позволила определить четыре основных направления обработки информации:
1. процесс получения информации из внешней среды;
2. процесс хранения информации в системе;
3. процесс доступа к информации извне;
4. процесс распространения информации вне системы.
Также ЭБ рассматривалась в контексте модели глобального информационного обмена, что позволило определить два направления существования документа в информационной системе: коммуникационное (включающее процессы доступа информации и ее выдачи) и внутрисистемное (наполнение документа и его хранение), а также построить модель их взаимодействия.
На основе результатов анализа структуры информации в документе были выделены самостоятельные категории информации: информацию об идентификации и информацию о представлении содержания, что дало возможность определить два основных типа преобразования документа:
1. преобразование структуры, выполняемое с использованием декларативных описаний: таблиц и схем соответствия элементов структур
2. преобразование представления в среде выдачи, выполняемое преимущественно с использованием алгоритмов и процедур.
Таким образом, любой процесс обработки документа состоит из двух этапов - преобразования структуры и приведения к требованиям среды и его можно представить в виде обобщенной модели преобразования логической и макетной структур документа.
Сопоставление модели процессов обработки информации и обобщенной модели преобразования логической и макетной структур позволило разработать единую для всех процессов модель преобразования документа. В системе обработки можно выделить три типа информационных компонент, помимо самого содержания:
- идентификация (физическая и логическая), описывающая системную структуру документа;
- схемы отображения, используемые для трансформации структуры документа;
- правила представления, определяющие вид документа во внешней среде.
Соответственно, каждый процесс обработки документа представляется последовательностью преобразований представления и структуры.
Выбор последовательности преобразований, которая позволяла бы использовать максимально эффективное внутрисистемное представление документа при минимальном времени преобразований внешних документов, осуществлен на основе решения оптимизационной задачи.
Задача выбора оптимального решения была сведена к случаю многокритериальной задачи принятия решений, для решения которой были определены семь критериев и множество Эджворта-Парето, включающее семь альтернатив, соответствующих схемам преобразования документов. К поставленным условиям был применен метод анализа иерархии, что позволило получить функции полезности для каждой альтернативы. Анализ результатов показал, что большинство альтернатив, описывающих неполные преобразования документа на отдельных этапах, эффективно при возрастающем числе элементов внутрисистемной структуры. При этом две альтернативы, соответствующие схемам полного преобразования документов, в целом имеют лучшие показатели при любом количестве элементов внутрисистемной структуры.
По результатам решения оптимизационной задачи можно сделать общий вывод, что для достижения максимальной эффективности работы системы нужно комбинировать описанные подходы к преобразованию документа.
Предложенные в диссертации механизмы и средства представления информации использованы в следующих работах:
1. проект по созданию информационного пространства электронной библиотеки ИНИОН РАН и поддерживающей его информационной системы, а также организация унифицированного доступа к данным по протоколу Z39.50 и реализация механизма интеграции информационного пространства ИНИОН РАН с электронными библиотеками НЭБ РФФИ и Ebsco осуществлены с использованием коммуникационной составляющей модели представления документа в процессах обработки;
2. проект интеграции распределенного сервера WWWLib и полнотекстовой БД ВИНИТИ РАН реализован с использованием внутрисистемной составляющей модели.
Библиография Сысойкина, Мария Александровна, диссертация по теме Информационные системы и процессы, правовые аспекты информатики
1. Антопольский А.Б., Вигурский К.В. Концепция электронных библиотек // Электронные библиотеки.-1999, т.2, вып.2.
2. Бусленко Н.П. Моделирование сложных систем. М.: Наука, 1977
3. Валиков А.Н. Технология XSLT. СПб.: БХВ-Петербург, 2002.
4. Герд А. С. Некоторые замечания о полнотекстовых базах данных // НТИ Сер.2 1989 №9 с. 16-18
5. Голенский С.П., Пустельникова Е.Г., Захаров В.П., Масевич А.Ц. Информация + технологии: опыт сотрудничества Библиотеки Российской академии наук и Института высокопроизводительных вычислений и баз данных // Электронные библиотеки.-1999, т.2, вып.2.
6. Грейвс М. Проектирование баз данных на основе XML: Пер. с англ. М.: Издательский дом "Вильяме", 2002
7. Дмитриев Ю.И. Исследование и разработка систем автоматизации текстовой обработки. Диссертация на соискание степени кандидата физико-математических наук.- М., 1988.130 с.
8. Дрождин В.В. Методы построения автоматизированных информационных систем на базе типовых СУБД. Диссертация на соискание степени кандидата технических наук.-Ленинград, 1986.-216 с.
9. Ершова Т.В., Хохлов Ю.Е. Межведомственная программа "Российские электронные библиотеки": подходы и перспективы // Электронные библиотеки.-1999, т.2, вып.2.
10. Жижимов O.JI. Введение в Z39.50. Новосибирск: Изд-во НГОНБ, 2000.
11. Зацман И.М. Электронные библиотеки научных документов в Интернет: структуризация, формальное описание и поиск невербальной информации// НТИ Сер.2 1998 №11 с. 12-18
12. Зацман И. М. Вербально-образное представление знаний в электронных библиотеках. Ч. 1// НТИ Сер.2 2001 №10 с. 20-29
13. Зацман И. М. Логико-семантические модели полнотекстовых научных документов // НТИ Сер.2 1999 №5 с. 13-21
14. Каленов Н. Е. О сравнительной оценке эффективности диалогового и пакетного режимов ввода информации// НТИ Сер.2 1989 №1 с. 18-20
15. Клименко С.В., Крохин И.В., Кущ В.М., Лагутин Ю.Л. Электронные документы в корпоративных сетях: второе пришествие Гуттенберга Москва, 1999.
16. Клименко С.В., Самарин А.В. К вопросу о мобильности электронной документации// Программирование, 1989, №5.
17. Крижановский В.В. Граф-схемная модель выбора представлений информации в программных комплексах. Диссертация на соискание степени кандидата физико-математических наук. -Киев, 1982.-100 с.
18. Ларичев О.И. Теория и методы принятия решений: Учебник. М.: Логос,2000. - 296с.
19. Максимов Н.В. Исследование и моделирование систем управления доступом к гетерогенным информационным ресурсам. Диссертация на соискание степени доктора технических наук.- М, 2001.
20. Максимов Н.В., Сысойкина М.А. О реализации электронной библиотеки с использованием протоколов HTTP и Z39.50 // Электронные библиотеки.-2002, т.5, вып.1.
21. Материалы Z39.50 Maintenance Agency http://lcweb.loc.gov/z3950/agencv/
22. Мидоу, Ч. Анализ информационных систем. — М.: Прогресс, 1977. 400 с.
23. Нестеренко А. И., Смирнов И. Ф.Статистический метод оптимальной организации полей переменной длины в персональных БД // НТИ Сер.2 1992 №9 с. 18-23
24. Нетесин И.Е. Методы представления данных в памяти ЭВМ при программировании по Р-технологии. Диссертация на соискание степени кандидата технических наук.- Киев, 1984.-101с.
25. Перевозчикова К.В. Извлечение фактографической информации из первичных документов по формальным текстовым признакам / Создание и интеграция фактографических и документальных ИПС. Межведомственный сборник научных трудов.- Новосибирск, 1988. -с. 142-145
26. Печерский А. Язык XML практическое введение // http://www.citforum.ru/internet/xml/
27. Питц-Моултис Н., Кирк Ч. XML: Пер. с англ. СПб.: БХВ-Петербург, 2001.
28. Племнек А.И., Усманов Р.Т. Z39.50: Открытый доступ к библиографической информации // Научные и технические библиотеки.-1998.-N 8.-С.24-28.
29. Племнек А.И., Усманов Р.Т., Сова Д.Н. Использование протоколов Z39.50 и HTTP в современных библиотечных информационных системах // Информационный бюллетень PBA.-1998.-N 12.-С.240-257.
30. Попов И.И. Информационные ресурсы и системы: реализация, моделирование, управление. — М.: ТПК «Альянс», 1996
31. Попов И.И., Храмцов П.Б. Мировые информационные ресурсы и сети (методы доступа кним): Учебник /Под общей ред. К.И. Курбакова. М.: Изд-во Рос. экон. акад., 1999. 145 с.
32. Розенман М.И. Тенденции развития больших диалоговых ИПС // НТИ Сер.2 1987 №6 с. 513
33. Саати Т. Принятие решений. Метод анализа иерархии / пер. с англ. М.: Радио и связь, 1989.-316с.
34. Салливан И. DOM определяет объектно-ориентированный интерфейс прикладного программирования для доступа к Web-страницам и XML-документам и их модификациям // PC-WEEK (Russian Edition).— 1997.—№ 50(124)С. 34-35.
35. Сысойкина М.А. Подходы к организации хранения информации в распределенных ЭБ.// Материалы 6-й международной конференции "НТИ-2002".- М.: ВИНИТИ, 2002.- с. 333335
36. Сысойкина М.А. Совместное использование протоколов HTTP и Z39.50 в управлении доступом к информационным ресурсам. // Материалы 6-й международной конференции "НТИ-2002".- М.: ВИНИТИ, 2002,- с. 335-338
37. Технологии электронных коммуникаций, том 5, Стандартизация электронных документов. М.: АОЗТ "Эко-Трендз Ко", 1991, 128 с.
38. Финн В. К. Информационные системы и проблемы их интеллектуализации //НТИ Сер.2 1984 №1 с.4-14
39. Фонотов А.Г., Якуцени П.П. Роль электронных библиотек в передаче технологий // Электронные библиотеки.-1999, т.2, вып.4.
40. Фрид Л.М. Форматы представления текстовых данных в автоматизированных системах обработки НТИ и методы их преобразования. Диссертация на соискание степени кандидата технических наук.-М., 1983.- 214 с.
41. Черноморов Г.А. Теория принятия решений: Учебное пособие / Юж.-Рос. гос. техн. ун-т. Новочеркасск: Ред. Журн. «Изв. Вузов. Электромеханика», 2002. 276 с.
42. Шемакин Ю. И., Романов А. А. Компьютерная семантика.— М.: НОЦ "Школа Китайгородской", 1995 .— 344 с.
43. A Gentle Introduction to SGML http://www-tei.uic.edu/orgs/tei/sgml/teip3sg/
44. Altamura О., Esposito F., Malerba D. Transforming paper documents into XML format with WISDOM++ //International Journal on Document Analysis and Recognition, 2001 № 4, pp. 217
45. Arms, William Y., Christophe Blanchi, Edward A. Overly An Architecture for Information in Digital Libraries // D-Lib Magazine, February 1997
46. Berry-Rogghe, G. Parsing Systems for large textual databases// The international conference on data bases in the humanities and social sciences, 1983.
47. Bosak J. Media-Independent Publishing: Four Myths about XML // Computer.— 1998.— Vol. 31, .№ 10.— P. 120-122 (рус. пер.: Computer Weekly — 1999.—№ 1-2,— C. 18-19).
48. CITT/ITU Recommendations (T.410 series) http://www.incoma.rU/cdrom3/ccitt/1992/t/
49. Document Object Model (DOM) Спецификации консорциума W3C http://www.w3.org/DOM/
50. Extensible Markup Language (XML) Спецификации консорциума W3C http://www.w3.org/XML/
51. Extensible Stylesheet Language (XSL)Version 1.0. W3C Recommendation 15 October 2001 (Спецификации консорциума W3C ) http://www.w3.org/TR/xsl/
52. Feingold, Carl Introduction to data processing. 2d ed. Dubuque (Iowa), Brown, 1976. XVIII, 727p. with ill. Ind.: p.721-727
53. HTTP Hypertext Transfer Protocol http://www.w3.org/Protocols/
54. HyperText Markup Language (HTML") http://www.w3.org/MarkUp/
55. Kim H.G., Cho S.B. Structured storage and retrieval of SGML documents using Grove // Information Processing and Management.- 2000.- №36.-c.643-657
56. Manegold S., Boncz P.A., Kersten M.L. Optimizing database architecture for the new bottleneck: memory access //The VLDB journal. 2000, № 9, c.231-246
57. Mckelvie D., Brew C., Thompson H.S. Using SGML as a basis for data-intensive natural language processing // Computers and the Humanities.-1998, №31, c. 367-388
58. Peterson A. Document structure and digital libraries: how researchers mobilize information in journal articles // Information Processing and Management, 1999. №35 c. 255-279
59. Salton, G. Dynamic information and library processing. — Englewoode Cliffs, N.J.Prentice-Hall, Inc., 1975. 523 p
60. Shin DW. XML indexing and retrieval with a hybrid storage model // Knowledge and Information Systems.- 2001.-№3.- c. 252-261
61. The Document Management Alliance Whitepaper. http://www, aiim. org/dma/accompli sh/dma white, html
62. XML Linking Language (XLink) Version 1.0. W3C Recommendation 27 June 2001 (Спецификации консорциума W3C) http://www.w3.org/TR/xlink/
63. XML Path Language (XPath) 2.0 W3C Working Draft 02 May 2003(Спецификации консорциума W3C) http://www.w3.org/TR/xpath20
64. XML Pointer Language (XPointer). W3C Working Draft 16 August 2002 (Спецификации консорциума W3C) http://www.w3.org/TR/xptr/
65. XSL Transformations (XSLT) Version 2.0. W3C Working Draft 2 May 2003( Спецификации консорциума W3С) http://www.w3.org/TR/xslt20/
-
Похожие работы
- Создание прототипа электронной библиотеки вуза культуры и искусств
- Электронная коллекция периодической печати
- Технология доступа к документам в научно-исследовательской организации
- Автоматизированная система управления информационными ресурсами электронной библиотеки
- Система управления полнотекстовыми электронными изданиями в научной библиотеке