автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Объектно-ориентированный подход к реализации состава элементов библиографических данных
Автореферат диссертации по теме "Объектно-ориентированный подход к реализации состава элементов библиографических данных"
На правах рукописи
Халабия Мария Леонидовна
ОБЪЕКТНО-ОРИЕНТИРОВАННЫИ ПОДХОД К РЕАЛИЗАЦИИ СОСТАВА ЭЛЕМЕНТОВ БИБЛИОГРАФИЧЕСКИХ ДАННЫХ
Специальность 05.25.05 -Информационные системы и процессы
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
6 ' "ОМ ¿013
005060831
Москва 2013
005060831
Работа выполнена на кафедре электронных библиотек, информационных технологий и систем Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Московский государственный университет культуры и искусств».
кандидат физико-математических наук, доцент
Земсков Андрей Ильич
доктор технических наук, профессор кафедры прикладной информатики ФГБОУ ВПО «Московский государственный университет культуры и искусств» Антопольский Александр Борисович кандидат технических наук, ведущий научный сотрудник «Библиотеки по естественным наукам» РАН Власова Светлана Александровна Федеральное государственное бюджетное учреждение науки «Российская книжная палата»
Защита состоится 28 июня 2013 г. в 15:00 часов на заседании диссертационного совета Д 210.010.01 при Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Московский государственный университет культуры и искусств» (МГУКИ) по адресу: 141406, Московская область, Г.О. Химки, ул. Библиотечная, д.7, корпус 2, ауд.218.
С диссертацией можно ознакомиться в Научной библиотеке Московского государственного университета культуры и искусств.
С авторефератом диссертации можно ознакомиться на официальных сайтах Высшей аттестационной комиссии Министерства образования и науки Российской Федерации: http://vak.ed.gov.ru и ФГБОУ ВПО «Московский государственный университет культуры и искусств»: http://www.mguki.ru
Научный руководитель:
Официальные оппоненты:
Ведущая организация:
Автореферат разослан 27 мая 2013 г.
Ученый секретарь
диссертационного совета Д 210.010.01, к.п.н., профессор
Н.В. Лопатина
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. В настоящее время специалистами в области каталогизации документов ведется дискуссия о структуре элементов библиографических данных и возможности их дальнейшего применения. Так, специалисты в области новых информационных технологий говорят о том, что это должен быть достаточно простой и удобный набор полей для описания документа, рассчитанный как на каталогизаторов, так и на неспециалистов. Работники библиотек предпочитают ориентироваться на преимущества более тщательно разработанных правил каталогизации и согласны на увеличение трудоемкости и стоимости описания. Специалисты по прикладной лингвистике указывают на то, что дополнительные структурные элементы позволяют добиться большей точности описания документа. Следовательно, разные подходы к представлению состава элементов библиографических данных, представленных в машиночитаемом виде, усложняют поиск адекватной модели представления библиографической записи.
Реализация реляционной структуры форматов семейства MARC является очень сложной, благодаря наличию множества повторяющихся полей и разнородных данных в одном поле. Все это усложняет создание библиографической записи, делает ее более громоздкой и, как следствие, увеличивает финансовые затраты на ее формирование.
Исследование поисковых предпочтений пользователей, обращающихся к электронному каталогу, в марте 2003 г. провела Российская государственная библиотека (РГБ). К числу наиболее востребованных элементов данных при библиографическом разыскании являются: ключевые слова, заглавие, имя автора, предметные рубрики. Следовательно, перечисленные метаданные несут основную семантическую информацию о документе.
Библиотечное сообщество высказывает различные точки зрения на состав элементов библиографических данных. Методология реализации элементов данных представляет собой особый способ восприятия объектов реального мира, который трансформируется в предметную область и их модели. Концепция элементов библиографических данных, построенная на модели сущность-связь (ER-модель) и получившая название «Функциональных требований к библиографическим записям (Functional Requirements for Bibliographic Records - далее FRBR)», сегодня противопоставляется машиночитаемой каталогизации (MARC). Поэтому рассмотрение объектно-ориентированного моделирования, которое сочетает в себе лучшие черты ER (Entity-Relationship model) и реляционной моделей, является важным в настоящей диссертационной работе.
Несмотря на возрастающее влияние электронной среды на процессы каталогизации, появление новых концепций представления библиографической записи, теоретическое осмысление элементов библиографических данных как целостной концептуальной схемы в отечественном библиотековедении не проводилось. Отдельные публикации в профессиональной печати, как за рубежом, так и в Российской Федерации не раскрывают в полной мере процессы, происходящие в теории и практике каталогизации документов.
На современном этапе библиографическая запись представляется как «библиографический метатекст», который может быть сформирован с помощью объектно-ориентированного подхода и описан расширяемым языком разметки (extensible Markup
Language - далее XML).
Разработанность темы. Специальное исследование по развитию состава и структуры машиночитаемой библиографической записи (БЗ) было проведено Н.Н. Каспаровой в 2004 г. В диссертационной работе «Библиографическая запись как лингвистическая модель документа в международной электронной коммуникации» затрагивались аспекты лингвистического моделирования библиографической записи в среде международной электронной коммуникации. Однако исследование причин избыточности элементов библиографических данных и отсутствия единого унифицированного их состава, а также возможности применения объектно-ориентированного подхода к моделированию
машиночитаемой библиографической записи не проводилось. Не осуществлялся анализ концепции «Функциональных требований к библиографическим записям» с позиции семиотического подхода и положений структурной лингвистики.
Тема настоящего диссертационного исследования носит интеграционный характер.
Проводимые в последние годы исследования отечественных лингвистов и специалистов в области каталогизации документов в основном были посвящены пересмотру существующих правил библиографического описания, их стандартизации и сравнению с англо-американскими правилами каталогизации. Они не учитывают особенности модели и состава элементов библиографических данных в электронной среде как эффективного инструмента для построения модели библиографической записи с учетом концепции FRBR, моделирования процессов каталогизации унифицированным языком моделирования UML (Unified Modeling Language) и описания состава элементов расширяемым языком разметки XML. С разных сторон, но по отдельным направлениям, ряд принципов и подходов выдвигался: Я.Л. Шрайбергом (ГПНТБ России), Ф.С. Воройским (ГПНТБ России), P.C. Гиляревским (ВИНИТИ РАН), Н.Н Каспаровой (РГБ), О.А. Лавреновой (РГБ) и рядом других ученых и специалистов. Среди зарубежных авторов следует назвать работы Б. Тиллетт, П. ле Бёф, Г. Лизера, Т. Хикки, Э. Свенониус, Г. Аврам и других специалистов. Перечисленные труды анализируют применение форматов семейства MARC. Кроме того они исследуют концепцию «Функциональных требований к библиографическим записям» и связанную с ними терминологию, которая является очень важной для нашего диссертационного исследования.
Цель работы - исследовать структуру элементов библиографических данных форматов MARC и RUSMARC, сущностей концепции FRBR, предложить и реализовать оптимальный состав элементов библиографических данных в электронной среде как эффективный инструмент для построения библиографической заппси.
Достижение поставленной цели потребовало решения следующих задач:
• проанализировать и рассмотреть факторы, влияющие на особенности формирования описательных метаданных;
• проанализировать формирование записи в форматах метаданных Dublin Соге, Metadata Object Description Schéma (далее MODS), MARC;
• теоретически осмыслить особенности элементов библиографических данных форматов семейства MARC, а также сущности библиографической записи, представленные в концепции «Функциональных требований к библиографическим записям»;
• при помощи статистических ранговых распределений выявить ядро полей (элементов данных) в машиночитаемой библиографической записи форматов MARC 21 и RUSMARC;
• на основе объектно-ориентированного подхода разработать модель элементов библиографических данных и описать ее состав расширяемым языком разметки XML.
Объект исследования - элементы машиночитаемой библиографической записи.
Предмет исследования - модели состава элементов библиографических данных семейства форматов MARC, концепция «Функциональные требования к библиографическим записям», а также подходы практической реализации элементов данных в библиотечных информационных системах.
Гипотеза исследования. Структура элементов библиографических данных не зависит от формата представления данных и имеет универсальный набор данных, смоделированный с применением объектно-ориентированного подхода, унифицированного языка моделирования (UML) и описанный расширяемым языком разметки XML.
В качестве методов исследования использованы:
• Системный подход, рассматривающий как единое целое элементы библиографических данных форматов MARC 21 и RUSMARC, а также концепцию FRBR;
• Методы математической статистики, позволяющие выявить ранговые распределения элементов библиографических данных форматов MARC 21 и RUSMARC;
• Методы сравнительного анализа нормативно-методической документации;
• Методы моделирования и структурирования элементов библиографических данных;
• Метод тестирования результатов, достигнутых в процессе диссертационного исследования.
Научная новизна. Представлены и разработаны:
• Реализованы математические модели, по которым был проведен расчет, выявляющий избыточность элементов библиографических данных форматов MARC 21 и RUSMARC, представленных в библиографической записи;
• Знаковая модель для анализа и выявления противоречий в абстрактных объектах (сущностях): произведение, выражение, воплощение и физическая единица, реализованных в концепции «Функциональные требования к библиографическим записям», представленной ИФЛЛ в 1998 г.;
• Модель элементов библиографических данных, созданная на базе объектно-ориентированного подхода.
Теоретическая значимость. Результаты исследования, с одной стороны, направлены на модификацию правил составления библиографической записи; с другой - на применение каталогизирующими учреждениями новых подходов при описании элементов данных с учетом особенностей концепции FRBR и объектно-ориентированного подхода к их формированию. Кроме того, разработанная модель будет способствовать улучшению качества международного обмена библиографической информации.
Практическая значимость исследования заключается в том, что при использовании предложенной модели библиографических данных, реализованной с применением объектно-ориентированного подхода, развитие отечественной нормативно-методической базы каталогизации будет строиться с учетом новых подходов к библиографическим метаданным и международной концепций FRBR. Кроме того, модель данных позволяет:
• Сократить на 50% объем библиографических баз данных, что существенно позволяет снизить Интернет-траффик и нагрузку па библиотечные информационные сети;
• Сократить на 40% финансовые затраты на производство одной библиографической записи;
• Повысить на 20% точность и полноту информационного поиска;
• Увеличить скорость выполнения поисковых запросов при обращении пользователей к электронному каталогу на 10%.
Реализация результатов работы. Программный модуль «Библиографическое описание распределенной базы данных (ДРБД)», зарегистрированный в реестре программ для ЭВМ 11 декабря 2012 г. (Свидетельство о государственной регистрации программы для ЭВМ № 2012661212)
Апробация результатов исследования. Основные положения диссертации докладывались и обсуждались на следующих международных и российских конференциях: Шестнадцатой международной конференции «Крым - 2009», Пятнадцатой международной конференции «Крым-2008», Одиннадцатой международной конференции и выставке «LIBCOM-2007», Международной научно - технической конференции, Орел, 25-26 мая 2006.
Результаты работы внедрены в Российской государственной библиотеке в качестве проекта по внедрению лингвистического обеспечения.
На защиту выносятся следующие основные положения:
1) Избыточность элементов библиографических данных форматов MARC 21 и RUSMARC выявляется при помощи статистических ранговых распределений, которые позволяют определить ядро библиографической записи, зоны рассеяния полей и оптимальный объем библиографической записи.
2) Знаковая модель, устраняющая противоречия во взаимодействии абстрактных (произведение, выражение) и конкретных (воплощение, физическая единица) объектов, реализованных в концепции «Функциональные требования к библиографическим записям»,
отраженных в объектно-ориентированном подходе к моделированию элементов библиографических данных.
3) Объектно-ориентированная модель элементов библиографических данных позволяет усовершенствовать структуру библиографической записи, благодаря объединению объектов, имеющих одинаковые свойства, в классы.
Структура диссертации. Диссертация состоит из списка сокращений, введения, четырех глав, заключения, списка литературы (200 названий) и приложений (8). В тексте работы имеются 11 таблиц и 14 рисунков.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы исследования, проанализирована степень ее разработанности, определены объект, предмет, цели и задачи, основные методы исследования, показаны теоретическая и практическая значимость работы, сформулированы положения, выносимые на защиту, сообщаются сведения об апробации результатов исследования, изложена структура диссертационной работы.
Первая глава «Современное состояние описательных метаданных» содержит обзор литературы. В ней дан анализ состояния исследований в области описательных метаданных. Кратко представлены и описаны такие схемы метаданных как Dublin Core, MODS. Проанализирована лингвистическая модель библиографической записи, предложенная H.H. Каспаровой в диссертации «Библиографическая запись как лингвистическая модель документа в международной электронной коммуникации». Установлено, что в ней не рассмотрены причины избыточности элементов библиографических данных, а также отсутствие единого унифицированного состава элементов при ее формировании. Констатируется, что инновации, происходящие в среде библиографических метаданных, к которым относится развитие концепции FRBR, оказывают огромное влияние на структуру самих данных и дальнейшее развитие электронных каталогов. На основе сопоставления существующих трактовок делается вывод, что библиографическую информацию, структурированную при помощи XML, лучше понимать как библиографический метатекст: «текст, смоделированный по образцу и подобию объекта библиографирования и интерпретирующий смыслы первоисточника, необходимые для читательского восприятия и понимания». Обнаружено, что формирование библиографических метаданных при помощи объектно-ориентированного подхода (ОРП), является новым направлением в каталогизации документов, позволяющим разрешить противоречие между идентификационной и информационно-коммуникативной функциями библиографической записи.
Во второй главе «Модели элементов форматов MARC 21 и RUSMARC для библиографических данных», подчеркивается, что форматы семейства MARC не имеют четко выраженной концептуальной схемы. Она частично отображена в документации, посвященной форматам, частично изображена на страницах профессиональной печати, и в какой-то мере представлена в национальных правилах каталогизации. Констатируется, что концептуальная схема выступает как основа для создания формата, предназначенного для формирования библиографической записи. Следствием высокой стоимости ее создания является избыточность представленных в форматах семейства MARC элементов данных.
В параграфе 2.2 «Анализ элементов библиографических данных формата MARC 21» проанализированы недостатки формата MARC 21 для библиографических данных: отсутствие концептуальной схемы при проектировании элементов данных, их избыточность и негибкость. Сделан вывод, что они обязаны своему происхождению формату USMARC. Кроме того, отмечены следующие недочеты, которые имеются в формате для библиографических данных MARC 21: сложность в идентификации функций некоторых полей MARC 21, разный уровень стандартизации элементов данных- в функциональных блоках формата для библиографических данных MARC 21.
Несмотря на сложности в определении функций, которые выполняют поля для библиографических данных, к ним можно отнести следующие: • поиск библиографических записей в электронном каталоге;
• идентификацию документа;
• установление иерархических (библиографических) отношений между библиографическими записями.
В руководстве по применению библиографических данных можно найти целый ряд примеров повторения одной и той же информации в разных полях машиночитаемой библиографической записи.
В параграфе приведены объемно-количественные параметры по каждому из этапов базового для диссертации эмпирического исследования, послужившие основой для дальнейшего исследования, суть которого заключается в определении ядра полей библиографической записи при теории помощи обобщенных распределений В. Нешитого.
Были отобраны из электронного каталога РГБ записи в формате MARC 21. Основным условием для наблюдения выступает частота использования описательных полей библиографической записи при создании библиографической записи. Описательные поля библиографической записи, представляются как отдельные лексические единицы, созданные при помощи библиографического языка. Они ранжированы (упорядочены) по убыванию частоты встречаемости поля. Такая упорядоченная совокупность полей формата MARC 21, которая представлена в вариационном ряду, является ранговым распределением. Порядковый номер поля является его рангом.
Статистика использования описательных полей формата MARC 21 представлена в таблице 1.
Таблица 1. Вариационный ряд описательных полей формата MARC 21
Ранг Метка поля поля Наименование поля Частота использовапн л поля
1 008 Элементы данных фиксированной длины 120
2 245 Область заглавий и сведений об ответственности 120
3 041 Код языка 120
4 040 Организация-создатель записи 114
5 260 Область выходных данных 118
6 300 Область количественной характеристики 113
точка А - сумма частоты ядра 710
Для частотного анализа в информатике и математической лингвистике, как правило, применяются различные модели ранговых распределений, в том числе:
1) Дж. К. Ципфа для описания относительной частоты слов частотного словаря:
рг =Аг-'(*»0,1,Г = 1) (О
Рг - относительная частота лексической единицы с рангом г; к - параметр.
2) С. Брэдфорда (в т.н. ранговой интегральной форме)
Р(г) = ±Р,=£-*к1пг + С, (2)
1=1 /=| 1
Выражение (1) при логарифмировании преобразуется в прямую:
г = \х\к — у 1ПГ, которая утвердилась как одна из основных форм представления ранговых распределений. Однако график этой зависимости, построенный по опытным данным, близок к прямой лишь в средней части. Наличие кривизны в областях низких и высоких рангов принуждает исследователей либо вводить поправки в модель Ципфа-Брэдфорда, либо искать новые, более подходящие модели. Такими моделями являются
обобщенные распределения В. Нешитого, в частности, вторая система непрерывных распределений, с заданной обобщенной плотностью:
p{t) = Ntkß-\\-autßy-\ (3)
где a,ß,k,U . параметры, которые вычисляются по статистическим ранговым распределениям; N - нормирующий множитель, зависящий от параметров. Выражение (3) позволяет с высокой точностью описывать широкое многообразие статистических, в том числе ранговых распределений, включая распределение полей библиографических форматов.
Статистическая кривая «ранг - относительная частота», т.е. Рг = f(r) не имеет особых точек, которые позволили бы дать математически точную формулировку закона рассеяния полей форматов библиографических данных. Поэтому автором обобщенных распределений введена иная форма представления ранговых распределений, а именно:
гРг (4)
т.е. по горизонтальной оси откладываются логарифмы рангов, а по вертикальной произведения рангов на относительные частоты. Кривая распределения, заданная плотностью (3), после ее приведения к форме (4) в случае однородной выборки превращается в одновершинную кривую, которая описывается другой плотностью:
Я
p(x) = Nerx{l-auePx) " (5)
Плотность р(х) обладает тем свойством, что при и < 1 / 2 кривая распределения, то есть график плотности (5) имеет моду хс и две точки перегиба Ха и Xb t расположенные на равных расстояних от моды. Эти точки можно использовать в качестве границ ядра и зон рассеяния, если плотность p(t) привести к плотности р(х). Формула (5) включает как частные случаи, так и множества известных распределении, в том числе закон Ципфа (при
ß < 0, и = 1).
Умножив левую и правую части плотностиp(t) второй системы непрерывных распределений
tP „Pint
на t, а величину < запишем в виде в , что одно и тоже. В результате получим:
tp(t) = Nkß]"'(l-aiiepln'y (б)
Сравнивая формулы (5) и (6), можно привести равенство: tp(t) = р(х), In t = X
Отсюда следует, что формула (6) представляет собой плотность распределения р(х). С учетом плотности р(х) и равенства х = In t имеем:
p(lnt) = Nekp'n,(l-oaieß,a'f'1 (7)
Следовательно, плотность p(!nt) = tp(t) представляет плотность р(х) и обладает всеми свойствами последней, т. е. при и < 1 / 2 на кривой распределения имеются три характерные
точки с абцисами: , ■ Таким образом, чтобы для убывающего рангового
распределения (см. табл. 1) найти характерные точки, о которых речь пойдет далее, его необходимо привести к плотности р(х), то есть изобразить графически в системе координат
Ргг — г) ■ В этом случае распределение имеет моду ^ и две точки перегиба 1ft fa и Ii 'а , которые находятся на равных расстояних, по обе стороны от моды. Лбциссы
этих точек приняты В. Нешитым в качестве границ зон рангового распределения (ядра и зон рассеяния).
С помощью компьютерной программы SNR1V97, на основании собранных статистических данных (см. табл. 1) вычисляется аппроксимирующее распределение, и строится график. В случае MARC 21 - это распределение 3-го типа (параметр и < 0) с параметрами: au = -1,296172£-03,ß = 2.505966,у = 1.1804,и = -2.038108, где
ОС = kß . Нормирующий множитель N = 5.211085Е-2. Дисперсия П= 0.9Н5755Х.
Для построения графика, по методике В. Нешитого, по оси ординат откладываем произведения рангов на относительные частоты полей с данным рангом, а по оси абсцисс -натуральные логарифмы рангов (см. рис. 1). Такой график имеет принципиальные преимущества перед традиционной формой представления ранговых распределений. Во-первых, он представляет собой кривую распределения, площадь под которой равна единице. Во-вторых, на такой кривой видны колебания самих частот (по оси ординат), а не их логарифмов. В-третьих, статистические ранговые распределения однородных случайных величин имеют одновершинную кривую распределения.
На графике (см. рис. I) в координатах rpr = /(lnr) представлены кривые распределения: отдельными точками (зеленого цвета) - статистические данные и непрерывной кривой (красного цвета), рассчитанные по программе.
Marc 21
Рисунок 1 - Ранговое распределение полей МАИС 21, полученное теоретическим и расчетным путем (показаны разными линиями)
Представленная на графике кривая распределения имеет три характерные точки: моду С, под которой понимают точку локального максимума, две точки перегиба А и В, которые отделяют выпуклую часть кривой от вогнутой.
Мода 1с находится из условия (¡1р(1)/с/1п1 = 0 ив общем случае для распределений ¡-V типов равна:
к
'<■ =
а (l + ки - и )
(8)
Величина п задается как:
1 +-
1-и ++*»-»)+(! ~»)]0-")
2к(\ + ки—и)
Абсциссы точек перегиба вычисляются по формулам:
tA = tc/n; iB = Ic п.
h 'г
На графике в указанных точках меняется относительная частота Rpr формата MARC 21 для библиографических данных
Таблица 2. Поля ядра, первом и второй зон рассеяния формата MARC 21
(9)
(10)
использования полей
Метка поля Наименование поля Частота использования
801 Источник записи 120
100 Данные общей обработки 120
101 Язык документа 120
200 Заглавие и сведения об ответственности 120
899 Данные о местонахождении (устар) 114
215 Физическая характеристика 113
102 Страна публикации 112
105 Поле кодированных данных: текстовые материалы 112
210 Публикация, распространение 109
686 Индексы другой классификации 90
606 Наименование темы как предмет 56
021 Номер государственной регистрации 52
700 Имя лица первичная ответственность 41
010 ISBN 36
Кривая распределения при значении и < I / 2 (как в нашем случае) имеет моду 1П гс, в
которой плотность максимальна и две точки перегиба 1пА*а и расположенные на
равных расстояниях от моды, то есть Inr,. — lnro = lnr4 -lnrf. Следовательно, исходя из приведенной формулы, ядро полей библиографической записи формата MARC 21 составляет 6 полей (до точки А); на первую зону рассеяния приходится - 5 полей (от точки Л до С), на вторую - 10 полей (от точки С до В), на третью зону - остальные 44 поля. В случае MARC 21 абциссы характерных точек (пересчитанные путем потенцирования) равны:
га =5.59; гс =10.43; гь =19.67.
На ядро полей приходится относительная частота F{ta) = 0,3186 от общей относительной частоты использования полей формата MARC 21 для библиографических данных. На ядро и первую зону - F{tc) = 0, 5866\ на ядро и первую и вторую зоны - F(th) =
0,8464; на третью зону - 1 ~ F{tb ) = 0,1536.
Таким образом, на ядро приходится 31,86% частоты использования полей формата для библиографических данных MARC 21; на первую зону - tt =tc—ta - F(tc)— F(ta) = 26,8%; вторая зона - tn =tb-tc - F(tb) - F(ta) = 25,98%; третья зона - tw = 64 -tb -1-F(h) = 15,36%.
Констатируется, что в ядро, первую и вторую зоны рассеяния (т.е. до точки В) в формате MARC 21 входит 21 описательное поле, которое является важным звеном библиографической информации записи и несет семантическую информацию о документе. Поскольку объем фонда до точки В принят автором теории обобщенных распределений в качестве оптимального объема, будем считать, что количество полей до точки В является оптимальным.
В параграфе 2.3 «Анализ элементов библиографических данных формата RUSMARC», представлен вариационный ряд описательных полей формата RUSMARC. Таблица 3. Вариационный ряд описательных полей формата RUSMARC
Ранг поля Метка поля Наименование поля Частота использования
1 801 Источник записи 120
2 100 Данные общей обработки 120
3 101 Язык документа 120
4 200 Заглавие и сведения об ответственности 120
5 899 Данные о местонахождении (устар) 114
6 215 Физическая характеристика 113
7 102 Страна публикации 1 12
точка А - сумма частоты ядра 819
8 105 Поле кодированных данных: текстовые материалы 112
9 210 Публикация, распространение 109
10 686 Индексы другой классификации 90
точка С сумма частоты первой зоны 710
па ^ч.цлч^лчл, -----[-—1---г ---' -----------
компьютерной программы 8ЫЯ1У97, аппроксимирующее распределение и построим график. В случае RUSMARC имеем распределение 3-го типа (параметр и<0)с параметрами:
оси = -4.48807£ - 8, р = 7.13074, у = 1.080418, и = -1.730465 , где
у = к/3 . Нормирующий множитель N = 0.0561917. Дисперсия 0=0.9624512.
По статистическому и теоретическому закону распределения построим график для ранговых распределений полей формата RUSMARC. На графике (см. рис. 2) в координатах грг = /(1пг) представлены кривые распределения: отдельными точками (зеленого цвета) -статистические данные и непрерывной кривой (красного цвета), рассчитанные по программе.
КизМагс
• » ► * Го'*а С
Рисунок 2. Ранговое распределение нолей Ш^МАШ:, полученное теоретическим и расчетным путем (показаны разными линиями)
Ядро полей библиографической записи формата К115МА1*С составляет 7 полей; на первую зону рассеяния приходится - 3 поля, на вторую - 4 поля. Абциссы характерных
точек (пересчитанные путем потенцирования) равны: га =6.96;Г. =9.89\ГЬ =14.05.
Доля частоты использования полей в ядре Р(1 ) = 0.4221; в точке С -
Р({с) = 0.6023- в точке В - ) = 0.778]. Отсюда следует, что на ядро полей
приходится 42.21% частоты; на первую зону рассеяния - 18.02%, на вторую зону рассеяния -17.58%, на третью зону - 22, 19%.
Поля, относящиеся к ядру, первой и второй зонам рассеяния, представлены в таблице
Таблица 4 - Поля ядра, первой и второй зон рассеяния
Метка поля Наименование поля Частота использования
801 Источник записи 120
100 Данные общей обработки 120
101 Язык документа 120
200 Заглавие и сведения об ответственности 120
899 Данные о местонахождении (устар) 114
215 Физическая характеристика 113
102 Страна публикации 112
105 Поле кодированных данных: текстовые материалы 112
210 Публикация, распространение 109
686 Индексы другой классификации 90
606 Наименование темы как предмет 56
021 Номер государственной регистрации 52
700 Имя лица первичная ответственность 41
010 ISBN 36
Таким образом, как показывает практика каталогизации документов, данные в этих полях являются очень важными для пользователя.
В третьей главе "Объектно-ориентированный подход к структурированию элементов библиографических данных" представлена модель элементов библиографической записи, реализованная с помощью объектно-ориентированного подхода. В параграфе 3.1 "Знаковая модель "Функциональных требований к библиографическим записям" (FRBR) представлен анализ компонентов «Функциональных требований к библиографическим записям» (Functional Requirements for Bibliographic Records - далее FRBR). Основываясь на высказывании, что объекты функциональных требований к библиографическим записям имеют абстрактную природу, рассмотрим составляющие данной модели как совокупность сложных знаков. Подчеркивается, что сущности FRBR можно выразить при помощи семиотической триады. Следовательно, знаковая структура сущности «произведение» состоит из следующих компонентов триады:
1) чувственно воспринимаемаемая форма знака - авторский замысел;
2) принадлежащее сознанию человека представление о предмете - представление о произведении со всеми его атрибутами;
3) материальный предмет внешнего мира - сочинение, существующее на основе авторского замысла.
Под авторским замыслом здесь будем понимать набросок творческой личности, намечающей основу произведения. Его можно рассматривать как первоначальную общую схему будущего произведения. В окончательном отчете, посвященном «Функциональным требованиям к библиографическим записям», выражение понимается как «интеллектуальная или художественная реализация одного и только одного произведения в виде текста, (буквенно-цифрового либо музыкального), изображения, звука либо любой комбинации этих средств». Как и произведение, оно является абстрактным объектом. Итак, данная сущность имеет следующее знаковое выражение семиотической триадой:
1) чувственно воспринимаемаемая форма знака - художественная реализация;
2) принадлежащее сознанию человека представление о предмете - представление о выражении со всеми его атрибутами;
3) материальный предмет внешнего мира - текст и художественные средства выражения.
В практике каталогизации документов принято считать, что библиографические записи имеют дело с сущностями «воплощение» и «физическая единица» модели FRBR. «Воплощение», под которым понимается физическая реализация одного или нескольких выражений, имеет следующее знаковое выражение семиотической триадой:
1) чувственно воспринимаемаемая форма знака - физическая реализация;
2) принадлежащее сознанию человека представление о предмете - представление о воплощении со всеми его атрибутами;
3) материальный предмет внешнего мира - совокупность физических носителей.
Аналогично рассуждая, проанализируем сущность «физическая единица». Выразим
ее следующим образом:
1) чувственно воспринимаемаемая форма знака-запись об экземпляре;
2) принадлежащее сознанию человека представление о предмете - представление о физической единице со всеми его атрибутами;
3) материальный предмет внешнего мира (с которым соотносится знак) - конкретная физическая единица (экземпляр).
Рассмотрев объекты первой группы РЯБЯ (произведение, выражение, воплощение и физическая единица) с помощью семиотической триады установлено:
Компоненты FR.BR «произведение» и «выражение» являются предметами изучения других наук (например, литературоведения, искусствоведения и т.д.);
• Вследствие того, что объекты «произведение» и «выражение» являются объектами исследования других наук (например, литературоведческих и искусствоведческих, и других дисциплин), они функционируют «сами по себе» и могут быть описаны иным метаязыком, который не согласуется с языком библиографической записи;
• При составлении библиографической записи при помощи FRBR отсутствует переход от абстрактных сущностей (произведение, выражение) к конкретным (воплощение, физическая единица).
Анализ объектов FRBR первой группы, с помощью семиотической триады выявил противоречия во взаимодействии между абстрактными и конкретными сущностями в концепции библиографической записи, которые можно разрешить с помощью объектно-ориентированного подхода к моделированию элементов библиографических данных.
Основываясь на выводах, полученных в предыдущей главе, в параграфе 3.2 «Состав элементов библиографических данных» представлена модель библиографических данных, созданная на основе объектно-ориентированного подхода (ОРП) к построению баз данных.
При ОРП выделяют компоненты, характеризующие модель данных: объект, характеристика объекта, связь, характеристика связи.
Для удобства построения модели представим класс и суперкласс как «форму произведения». Это понятие является атрибутом сущности «произведение» концепции FRBR. Под «формой произведения» понимают «класс, к которому принадлежит произведение (например, роман, пьеса, поэма, очерк, биография, симфония, концерт, соната, карта, рисунок, картина, фотография)».
Суперкласс характеризуется общими атрибутами, операциями и ассоциациями. Подклассы, в свою очередь, добавляют к ним собственные атрибуты, операции и связи.
Таким образом, «форма произведения» в зависимости от данных может выступать как суперкласс, так и класс произведения. Следовательно, формируются простые и сложные иерархии классов.
В этом случае каждый подкласс может иметь одного непосредственного предка (его суперкласс). Термины «родитель» и «потомок» используются для описания классов, находящихся далеко друг от друга по уровням, но связанные отношениями обобщения (например, роман (класс) и снятый по его мотивам кинофильм). Такая структура иерархии данных называется наследованием.
Атрибуты характеризуют особенности суперкласса и его подклассов (классов). Они являются наименованным свойством класса, описывающим значение, которое может иметь каждый объект класса. Атрибуты считаются прилагательными, которые раскрывают особенности класса. В предложенной автором диссертационной работы, модели элементов библиографических данных, определены 24 значения (атрибута), которые раскрывают суть классов. Они описаны и разработаны в диссертационном исследовании.
В работе показано, что в модели связь - это концептуальное и единичное соотношение между объектами. Ассоциации, возникающие между объектами, представляют собой группу связей, обладающих общей структурой и семантикой. Они могут быть различными и в некоторой степени соответствовать функциональному блоку полей связи формата для библиографических данных MARC 21.
Разработанная модель элементов библиографических данных позволяет:
• систематизировать библиографические данные вне зависимости от типа и вида документа;
• хранить, объединять, передавать библиографические данные и осуществлять быстрый поиск над ними;
• строить наследственные и родственные связи между разными типами документов, тем самым, объединяя их в библиографический род;
• вести историю возникновения закаталогизированной единицы, при помощи связи между классами «форма произведения является».
Основываясь на вышеизложенных фактах, в работе определены достоинства и недостатки модели.
В четвертой главе «Практическая реализация модели элементов библиографических данных» рассмотрена практическая реализация модели элементов библиографических данных с применением ОРП. В параграфе 4.1 «Технологический процесс создания библиографической записи» предложен технологический процесс создания библиографической записи с применением объектно-ориентированного подхода. Описана последовательность операций процесса каталогизации с учетом ОРП.
Описано программное обеспечение, предназначенное для создания библиографической записи с применением объектно-ориентированных подходов к представлению элементов библиографических данных, а также для объединения нескольких родственных записей, содержащих разнородные данные, в библиографический род. Для этого создан шаблон, который выполняет следующие функции:
• создание библиографической записи;
• объединение, хранение и передача библиографических записей;
• построение наследственных и родственных связей между разными типами документов, тем самым, объединяя их в библиографический род;
• ведение истории закаталогизированной единицы, благодаря использованию связи между классами «Форма произведения является».
Для сравнительного анализа существующей и разработанной моделей было отобрано 954 записи в формате MARC 21 из каталога РГБ, на которых были проанализированы объем базы данных с применением объектно-ориентированного подхода и в MARC-формагс. Для этой цели построен график, который отображает зависимость объема БД от количества записей в ней. Было выявлено, что модель данных, созданная на базе ОРП, дает возможность сократить на 50% объем библиографических баз данных, что позволяет снизить Интернет-траффик и нагрузку на библиотечные информационные сети.
Рисунок 3. Зависимость объема БД от количества записей в ней
Констатируется, что полная стоимость библиографической записи, созданной с помощью ОРП, составляет 80 руб. В свою очередь, запись, созданная в MARC-формате, стоит порядка 120 руб. Сделан вывод, что разработанная модель элементов библиографических данных позволяет сократить на 40% финансовые затраты на производство одной библиографической записи.
В экспериментальной части диссертационной работы тестировались не только возможности создания библиографической записи средствами объектно-ориентированного подхода, но также и такие характеристики информационного поиска, как точность и полнота. На рис. 4 отражено, что площадь интерполяционной кривой для разработанного описания значительно больше площади данных формата MARC 21. Таким образом модель данных на базе ОРП позволяет повысить на 20% точность и полноту информационного поиска.
Точность
>г
095 ¡ ;
оэ; ;
Рисунок 4. Зависимость полноты/точности библиографической информации
г
О 10 20 30 40 50 100 150 200 250 300 350 400 450 500 550 600 650 700 750 800 850 900 950 954
—•—Разработанное библиографическое описание Кол-во записеи
Описание MARC21
Рисунок 5. Зависимость времени выполнении запроса ог количества записей
В работе также проанализована скорость обработки запросов (см. рис. 5). Сделан вывод, что модель библиографических данных, предложенная автором работы, позволяет увеличить скорость выполнения поисковых запросов при обращении пользователей к электронному каталогу на 10%.
Результаты работы внедрены в Российской государственной библиотеке в качестве проекта по внедрению лингвистического обеспечения.
В Заключении диссертации сформулированы выводы по основным результатам проведенного исследования:
1. Для решения задачи по устранению избыточности элементов, содержащихся в библиографических метаданных, созданных в среде MARC-форматов, определен набор элементов, достаточный для идентификации информационного ресурса.
2. Собраны статистические данные о частоте использования полей библиографических данных форматов MARC 21 и RUSMARC. На основании собранного статистического материала и многопараметрических обобщенных распределений В. Нешитого построены математические модели, анализирующие частоту использования поля и определяющие ядро библиографической записи.
3. FRBR является концептуальной моделью представления библиографической записи, созданной ИФЛА. Она представляет новый подход к ее формированию. Применение знаковой модели, основанной на положениях семиотики, выявило противоречия во взаимодействии абстрактных и конкретных объектов FRBR, которое можно разрешить при помощи объектно-ориентированного подхода к моделированию библиографических данных.
4. Разработанная модель элементов библиографических данных на основе ОРП состоит из объектов, атрибутов и связей. Она позволяет: систематизировать библиографические данные вне зависимости от типа и вида документа; хранить, объединять, передавать библиографические данные и осуществлять быстрый поиск над ними; строить наследственные и родственные связи между разными типами документов, тем самым, объединяя их в библиографический род; вести историю возникновения закаталогизированной единицы, использовав связь между классами «форма произведения является».
5. Разработано программное обеспечение, позволяющее формировать записи при помощи модели элементов библиографических данных, созданной на базе ОРП.
6. Показана эффективность применения модели элементов библиографических данных с применением объектно-ориентированного подхода по сравнению с существующей системой библиографических данных MARC-форматов. Разработанная модель
библиографических метаданных позволяет подойти к решению вопросов библиографического описания документов с позиции объектно-ориентированной концепции представления библиографической информации и осуществлять дальнейшее развитие теории каталогизации в интересах библиотечного сообщества и пользователей электронных каталогов.
ОСНОВНЫЕ ПУБЛИКАЦИИ
Публикации в изданиях, рекомендованных ВАК
1. Халабия, M.J1. Анализ форматов библиографической записи на повторяемость элементов данных / Халабия М.Л. // Научно-техническая информация. Серия 2 Информационные процессы и системы. - 2012. - № 2. - С. 10-14.
2. Халабия, М.Л., Халабия, Р.Ф., Объектно-ориентированная модель элементов библиографического описания информации динамических распределенных баз данных / Р.Ф. Халабия, М.Л. Халабия // Промышленные АСУ и контроллеры.-2012. - № 2. - С. 13-15.
3. Халабия, М.Л., Халабия, Р.Ф., Объектно-ориентированный подход к моделированию элементов библиографического описания в динамических распределенных базах данных вузов / Р.Ф. Халабия, М.Л. Халабия // Информатизация образования и науки. -2012. - апрель. - Вып. 2( 14). - С. 140-149.
4. Халабия, М.Л. Предпосылки создания универсального формата библиографических данных / М. Л. Халабия // Научные и техн. библиотеки. - 2010. - № 7. - С. 32-42.
Публикации в других изданиях
5. Халабия, М.Л. Машиночитаемая библиографическая MARC-запись и математические модели Ципфа и Брэдфорда / М.Л. Халабия // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса: Материалы Шестнадцатой Международной конференции «Крым - 2009» - Режим доступа: http://www.gpntb.ru/win/inter-events/crimea2009/disk/71.pdf
6. Халабия, М.Л. Знаковая природа модели «Функциональных требований к библиографическим записям» / М.Л. Халабия // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса: Материалы Пятнадцатой Международной конференции «Крым - 2008» - Режим доступа: http://www.gpntb.ru/win/mter-events/crimea2008/disk/51 .pdf
7. Халабия, М.Л. Представление о знаковой природе «Функциональных требований к библиографическим записям» / Халабия М.Л. // Актуальные проблемы аппаратно-программного и информационного обеспечения науки, образования, культуры и бизнеса: Сборник научных трудов по материалам международной научно-практической Интернет-конференции. - Москва: МГУПИ, 2008. - 48-53.
8. Халабия, М.Л. «Функциональные требования к библиографическим записям» и метаданные / М.Л. Халабия // Информационные технологии, компьютерные системы и издательская продукция для библиотек : Материалы Одиннадцатой международной конференции и выставки "L1BCOM-2007" - Режим доступа: http://www.gpntb.rU/libcom7/disk/7.pdf
9.Халабия, М.Л., Халабия, Р.Ф., Шляпин, П.П. Новый подход описания электронных ресурсов для информационно-поисковых систем в компьютерных сетях / Халабия Р.Ф., Халабия М.Л., Шляпин П.П. // Информационные технологии в науке, образовании и производстве : материмы междунар. научно - техническая конф., Орел, 25-26 мая 2006. - с. 203-205.
Подписано к печати 26.04.2013 г. Заказ № 230. Объем 1.12 п.л. Тираж 100 экз. Типография МГУКИ г. Москва, г. Химки, Библиотечная ул., д.7
-
Похожие работы
- Методика проверки наличия возможности несанкционированного доступа в объектно-ориентированных системах
- Проектирование информационных систем в рамках объединенного объектно-реляционного подхода
- Разработка автоматизированной системы построения информационных моделей процессов управления пневмосистемами на базе объектно-ориентированного подхода
- Разработка системы поддержки объектных представлений на основе функционального интерфейса в объектно-ориентированных базах данных САПР СБИС
- Метод агрегирования информационных объектов при концептуальном проектировании объектно-ориентированной базы данных