автореферат диссертации по документальной информации, 05.25.03, диссертация на тему:Теория и методология создания электронного каталога в библиотеке
Автореферат диссертации по теме "Теория и методология создания электронного каталога в библиотеке"
На правах рукописи
Вершинин Михаил Иосифович
ТЕОРИЯ И МЕТОДОЛОГИЯ СОЗДАНИЯ ЭЛЕКТРОННОГО КАТАЛОГА В БИБЛИОТЕКЕ
Специальность: 05.25.03 - Библиотековедение, библиографоведение и книговедение
Автореферат диссертации на соискание ученой степени доктора педагогических наук
0031654Э4
Санкт-Петербург 2008
Работа выполнена в Библиотеке Российской академии наук и Северо-Западном государственном заочном техническом университете
Официальные оппоненты
доктор педагогических наук, профессор Ванеев Анатолий Николаевич
доктор педагогических наук, профессор Столяров Юрий Николаевич
доктор педагогических наук, профессор Юпоченко Тамара Ивановна
Ведущая организация - Кемеровский государственный университет культуры и искусств
Защита состоится 1 апреля 2008 г в 14 час. на заседании диссертационного совета Д210.019 03 по защите диссертаций на соискание ученой степени доктора наук при Санкт-Петербургском государственном университете культуры и искусств по адресу: 191186, Санкт-Петербург, Дворцовая наб., д 2.
С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета культуры и искусств.
Автореферат разослан "I" марта 2008 г. Ученый секретарь диссертационного совета
доктор филологических наук, профессор
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность исследования Глобальный процесс, получивший название "информатизация общества", оказывает влияние на все стороны жизни общества Главное, что отличает этот процесс, заключается в приобретении информацией статуса фундаментального фактора существования человечества Если ранее жизнь и прогресс человечества зависели, в основном, от материального производства, то теперь они невозможны без максимального использования информации во всех ее видах Информационный фактор быстро приобретает почти такую же значимость, как и материальный
Выросшая в "технотронном" обществе индустрия информации и информационного обслуживания приобрела настолько большой удельный вес в жизни государства и отдельного человека, что по числу занятых в ней людей приближается к сфере материального производства Само материальное производство попадает во все большую зависимость от индустрии информации
Изменились и общественные потребности в информации, одним из следствий чего стала коренная трансформация библиотечного дела Оно все более превращается в одну из мощных и важнейших отраслей индустрии информации, оснащаемую новейшей компьюникационной техникой, нетрадиционными носителями информации, высокоэффективными автоматизированными технологиями ее обработки и использования
Кардинальные социально-экономические и политические преобразования в России, ориентация на использование новых информационных технологий меняют положение библиотеки в обществе, расширяют и усложняют ее функции и задачи Библиотеки в настоящее время являются основой для создания в России новой информационной инфраструктуры
Современная библиотека является сложной информационной системой, состоящей как из традиционных, так и новых, нетрадиционных информационных подсистем Важную роль среди новых информационных подсистем библиотеки играет электронный каталог (ЭК), и его создание является приоритетной целью автоматизации библиотек Именно ЭК открывает быстрый и качественный доступ к информационным ресурсам
библиотеки Качество и эффективность библиотечного ЭК определяются комплексом методов и средств, составляющих технологию его создания и использования Несмотря на большие достижения в области практической реализации технологии создания электронных каталогов, осмысление их места в общей системе электронных коммуникаций заметно отстает от потребностей В настоящее время нет общепринятой теории библиотечного ЭК, и его развитие идет, преимущественно, эмпирическим путем Так, даже само понятие «электронный каталог» не имеет устоявшейся трактовки и, зачастую, трактуется разными авторами противоречиво, рассматривается как некоторый комплекс слабо связанных задач и решений
Таким образом, актуальна научная проблема, решению которой посвящено данное исследование повышение качества и эффективности создания и использования библиотечного электронного каталога путем разработки теории и методологии создания ЭК, соответствующих тенденциям развития информационных технологий и ориентированных на реальную практику их использования
Разработанность проблемы Начало процесса создания библиотечных ЭК относится к 1960-1962 гг, когда ряд средних и малых библиотек США, преимущественно в учебных заведениях, независимо друг от друга приступили к разработке систем машиночитаемых каталогов и средств доступа к ним В 1963 г с принятием программы MARC (MAchine-Readable Cataloguing — машиночитаемая каталогизация) в Библиотеке Конгресса США этот процесс приобретает упорядоченный и направленный характер
В России первые попытки создания библиотечных ЭК относятся к началу 1970-х годов, они связаны с исследованиями в области форматов по обмену библиографическими записями в ГПНТБ
Теоретические и практические проблемы создания библиотечного ЭК в течение длительного времени разрабатывают такие видные зарубежные ученые, как Henriette D. Avram, Hugh С Atkinson, Cyril Cleverdon, Donald S Culbertson, Richard de Gennaro, Franc W Lancaster, Gerard Saltón, L Syre и другие Крупномасштабные проекты по созданию ЭК реализованы и реализуются в Библиотеке Конгресса США, Британской библио-
теке, региональных и вузовских библиотеках США и стран Западной Европы Особо следует отметить достижения в этой области библиотеки университета штата Огайо, ставшей ядром крупнейшей библиотечной сети OCLC (Online Computer Library Center) и центром масштабного распределенного ЭК
В нашей стране основы решения проблемы создания библиотечного ЭК заложены в трудах Р С Гиляревского, Д Г Лахути, В П Леонова, А.В Соколова, Ю H Столярова, А И Черного, Ю И Шемакина Теоретические и практические вопросы создания библиотечного ЭК рассматриваются в работах А Б Антопольского, Ф С Воройского, Б С Елепова, H Е Каленова, О А Лавреновой, Я Л Шрайберга и др , постоянно обсуждаются на международных конференциях и семинарах, среди которых следует отметить ежегодную Крымскую конференцию и конференции, проводимые в РГБ и РНБ Масштабные проекты по созданию ЭК реализуют РГБ, РНБ, БАН, ГПНТБ, БЕН, ГПНТБ СО РАН, ВГБИЛ и другие крупнейшие библиотеки страны Координация проектов осуществляется в рамках федеральной программы Либнет и федеральной программы "Культура России"
В настоящее время в России разработано много автоматизированных библиотечных систем (АБИС) различного уровня сложности и масштаба Среди таких систем можно выделить ИРБИС, "Библиотека", МАРК, решающие задачу комплексной автоматизации библиотек и содержащие стандартные средства создания и ведения ЭК, принятые для библиографических баз данных Среди зарубежных массовых систем наиболее известны ALEPH, DYNIX (HORIZON), GEAC, INNOPAC, Liber, TinLib, VTLS Анализ описаний большинства из перечисленных АБИС показал, что в них, как правило, недостаточно развито лингвистическое обеспечение (ЛО), так, например, отсутствуют эффективные средства поиска и исправления ошибок и автоматизированного индексирования с учетом этой проблемы
Целью исследования является разработка теоретических основ и методологической базы создания и использования библиотечного электронного каталога, позволяющей ускорить и упростить его создание, по-
высить качество и облегчить использование Для ее достижения следует решить следующие задачи
1 Проанализировать современное состояние проблемы создания
ЭК
2 Рассмотреть существующие методы и средства создания ЭК, выявить возникающие при этом проблемы и определить пути их решения
3 Проанализировать проблему повышения качества ЭК как сложную комплексную задачу, решаемую на всех этапах жизненного цикла электронного каталога
4 Предложить теоретические основы создания ЭК с учетом особенностей и тенденций развития информационных технологий
5 Создать модель жизненного цикла электронного каталога, позволяющую разработать методологию создания ЭК
6 Разработать на основе теоретических исследований методическое и программное обеспечение процесса создания и использования ЭК
Объектом исследования является библиотечный электронный каталог.
Предметом исследования являются теоретические и методологические основы создания и использования библиотечного электронного каталога
Методы исследования, используемые в работе, базируются на основных положениях теории систем и системного анализа, теории информации и информационных процессов, теории нечетких множеств, теории индексирования
Научная новизна диссертационной работы заключается в следующем.
1 Разработаны теоретические основы создания и использования библиотечного электронного каталога с учетом особенностей и тенденций развития информационных технологий
2 Впервые электронный каталог рассматривается как сложная самообучающаяся метаинформационная система в совокупности с методами и средствами его создания, поддержки и развития
3 Впервые дается характеристика жизненного цикла электрон-
ного каталога
4 Предложена модель жизненного цикла электронного каталога, реализующая системный подход к повышению качества ЭК на этапах разработки и эксплуатации
5 Разработана методологическая база, обеспечивающая повышение эффективности и качества электронного каталога
6 Предложена классификация ошибок, позволяющая разработать эффективные способы их предупреждения и устранения
7 Впервые для решения задачи повышения качества ЭК предложен и реализован комплексный подход, основанный на систематическом применении методов нечеткой логики и теории индексирования
8 Создано методическое и программное обеспечение технологии создания и использования ЭК
На защиту выносятся следующие положения
1 Библиотечный электронный каталог является метаинформационной системой, обладающей свойством избыточности информации и устойчивостью к ошибкам
2 Представление ЭК как метаинформационной системы позволяет разработать теоретические основы его создания и использования
3 Жизненный цикл ЭК должен включать этапы разработки лингвистического обеспечения и переноса информации на следующий цикл
4 Наибольшее влияние на качество и эффективность электронного каталога оказывает лингвистическое обеспечение электронного каталога
5 Лингвистическое обеспечение электронного каталога должно содержать средства предупреждения, поиска и устранения ошибок
6 Информационный поиск в электронном каталоге следует рассматривать как процедуру сравнения строк, и повышение эффективности поиска при наличии ошибок обеспечивается совершенствованием этой процедуры
7 Средства создания электронного каталога должны включать в качестве обязательного компонента инструмент предупреждения ошибок ввода
8 Информационный поиск в библиотечном электронном каталоге должен выполняться с учетом наличия ошибок как в ЭК, так и запросах пользователей
9 Структурированное представление электронного каталога полностью раскрывает содержание электронного каталога и решает, таким образом, проблему "потерянных записей"
10 Предложенная методология и разработанное на ее основе программное обеспечение позволяет повысить качество и эффективность электронного каталога
Теоретическая значимость работы состоит в разработке теоретических и методологических основ создания и использования библиотечного электронного каталога Это создает предпосылки для перехода от эмпирического к научному этапу создания ЭК, отвечающего современному уровню развития информационных технологий
Практическая значимость работы и реализация результатов Полученные в работе теоретические и практические результаты являются основой разработанных алгоритмов и методик, а также компьютерных программных средств, включающих
- программный комплекс обслуживания электронного каталога,
- программу конверсии внешних баз данных,
- программу ввода спецификаций журнальных изданий,
- программу ведения каталога периодических изданий и поиска в нем,
- программу статистического анализа библиографических баз данных,
- программу создания и редактирования инвертированного файла электронного каталога с элементами индексирования,
- программу автоматизированного индексирования библиографических баз данных,
- программный интерфейс доступа к электронному каталогу,
- программный комплекс для создания структурированного представления библиографических баз данных
Практическая ценность полученных результатов состоит в том, что
они обеспечивают каталогизатора, систематизатора, библиографа и рядового пользователя средствами, позволяющими
- ускорить процесс создания электронного каталога за счет сокращения клавиатурного ввода,
- снизить количество недоступных библиографических записей в электронном каталоге на основе применения метода нечеткого сравнения строк и записей,
- обеспечить эффективный поиск в электронном каталоге с применением разработанных пользовательских интерфейсов и программных средств
Базой исследования являются электронные каталоги РГБ, РНБ, Библиотеки РАН и библиотек-отделов БАН при институтах Санкт-Петербургского Научного Центра РАН, российские и зарубежные библиографические базы данных и электронные каталоги в сети Интернет и на CD-ROM
Материалы диссертационной работы докладывались на международных и российских конференциях и семинарах-
1 Библиотеки и ассоциации в меняющемся мире новые технологии'и новые формы сотрудничества (Судак, 1998,1999,2005)
2 Библиотечное дело в России и за рубежом Наследие и современность (Краснодар, 1999)
3 Библиотечное дело и проблемы информатизации общества (Москва, 1999)
4 Библиотечное дело - 2000 программа формирования открытого информационного общества (Москва, 2000)
5 Информационные ресурсы библиотек и их кадровое обеспечение (Минск, 2000)
6 Библиотечное дело - 2001 Российские библиотеки в мировом информационном и интеллектуальном пространстве (Москва, 2001)
7 Библиотечное дело 2003 Гуманитарные и технологические аспекты развития (Москва, 2003)
8 Единое информационное пространство России федеральный и региональный компоненты (Краснодар-Геленджик, 2004)
9 Информационные технологии в образовании и науке (ИТОН-2006, Москва, 2006)
10 Современные пользователи автоматизированных информационно-библиотечных систем (Санкт-Петербург, 2006)
Разделы диссертации обсуждались на научно-технических семинарах отдела информатики и автоматизации БАН и на научных семинарах кафедры информатики и информационных технологий СПбГУКИ
По данной проблеме опубликовано свыше 50 научных работ, в том числе монография "Электронный каталог. Проблемы и решения", раздел в справочнике "Электронные документы создание и использование в публичных библиотеках" и 7 программ и программных комплексов для ПЭВМ, зарегистрированных в Государственном фонде алгоритмов и программ (г. Москва). Диссертационная работа обобщает исследования, выполнявшиеся в отделе информатики и автоматизации БАН в рамках бюджетной НИР "Разработка и внедрение автоматизированной библиотечной системы БАН (АС-БАН)" в период 1997-2002 гг и позднее, в рамках гранта РГНФ - Проект 00-05-12019в "Издания Санкт-Петербургской Академии наук и академической типографии в 18 веке", в рамках гранта Российского фонда фундаментальных исследований - Проект 01-07-90287-в "Создание базы данных по иностранным периодическим изданиям из фонда библиотеки Зоологического института РАН" (2001 -2002 годы), а также в рамках Федеральной целевой программы "Интеграция науки и высшего образования России на 2002-2006 годы", Проект № Б0120 "Оптика и научное приборостроение"
Структура и объем работы Работа состоит из введения, пяти глав, заключения и приложений, содержит 365 страниц и список использованной литературы, включающий 218 наименований
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность диссертационной работы и важность решения поставленной научной проблемы, формулируются цель и задачи исследования, оценивается научная и практическая значимость и новизна защищаемых научных положений
В первой главе "История развития и проблемы создания электронного каталога" рассматривается история и современное состояние методов и средств создания электронных каталогов в зарубежных и отечественных библиотеках и информационных центрах
В первом подразделе «Развитие электронных каталогов за рубежом» рассматривается процесс внедрения в библиотечную практику электронно-вычислительной техники, что в конечном итоге привело к созданию электронных каталогов Современный уровень применения вычислительной техники и использования информационных технологий в библиотечной сфере является результатом длительного процесса, прошедшего несколько этапов
В 1960-е годы заметную роль в этом процессе сыграла Библиотека Конгресса США и университетские библиотеки ряда штатов Этот процесс прошел несколько этапов и в конечном итоге привел к созданию мощных интегрированных библиотечных систем Компьютеризация позволила быстрее и с меньшими трудозатратами выполнять отдельные технологические процессы, хотя и изменила некоторые черты указанных процессов Скорость изменений технологических процессов в библиотеках во многом определялась уровнем развития вычислительной техники
В это же время были сформулированы требования, которым должен удовлетворять библиотечный ЭК полезность, доступность, полнота на основе постоянной обновляемое™, учет индивидуальных предпочтений пользователей, гибкость, формат, обеспечивающий полноту представления данных, низкие затраты на ввод данных
В 1970-е годы появились первые библиотечные ЭК, удовлетворяющие в некоторой степени этим требованиям. Тогда же появились первые ОРАС (On-line Public Access Catalog) - распределенные ЭК Наряду с ростом количества ОРАС шло и их постоянное совершенствование от
уровня карточного каталога до интерактивной поисковой системы С ростом интереса к ОРАС в 1970-е гг многие из них, разработанные собственными силами для внутреннего использования в библиотеке, стали продаваться через коммерческие организации или самими библиотеками-разработчиками
Несмотря на доступность таких ОРАС, они не всегда удобны в использовании, поэтому в крупных библиотеках возникает потребность в разработке своих автоматизированных систем или подсистем
Следующим этапным изменением стала возможность с 1993 г осуществлять автоматизированный поиск информации через Интернет всем желающим с помощью информационной системы БК США LOCIS
Таким образом, в современных библиотеках исторически сложились и в настоящее время параллельно существуют каталог в форме книжного издания, карточный каталог, электронный каталог и каталог на CD-ROM
Ведущей формой библиотечных каталогов в современных библиотеках сегодня является ОРАС Он отражает принципиально новые технические возможности и является вершиной форм библиотечных каталогов современной эпохи
Крупнейшие библиотеки мира успешно провели ретроспективную конверсию каталогов в машиночитаемую форму В то же время для многих библиотек в мире это по-прежнему является актуальной задачей
Важную роль в процессах развития и совершенствования ЭК играют машиночитаемые форматы представления библиографической информации
Во втором подразделе «Машиночитаемые форматы данных» рассматривается исторический аспект развития машиночитаемых форматов данных. Показаны особенности развития этого процесса в СССР и в России от проектов государственных стандартов "Коммуникативный формат библиографической записи на магнитной ленте" и "Предмашинный формат библиографической записи" к изучению и внедрению в практику международно признанных форматов UNIMARC, USMARC и других, когда работы по использованию формата UNIMARC приняли в стране характер
практически государственной программы, и UNIMARC становится единым коммуникативным форматом обмена библиографическими данными как внутри страны, так и при взаимодействии с зарубежными библиотеками и информационными центрами
Новой тенденцией конца 90-х годов стало стремление к интеграции форматов, позволяющей исключить процесс конвертации данных Примером этого является согласование форматов USMARC и CANMARC и создание на их базе единого формата - MARC 21 В нашей стране основным пользователем формата MARC 21 является Российская государственная библиотека
В третьем подразделе «Электронные каталоги в России» анализируется рынок программных продуктов для АБИС, выделяются наиболее распространенные системы Далее рассматривается уровень развития электронных каталогов, достигнутый ведущими библиотеками страны
Анализ этого процесса показал, что для зарубежных библиотек, как и для отечественных, на современном этапе характерно определенное пренебрежение развитием ЛО ЭК и погоня за количеством введенных записей В этом контексте появляется такая проблема, как рост числа ошибок в библиографических записях При этом ошибки возникают по разным причинам некачественный ввод, ошибки ретроконверсии, ошибки вследствие различной трактовки правил каталогизации и так далее Влияние этой проблемы на качество и эффективность работы библиотечного ЭК несомненно
Близкой проблемой является организация информационного поиска с учетом ошибок пользователя Данные проблемы для наших библиотек стоят еще острее ввиду особенностей русского языка, но их решению практически не уделяется внимания Если для решения этой проблемы в латиноязычных каталогах достаточно эффективно применяются синтаксические и морфологические методы, то для славяноязычных каталогов этих методов недостаточно На наш взгляд, решение данной проблемы требует привлечения аппарата нечеткой логики
В то же время усиливается понимание того, что основой корпоративной деятельности и эффективного информационного взаимодействия
библиотек страны является единое унифицированное лингвистическое обеспечение процессов каталогизации ресурсов и доступа к ним через Интернет Таким образом, имеет место переход от экстенсивного этапа развития к интенсивному, когда больше внимания начинают уделять качеству БЗ и полноте представленной в них информации
Таким образом, анализ, проведенный в первой главе, позволил определить основные характеристики электронных каталогов, выявить основные тенденции их развития в России и за рубежом, а также установить, что в создании и развитии ЭК произошел переход от экстенсивных методов к интенсивным Также было выявлено, что существующие методы создания и эксплуатации ЭК не обладают необходимой эффективностью, а дальнейшее совершенствование ЭК требует, прежде всего, развития лингвистического обеспечения и разработки соответствующих методов и средств и, в частности, методов создания и анализа БЗ, способствующих повышению качества работы ЭК при наличии ошибок различного вида
Глава 2 «Электронный каталог как информационная система» посвящена определению понятия электронного каталога, его взаимосвязи с понятиями теории информационных систем, особенностям технологии создания ЭК
В первом подразделе «Множественность определений электронного каталога» анализируется содержание понятия "электронный каталог" в отечественной и зарубежной литературе
Анализ различных определений показывает узость одних и противоречивость других, что требует осмысления понятия "электронный каталог" в других категориях Так, анализ понятия ЭК с точки зрения теории информационных систем' показывает, что он имеет все признаки информационной системы и, следовательно, состав ЭК, назначение и свойства его составных частей следует рассматривать с общих позиций, опираясь на достижения теории информационных систем
В следующем подразделе электронный каталог рассматривается как особый класс информационных систем - как метаинформационная система
Используя понятие метаинформации как информации об информации, введенное Ю А трейдером, предлагается трактовать библиографическую запись как метаинформацию Следовательно, с полным основанием можем определить библиотечный ЭК как метаинформационную систему Нетрудно видеть, что новые виды ЭК, не имеющие карточных аналогов, такие, как ЭК электронных информационных ресурсов Интернет, отвечают этому определению, отличие состоит только в наличии возможности, используя метаинформацию, получить непосредственный доступ к электронной публикации
Далее анализируется взаимосвязь и различие понятий "метаинфор-мация" и "метаданные" и показывается их место в электронном каталоге В качестве характерного примера метаданных рассматривается система метаданных Дублинского ядра (Dublin Core), анализируются ее основные элементы
Далее доказано, что наличие в ЭК такого явления как избыточность метаинформации, содержащейся в библиографической записи, позволяет сделать вывод об его устойчивости к ошибкам различного происхождения и вида, что, однако, требует применения средств, учитывающих и использующих эту особенность Отсюда вытекает необходимость разработки средств организации поиска в условиях возможного и неизбежного наличия ошибок, а также разработки средств, минимизирующих число ошибок при создании БЗ и организации информационного поиска Все эти задачи должны реализовываться на основе лингвистического обеспечения ЭК
Указывается, что важнейшее отличие электронного каталога от информационных систем общего назначения состоит в исключительной роли лингвистического обеспечения, которое создает условия для эффективной работы пользователя с электронным каталогом
В третьем подразделе рассматривается взаимосвязь понятий «Электронный каталог» и «Система управления базами данных» (СУБД) Анализ основных понятий теории реляционных СУБД проводится, исходя из особенностей ЭК как информационной системы специального вида.
Требования, известные как 12 правил Кодда, соотносятся с особенностями библиотечного ЭК Показано, что с одной стороны эти требова-
ния не всегда выполнимы для электронного каталога, а с другой - сужают возможности организации эффективной работы с ним Далее рассматривается другой класс СУБД - линейные СУБД и их особенности и преимущества использования в ЭК Анализ различных источников показал степень распространенности обоих подходов
Далее показано, что все большее распространение получает новый стандарт хранения информации и обеспечения к ней доступа XML (extensible Markup Language) — "расширяемый язык разметки" Анализируются достоинства XML-СУБД и делается вывод о перспективности данного подхода для использования в ЭК
В четвертом подразделе рассматривается лингвистическое обеспечение электронного каталога как комплекс средств, используемых в ЭК для формирования, обработки, хранения и поиска информации, а также средств и методов их создания, ведения, использования и контроля Анализируются состав и структура JIO в зависимости от того, в какой области библиотечной деятельности оно используется
Далее рассматриваются лингвистические средства как совокупность информационно-поисковых языков (ИПЯ), используемых в ЭК, правил перевода информации с естественного языка на ИПЯ и критерия выдачи информации, обеспечивающих представление смыслового содержания документов информационных массивов в виде, удобном для машинной обработки и обеспечивающем автоматизированный поиск информации Анализируются ИПЯ различного вида и назначения В связи с ИПЯ дескрипторного вида особо рассматривается задача автоматизации индексирования
Отмечается, что в системах неинтегрального типа, использующих инверсную организацию информационных массивов, сохраняется необходимость нормализации лексики для сокращения числа лексических входов в инвертированный (инверсный) массив Таким образом, проблема автоматизации индексирования остается вполне актуальной и в настоящее время, когда широкое распространение получили интегральные информационные системы
Значительное место в структуре лингвистического обеспечения современных ЭК занимают иерархические классификации Особенно заметным расширение номенклатуры используемых иерархических классификаций стало в последние годы, что объясняется необходимостью работы в сетевом режиме, а также задачами повышения качества производимых информационных продуктов и услуг Отмечается, что дальнейший прогресс в этой области существенно зависит от развития методов семантического анализа БЗ
В следующем подразделе анализируются различные подходы к организации поиска в электронном каталоге
Технологии информационного поиска активно развиваются с начала 60-х годов 20 века За это время сформулировано несколько технологий информационного поиска В работе рассматриваются некоторые основные технологии классический информационный поиск, автоматическая кластеризация и рубрикация документов, количественный и качественный контент-анализ, а также классификация по видам поиска
В последнее время все чаще реализуют смешанные варианты информационного поиска Например, система автоматически кластеризует документы, которые возвращены как результат классического информационного поиска, или в качестве результата поиска выводится не список документов, а список созданных из текста документов аннотаций
В настоящее время используется несколько подходов к представлению информации в БД для обеспечения последующего поиска этой информации Все многообразие моделей традиционного информационного поиска принято делить на три вида теоретико-множественные (булевская, нечетких множеств, расширенная булевская), алгебраические (векторная, обобщенная векторная, латентно-семантическая, нейросетевая) и вероятностные
Существует также несколько моделей представления документов документ как множество слов (Ьа§-о£лтог<!8), как множество семантических фрагментов и тп Библиотечный электронный каталог отличается тем, что модель документа (БЗ) полностью определяется используемым машиночитаемым форматом представления БЗ
Важной компонентой электронного каталога библиотеки является его интерфейс. В шестом подразделе рассматриваются требования, которым должен удовлетворять интерфейс ЭК
Функционирование системы "человек-машина" является объектом исследований таких дисциплин, как когнитивная психология, графический дизайн, математическое моделирование компьютерных систем и некоторых других Эффективность информационных систем зависит от способности пользователей правильно работать с этими мощными инструментами Облегчить работу пользователя призван пользовательский интерфейс "человек-машина"
Эффективность использования ЛО ЭК также зависит от применяемого пользовательского поискового интерфейса Существующие средства доступа к ЭК, особенно ОРАС, требуют от пользователя знания булевой алгебры для построения более или менее сложных запросов В то же время известно, что значительная часть пользователей не используют этот аппарат, а остальные используют крайне редко Подобное расхождение снижает эффективность поиска Кроме этого, поиск осуществляется без учета наличия возможных ошибок в запросах, что приводит к потере информации
Далее анализируются различные источники ошибок, возникающие при взаимодействии с интерфейсом, и формулируются основные требования к пользовательскому интерфейсу гибкость, хорошая навигация, устойчивость к ошибкам пользователя, ясная система помощи, учет ментальных ограничений, присущих каждому человеку
Предлагается и рассматривается концептуальная модель графического пользовательского интерфейса, детализируемая введением пяти уровней взаимодействия пользователей с информационными системами физического, концептуального, лингвистического, визуального, функционального
Затем в подразделе анализируются интерфейсы крупнейших российских и зарубежных библиотек, выявляется их сходство и различие, анализируется их элементный состав с точки зрения программных классов, их составляющих, и различные варианты организации доступа к ЭК
Последний, седьмой подраздел второй главы рассматривает различные аспекты модели жизненного цикла электронного каталога
Методология проектирования информационных систем (ИС) описывает процесс создания и сопровождения систем в виде жизненного цикла (ЖЦ) ИС, представляя его как некоторую последовательность стадий и выполняемых на этих стадиях процессов Формальное описание ЖЦ ИС позволяет спланировать и организовать процесс коллективной разработки и обеспечить управление этим процессом
Создание и сопровождение современных информационных систем, к которым относится электронный каталог, нуждаются в регламентированном выполнении и контроле работ на протяжении всего их жизненного цикла
Международным стандартом, устанавливающим стадии и этапы жизненного цикла информационных систем, в настоящее время является 180/1ЕС 15288-2002. В России с 01 01 2007 вводится в действие ГОСТ Р ИСО/МЭК 15288-2005 (Информационная технология Системная инженерия Процессы жизненного цикла систем), который должен использоваться совместно с ГОСТ Р ИСО/МЭК 12207-99 (Информационная технология Процессы жизненного цикла программного обеспечения)
Далее, опираясь на указанные стандарты, определены особенности ЭК на всех этапах жизненного цикла и строятся различные модели жизненного цикла ЭК В подразделе рассматриваются и анализируются основные этапы разработки ЭК и выделяются процессы организации и управления жизненным циклом ЭК и интегральные процессы технологической поддержки и обеспечения качества реализации функций ЭК и их развития
На этой основе формулируются единые принципы построения библиотечных электронных каталогов Показано, что характерным и широко распространенным примером спиральной модели при разработке ЭК является так называемое "экстремальное программирование" Такой подход отличает минимизация времени на согласование изменений, наличие действующего прототипа на всем пути разработки от макета до полно-
функционального ЭК, что приводит к кардинальному сокращению времени разработки ЭК
Делается вывод, что особенностью жизненного цикла электронного каталога является то, что он содержит и каскадную, и спиральную модели на разных этапах развития
Таким образом, во второй главе сформулирована концепция ЭК как меггаинформационной системы, позволившая определить общие принципы создания электронного каталога, показано различие и взаимосвязь понятий метаинформации и метаданных и выявлено их место в концепции ЭК Также проанализирована связь между ЭК и СУБД, и выявлены особенности использования различных СУБД в ЭК с указанием особого места языка XML в дальнейшем развитии ЭК Анализ подтвердил особое место лингвистического обеспечения при создании и использовании ЭК как основы обеспечения надежного функционирования ЭК и показал, что ни один из традиционно используемых методов информационного поиска в полной мере не удовлетворяет предъявляемым к ЭК требованиям по надежности и качеству
Выработаны требования к пользовательскому интерфейсу программных средств создания ЭК и организации доступа к нему, и предложено использовать интерфейс с максимальным числом настраиваемых характеристик, что позволит учесть особенности различных этапов создания ЭК, сделать интерфейс более дружественным, снизить число ошибок при вводе В итоге создана модель жизненного цикла ЭК, позволяющая разработать методологию создания ЭК, повышающую качество и надежность ЭК
В третьей главе рассматриваются способы создания машиночитаемых библиографических записей, их особенности
С момента появления прототипов современных ЭК и по настоящее время ручной клавиатурный ввод является основным способом создания библиографических записей За это время изменилось аппаратное обеспечение ввода, но суть, несмотря на все усовершенствования, осталась неизменной оператор с помощью клавиатуры вводит данные Ошибки при ручном вводе данных неизбежны, и, как правило, коррекция ошибок тре-
бует вмешательства оператора
Существенное влияние на количество ошибок ввода и на производительность оператора оказывает программный интерфейс Анализ различных источников позволил предложить классификацию ошибок на основные 6 классов и связать с каждым классом источник ошибок, а также определить влияние каждого класса ошибок на качество ЭК Предложены возможные способы устранения и предупреждения ошибок
Доказывается, что большинство указанных ошибок можно устранить с помощью машинного анализа, что требует разработки соответствующего программного обеспечения Что касается трудно устранимых ошибок, то необходима разработка программного обеспечения, учитывающего их наличие
Во втором подразделе анализируется с различных сторон процесс конверсии традиционных каталогов в электронную форму Предлагается трехуровневая классификация результатов ретроконверсии, и оценивается предпочтительность выбора того или иного уровня ретроконверсии Разработана поэтапная методика выполнения ретроконверсии, и анализируются различные технологические подходы к ретроконверсии Выявлены специфические ошибки, возникающие при ретроконверсии, и разработана их классификация и способы устранения
Отдельно рассмотрена задача ретроконверсии каталогов в книжной форме, а также в виде файлов библиографических записей, созданных без использования машиночитаемых форматов БЗ
Установлено сходство решаемых задач при ретроконверсии различных ресурсов и показано, что они требуют программного решения
В третьем подразделе исследуется такой источник пополнения ЭК как импорт библиографических записей
При импорте БЗ реализация конверсионного проекта сводится к вопросам организации эффективного использования ресурсной БД и, в основном, сводится к адаптации записей для использования в библиотеке, осуществляющей конверсионный проект Адаптация записей может сводиться либо к структурному редактированию записи при переводе (конвертировании) ее в другой формат, либо к содержательному редактирова-
нию заполнения полей При этом внешняя ББД, используемая в конверсионном проекте, может быть создана как путем конверсии традиционных источников библиографической информации, так и в процессе корпоративной каталогизации, а может и включать различные ББД, созданные разными путями Для конверсии БЗ библиотека может прибегнуть к помощи объединенной библиотечной системы, банк данных которой используется в качестве источника записей, либо обратиться к специализированной фирме, занимающейся реализацией конверсионных проектов
На примере OCLC исследуется процесс развития распределенного каталога, его достоинства и недостатки Отмечается место РКП как Национального библиографического центра Также рассматриваются такие источники БЗ как ББД на CD-ROM и DVD
В четвертом подразделе анализируется процесс корпоративной каталогизации, его особенности на современном этапе. Выделяются проекты OCLC, Арбикон и Либнет Особо подчеркивается роль протокола Z39 50 в корпоративной каталогизации
Пятый подраздел посвящен новой технологии ввода БЗ - речевому вводу Показаны достоинства и недостатки данной технологии, отмечается ее перспективность
Таким образом, в третьей главе проанализированы основные методы и способы создания библиографических записей, выявлены их особенности и недостатки Классифицированы ошибки, возникающие при создании БЗ различными способами, и показано, что ни один способов не гарантирует от появления ошибок Выявлена особая роль ретроспективной конверсии библиографических записей в создании библиотечного ЭК, и предложена методика ее проведения Дана классификация ошибок, возникающих при создании ЭК, и существующих способов их обнаружения и устранения, а также выявлена потребность в разработке методов создания и поиска БЗ с учетом наличия ошибок
В четвертой главе рассматриваются методы повышения эффективности электронного каталога
Первый подраздел посвящен анализу методов коррекции ошибок и сравнения строк Показаны особенности использования различных мето-
дов и границы их применимости Подчеркивается особая роль методов, основанных на теории нечетких множеств и нечеткой логике
Во втором подразделе для решения проблемы поиска и коррекции ошибок, а также поиска с учетом наличия ошибок предлагается метод нечеткого сравнения строк, основанный на использовании аппарата теории нечетких множеств Методы нечеткой логики позволяют работать в условиях недостатка статистических данных и сравнивать строки с учетом возможного наличия ошибок без коррекции строк и вмешательства оператора В предлагаемом методе учитываются как характер возможных ошибок, так и их ранжирование по частоте появления и другим критериям Он позволяет успешно находить БЗ с ошибками, которые в противном случае оставались бы недоступными
Метод включает следующие этапы
- формирование нечеткого образа символа, всякий символ представляется своей функцией принадлежности |ла(х), при этом "размывание" происходит с учетом ошибок ввода или распознавания, хеА, где А -множество допустимых символов, (1ип А=т,
- формирование нечеткого образа символьной строки и длины п, нечеткий образ задается в виде матрицы
n=F
ш»,
И U
2
Ни
■ >пхш
где (iu - функция принадлежности 1-го нечеткого символа строки
U, i=l, n, a F - учитывает возможность перестановки символов в строке, сравнение строк U=(ui,u2, u„) и V=(vi,v2, V|), где |1-п|<1, если п=1, то результат сравнения представляется в виде
R = V(nUi Лщ,^^ A(j,Vj, ,(iUn A(j.Vn),
где л - max, v - mm в нечеткой логике, в противном случае, если |1-п|=1, то операция сравнения повторяется при последовательном удалении сим-
вола из более длинной строки соответствующее число раз.
Зададим диапазон изменения Я 0<Я<1 Величину Я сравниваем с двумя пороговыми значениями Го - нижним и Ыо - верхним Если Л>Ко, то строки считаются совпадающими, если 115 г0, то несовпадающими, если г0<Я<К0, то принятие решения требует дополнительной информации Пороговые значения Го и определяются, исходя из особенностей конкретной ББД, и корректируются по мере накопления статистики
Предложенный метод эффективен не только для символьных ошибок, но и для структурных Применим он и для ошибок, возникающих в БЗ при ретроконверсии
В третьем подразделе предложен метод автоматизированного индексирования на основе морфологического анализа текста, а также объединения разных элементов записи Включаемый в словарь мультитерм образуется не более, чем из 4-х слов включаемых классов Чаще всего это характерная для заголовочных данных пара субстантивированное прилагательное + существительное Глаголы, как правило, относятся к неинформативной лексике
Характерной особенностью предлагаемого метода индексирования является использование модели самоорганизующихся данных При этом все выбранные при индексировании решения пополняют словарь дескрипторов и используются при автоматическом индексировании В словаре дескрипторов хранятся основы слов с возможными вариантами окончаний
Также используются методы лингвистического и статистического анализа текста для определения частотных характеристик терминов, их совместной встречаемости, определения неинформативной лексики Необходимым элементом является определение распределения частот терминов по их длине Эта информация позволяет принять решение о количестве уровней в йпе-дереве с целью оптимизации хранения данных
Таким образом, в четвертой главе проанализированы и классифицированы основные задачи, возникающие при разработке методов коррекции ошибок Рассмотрены традиционно используемые методы поиска и коррекции ошибок, выявлены их недостатки В частности, показана ог-
раниченность применения широко используемых методов п-грамм и словарных методов Определено значение процедуры сравнения строк как основы разработки методов поиска с учетом наличия ошибок
Разработан метод сравнения строк и коррекции ошибок на основе нечеткой логики, позволяющий на основе единого подхода выявлять и устранять символьные и структурные ошибки различного происхождения в библиографических записях Его преимущество в том, что он может быть использован при организации сравнения любых структурированных данных Кроме этого, разработан метод индексирования БЗ унитермами и мультитермами, основанный на синтаксическом анализе в автоматическом и автоматизированном режимах, позволяющий существенно сократить объем ручного индексирования ББД
В пятой главе диссертационной работы описаны средства создания электронного каталога, разработанные на основе выработанных ранее положений
Первый подраздел посвящен выбору оптимальной структуры инвертированного файла Качество инвертированного файла как основы эффективного поиска в БД несомненно играет важную, если не основную, роль С целью совершенствования поисковых средств ЭК предлагается расширить использование инвертированного файла для индексирования БЗ
После определения основных требований к инвертированному файлу предлагается структура его записи, обеспечивающая представительность, минимизацию размера, семантическую определенность, муль-тибазовость и гибкость При этом для организации эффективного поиска в инвертированном массиве предлагается использовать усовершенствованную технологию 1пе-деревьев
Таким образом, предложенная структура, учитывающая мультиба-зовость ЭК, а также возможность индексирования длинными терминами с использованием словарей и тезаурусов придает новые свойства инвертированному файлу Для создания и обслуживания инвертированных файлов предложенного формата разработана компьютерная программа УейпуеЛ, описанная далее в подразделе Поиск в ББД с использованием
инвертированного файла такого формата обеспечивает поисковый интерфейс БАН - компьютерная программа VerSearch
Во втором подразделе описывается методика поиска дублетных записей При создании и накоплении в библиотечном ЭК информации из разных источников в ней появляются дублетные БЗ, то есть записи, описывающие одно и то же издание Таким образом, необходимо определить, являются ли записи дублетами или нет, учитывая возможные различия в описании Предлагается при определении дублетов использовать метод нечеткого сравнения строк с учетом возможных ошибок
Поскольку метод нечеткого сравнения на множестве полей достаточно трудоемок, то предварительно следует использовать более быстрый метод - сравнение по сигнатуре Под сигнатурой записи (поля) понимается строка, однозначно отражающая содержание записи (поля), но значительно меньшая по размеру, которая строится различными способами, описанными в подразделе Сравнение полей с перестановками сигнатур подполей позволяет учесть возможные ошибки ввода информации В сомнительных случаях окончательное решение остается за пользователем, который должен получить возможность визуального контроля записей
Третий подраздел описывает разработанный пользовательский интерфейс создания БЗ На основе требований, выработанных в главе 2, разработаны компьютерные программные комплексы создания БЗ и управления ББД Verlsis и VerlsWm, предназначенные для создания и обслуживания библиографических баз данных в формате CDS ISIS с использованием как стандартных форматов ввода (* fmt), так и новых форматов ввода (* vmt) Программные комплексы содержат набор различных функций, предназначенных для повышения качества создаваемой ББД и для обеспечения пользователя средствами поиска, контекстной замены, сортировки, импорта и экспорта данных в разных форматах, реорганизации и слияния баз данных, создания и корректировки рабочих листов ввода и сортировки Записи ББД могут отображаться и редактироваться множеством различных способов Созданный таким образом формат ввода позволяет полностью учесть индивидуальные запросы пользователей Также в
программном комплексе реализована функция поиска и автоматической коррекции ошибок на основе предложенных ранее методов
Четвертый подраздел описывает методику конверсии внешних ББД Большие массивы библиографических данных распространяются на различных носителях, преимущественно на CD и DYD носителях Использование их напрямую, в силу различия форматов, не представляется возможным Чтобы избежать ручного ввода БЗ, для создания массива записей использовался CD-ROM ULRICH в текстовом формате с разметкой тэгами USMARC Для конвертирования запйсей в формат UNIMARC и, затем, формирования ББД в формате CDS/ISIS создана методика конверсии внешних баз данных для создания электронного каталога, и на ее основе разработана компьютерная программа IsisUlr При конвертировании осуществлялся не только перенос данных, но и декодирование информации, присутствовавшей в исходных записях в кодированном виде, или, наоборот, кодирование отдельных данных, в отдельных случаях замена системы кодирования, а также частичная замена английских выражений русскими эквивалентами Описанная в подразделе методика может быть распространена и на другие источники данных
Для эффективной работы с созданным ЭК журнальных изданий потребовался специфический интерфейс Journlnt, разработанный как отдельная библиотека подпрограмм для программы Verlsis и использующий технологию Ше-деревьев, что дает заметное увеличение скорости доступа
Описаны также программные интерфейсы обработки данных, реализованные в компьютерных программах Verlndex и Verlnvert Эти программы ориентированы на квалифицированного пользователя, что учитывается в разработанных интерфейсах Программа Verlndex позволяет исследовать частотные характеристики терминов, строить распределения частот по терминам, по длине, по объему (суммарное число символов в БД), по совместной встречаемости в различных структурных единицах БЗ (подполе, поле, запись), исследовать контекст терминов и получать словари унитермов и мультитермов, используемые для автоматизированного индексирования Процедура создания файла мультитермов построена на
основе алгоритма морфологического и синтаксического анализа, описанного в главе 4 Процедуры индексирования и инвертирования, применяемые в Уег1пуег1, основаны на методах, описанных в 4 и 5 главах
Шестой подраздел посвящен описанию методики поиска ошибок и индексирования с использованием инвертированных файлов Метод нечеткого сравнения строк эффективно работает при поиске ошибок в инвертированном файле После поиска и устранения ошибок в инвертированном файле можно переходить к следующему этапу - оптимизации его состава на основе морфологического анализа и применения таблиц аск-рипторов-дескрипторов
Седьмой подраздел описывает методику организации поиска в электронном каталоге с учетом ошибок При поиске в ЭК эффективен предложенный ранее метод нечеткого сравнения строк Анализ поискового запроса позволяет получить один или несколько унитермов и мульти-термов, составляющих его Поиск сводится к определению множества точек входа для каждого элемента запроса и затем - выполнению логических операций над множествами точек входа, указанных в запросе
Восьмой подраздел описывает разработанный поисковый интерфейс Данный поисковый интерфейс был разработан для доступа к ЭК в локальной сети, но все примененные методы эффективны и при удаленном доступе
Поисковый интерфейс предназначен для организации доступа конечного пользователя к ЭК с использованием инвертированных файлов, созданных компьютерной программой УеЛпуей в описанном ранее формате Простота и естественность интерфейса обеспечивают овладение им пользователем, знакомым только с основами работы в \Уш<1<т8
В девятом подразделе описывается методика ор1 анизации доступа к ЭК с помощью ЭДЕВ-представления ББД При преобразовании ББД в систему \^еЬ-страниц следует решить несколько задач, которые эффективно можно решить только с помощью лингвистических и программных средств Для этого разработан метод структурированного представления ББД для локального и глобального доступа Выбрана 3-4 уровневая структура представления ББД, хорошо согласующаяся с современными
представлениями Анализ различных информационных ресурсов подтверждает этот выбор Трехуровневое представление ББД позволяет оптимально представить сотни тысяч записей, что перекрывает потребности многих ББД
Выбор той или иной системы указателей, в которые преобразуется ББД, определяется ее составом и размером, а также прогнозируемыми потребностями поиска Интерфейсы компьютерных программных комплексов VerWEB и VerCON позволяют с минимальными усилиями сформировать систему указателей
Таким образом, в главе 5 предложена структура инвертированного файла ББД, наиболее полно отвечающая потребностям информационного поиска в мультибазовом ЭК, позволяющая в полной мере использовать преимущества разработанного метода индексирования, а также наращивать поисковые массивы без текущего переинвертирования ББД, что облегчает сопровождение ББД Там же показано, что использование системы накопления НИЛ и автоматическое создание словаря терминов придает ЭК свойства самообучающейся системы и повышает эффективность поиска в инверсных файлах за счет сокращения их объемов и учета совместной встречаемости терминов
Предложена методика поиска дублетных записей в ЭК с учетом ошибок на основе разработанного метода сравнения строк, позволяющая устранить дублирование при импорте БЗ из внешних источников и слиянии ББД Использование этой методики позволяет намного эффективнее выявлять близкие по содержанию записи, что особенно актуально при корпоративной каталогизации
Предложена методика организации поиска в ЭК с учетом ошибок на основе разработанного метода сравнения строк, позволяющая уменьшить число потерянных вследствие ошибок записей и повысить эффективность поиска.
Предложена методика конверсии ББД на CD-ROM в ЭК с элементами автоматизированного перевода на русский язык, позволяющая сократить трудозатраты на формирование основы журнального ЭК, ускорить его создание и уменьшить число ошибок
Предложен метод структурированного представления ББД и реализующий его компьютерный программный комплекс ШШ-представления ББД, позволяющий получить доступ ко всему массиву записей ББД
Анализ результатов, полученных на основе апробации и внедрения программных средств, показал эффективность их использования при создании ЭК В частности, применение методики и программы конверсии внешних ББД позволило уменьшить объем первичного ввода при создании ББД сериальных изданий и за короткое время создать журнальные ЭК в БАН и ряде библиотек сети БАН
На основе теоретических положений диссертации разработаны интерфейсы программных средств, удовлетворяющие сформулированным требованиям и обеспечивающие ввод, оптимальное хранение и поиск в ЭК Результатом практической реализации разработанных в диссертации теоретических положений явились компьютерные программы и программные комплексы, обеспечивающих все технологические этапы создания ЭК Результаты экспериментальной проверки и внедрения методик и программ подтверждают правильность и достоверность результатов, полученных в диссертационной работе
В Заключении подводятся итоги исследования, даются основные выводы и обобщения, а также определяются направления дальнейшей разработки методов и средств создания ЭК
Основные теоретические и практические результаты проведенных исследований состоят в следующем.
1 Выявлены тенденции развития ЭК в России и за рубежом и определены основные характеристики электронных каталогов
2 Установлено, что в создании и развитии ЭК произошел переход от экстенсивных методов к интенсивным Показано, что существующие методы создания и эксплуатации ЭК не обладают необходимой эффективностью
3 Показано, что определение ЭК как метаинформационной системы позволяет расширить требования, предъявляемые к ЭК Разработаны теоретические основы электронного каталога, включающие
концепцию ЭК как метаинформационной системы, общие принципы
создания электронного каталога, модель жизненного цикла ЭК, принципы построения интерфейса ЭК
4 Предложена технология создания электронного каталога как метаинформационной системы, обеспечивающая выполнение требований, предъявляемых к нему, и включающая методы и средства создания ЭК
5 Показано, что дальнейшее совершенствование ЭК требует, прежде всего, развития лингвистического обеспечения и разработки соответствующих методов и средств
6 Определены направления развития лингвистического обеспечения, и, в частности, необходимость разработки методов создания и анализа БЗ, способствующих повышению качества работы ЭК при наличии ошибок различного вида
7 Рассмотрены методологические аспекты применения теории нечетких множеств и нечеткой логики при создании электронного каталога Показано, что использование нечеткой логики позволяет повысить эффективность ЭК
8 Теоретические результаты, полученные в работе, послужили основой для разработки комплекса компьютерных программных средств создания и ведения ЭК, включающего- программу конверсии БЗ из внешней ББД ЬгеХЛг,
- программу ввода спецификаций в ББД сериальных изданий вресШ,
- программы создания ЭК Уегкге и VerIsWm,
- программу индексирования ББД УегМех,
- программу инвертирования и индексирования ББД УейпуеЛ,
- поисковый интерфейс УегЗеагсЬ,
- программу .ГоигЫш ведения журнального ЭК и поиска в нем,
- программные комплексы УегСоп и УегЭД'еЬ для структурированного представления ПОБД в сети Интернет
Разработанные компьютерные программные средства обеспечивают все технологические этапы создания ЭК
9 На основе теоретических положений диссертации разработаны интерфейсы программных средств, удовлетворяющие сформулированным требованиям и обеспечивающие ввод, оптимальное хранение и
поиск в ЭК
10 Проведены экспериментальные исследования и внедрение методического и программного обеспечения процесса создания библиотечного электронного каталога. Применение разработанного методического и программного обеспечения позволило- уменьшить число ошибок при первичном вводе,
- наращивать поисковые массивы ЭК без текущего переинвертирования ББД, что облегчает сопровождение ББ Д,
- сократить объем инверсных файлов,
- устранить дублирование при импорте БЗ из внешних источников,
- уменьшить число потерянных записей,
- сократить трудозатраты на первичный ввод за счет конверсии ББД из внешних источников,
- существенно сократить объем ручного индексирования ББД,
- получить доступ ко всему массиву данных ЭК за счет структурированного представления ББД
Таким образом, разработанные методы и средства позволили повысить качество и эффективность создания и использования электронного каталога
11 Результаты экспериментальной проверки и внедрения методик и программ подтверждают правильность и достоверность теоретических положений диссертационной работы Разработанные программные средства внедрены в Библиотеке Академии наук и отделах-библиотеках БАН при научных учреждениях РАН, что подтверждается актами о внедрении
Приложения содержат описание основных положений нечеткой логики, способствующее пониманию основного текста работы, а также краткое описание стандартов жизненного цикла как основы результатов главы 2
Внедрение результатов работы Результаты диссертационного исследования внедрены в отделах Библиотеки РАН, в отделах-библиотеках институтов Санкт-Петербургского научного центра РАН при создании библиотечных ЭК, что подтверждено актами о внедрении про-
граммных средств
Содержание диссертационного исследования отражено в следующих основных публикациях автора
1 Вершинин МИ Электронный каталог проблемы и решения СПб Профессия, 2007 -232с
2 Вершинин М И Электронные каталоги создание и использование / М И Вершинин, JIП Вершинина // Электронные документы / науч ред Р С Гиляревский, Г Ф Гордукалова - СПб Профессия, 2007 -С 169-189
3 Вершинин М И , Колпакова Н В, Золотарев В М Разработка предметно-ориентированных информационных баз данных С 247-252 Научно-Технический Вестник СПбГУ ИТМО, Вып 13 Оптические технологии в фундаментальных и прикладных исследованиях -"Интеграция-2004" /Под ред В М Золотарева -СПб СПбГУ ИТМО, 2004,316с
4 Вершинин М И Библиографические базы данных проблема коррекции ошибок / М.И Вершинин// НТИ, 2005, сер 2, № 9, С 10-15
5 Вершинин МИ Проблемно-ориентированные базы данных представление в Интернет/М И Вершинин//НТИ, 2007, сер 1, № 3, С IIIS
6 Вершинин М И Совершенствование формата инвертированных файлов/МИ Вершинин//Науч итехн б-ки -2001 - № 6 - С 91-98.
7 Вершинин М И , Масевич А Ц / М И Вершинин, А Ц Масевич // Создание электронного каталога иностранных журналов БАН концепция, состояние дела, планы и перспективы - Науч и техн б-ки -2002 -№11 -С 74-90
8 Вершинин М И , Гроздилова ЛП, Немчинова А J1 Создание электронного каталога иностранных журналов библиотеки Зоологического института РАН подходы и реализация /МИ Вершинин, JIП Гроздилова, АЛ Немчинова //Науч итехн б-ки -2004 - № 6 - С 17-26
9 Вершинин М И Применение нечеткой логики в гуманитарных исследованиях /МИ Вершинин, JIП Вершинина // Методология исследовательской работы - СПб, 2000 - № 3 - С 19-27
10 Вершинин М И, Багажков А К, Всевиов JI М Археологическая литература стран СНГ в пространстве Сети подход и реализация / А К Багажков, М И Вершинин, JI М Всевиов // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса [Электронный ресурс], материалы конф — Электрон дан -М ГПНТБ России, 2005
11 Вершинин М И Технологический подход к созданию проблемно-ориентированных баз данных /МИ Вершинин //Современные пользователи автоматизированных информационно-библиотечных систем проблемы обслуживания, изучения, обучения Материалы 6-й и 7-й науч.-практ конф СПб, 2006 С 49-53
12 Вершинин М И К вопросу о ретроспективной конверсии карточных каталогов / МИ. Вершинин //Библиотеки и ассоциации в меняющемся мире новые технологии и новые формы сотрудничества Материалы междунар конф - Судак, 1999 - С 145-147
13 Вершинин М И О понятии «электронный каталог» / М И Вершинин // Библиотечное дело 2003 Гуманитарные и технол аспекты развития Тез докл Восьмой междунар науч конф - М, 2003. - С 112
14. Вершинин М.И, Вершинина JIП Программа Verlsis / М , ВНТИЦ, 50980000058, 1998
15 Вершинин МИ Программа создания и обслуживания мультибазо-вых инвертированных файлов "Verlnvert" / М, ВНТИЦ, 50200000181, 2000
16 Вершинин МИ Программа "VerSearch" - мультибазовый поисковый интерфейс / М, ВНТИЦ,50200000182,2000
17. Вершинин МИ Программа автоматизированного индексирования текстовых файлов и баз данных "Verlndex" / М , ВНТИЦ,50200000183, 2000
18 Вершинин МИ VerWEB - HTML-генератор для библиографических баз данных / М , ВНТИЦ, 50200200489,2002
19 Вершинин МИ, Вершинина Л П. Программа Verls Win / М, ВНТИЦ, 50200400220,2004
20 Вершинин М.И VerCON - лингвистический HTML конвертор для библиографических баз данных/ М , ВНТИЦ, 50200401169,2004
21 Вершинин МИ Verlnvert - программа создания и обслуживания мультибазовых инвертированных файлов // Компьютерные учебные программы и инновации. - 2001, №3 СЛ.
22 Вершинин М И VerSearch - мультибазовый поисковый интерфейс // Компьютерные учебные программы и инновации - 2001, №3 С 7-8
23 Вершинин М И Verlndex - программа автоматизированного индексирования текстовых файлов и баз данных // Компьютерные учебные программы и инновации. - 2001, №3 С 8
24 Вершинин М И VerWEB - HTML-генератор для библиографических баз данных // Компьютерные учебные программы и инновации -2003, №5 С 34-35
25 Вершинин М И, Вершинина Л П Программа Verls Win // Компьютерные учебные программы и инновации - 2005 - №3 -С 38
26 Вершинин М И. VerCON - лингвистический HTML конвертор для библиографических баз данных"// Компьютерные учебные программы и инновации. - 2005, №7.С 42.
Вершинин Михаил Иосифович
ТЕОРИЯ И МЕТОДОЛОГИЯ СОЗДАНИЯ ЭЛЕКТРОННОГО КАТАЛОГА В БИБЛИОТЕКЕ
Автореферат
Лицензия ЛР № 020308 от 14 02 97 Санитарно-эпидемиологическое заключение № 78.01.07.953.П 005641 11.03
от 21.11 2003 г.
Подписано в печать 22.02.08 Формат 60x84 1/16
Б кн.-журн. П.л. 2,0 Б л. 1,0 Изд-во СЗТУ
Тираж 100_Заказ 1831_
Северо-Западный государственный заочный технический университет Издательство СЗТУ, член Издательско-полиграфической ассоциации университетов России
191186, Санкт-Петербург, ул. Миллионная, д. 5
-
Похожие работы
- Комплексный подход к созданию ретроспективного электронного каталога научной библиотеки
- Лингвистическое обеспечение музейного электронного каталога
- Информационная система управления ресурсами в образовательных интернет-каталогах
- Ретроспективная конверсия карточных каталогов
- Система реальных каталогов областных библиотек РСФСР (теория и практика)