автореферат диссертации по документальной информации, 05.25.02, диссертация на тему:Разработка методов повышения эффективности информационных технологий в архивной отрасли
Автореферат диссертации по теме "Разработка методов повышения эффективности информационных технологий в архивной отрасли"
На правах рукописи
ЗАЛАЕВ Геннадий Захарович
РАЗРАБОТКА МЕТОДОВ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В АРХИВНОЙ ОТРАСЛИ
Специальность 05.25.02 -Документалистика, документоведение, архивоведение
Автореферат
диссертации на соискание ученой степени доктора технических наук
Москва 2005 г.
Работа выполнена в Российском государственном архиве научно-технической документации
Официальные оппоненты:
доктор технических наук, ст. научный сотрудник Устинов Виктор Александрович
доктор технических наук, профессор Костин Александр Львович
доктор технических наук, профессор Шрайберг Яков Леонидович
Ведущая организация:
Всероссийский институт научной и технической информации Российской академии наук
Защита диссертации состоится 15 июня 2005 г. в 14 час. на заседании диссертационного совета Д.212.198.02 в Российском государственном гуманитарном университете по адресу 125267, Москва, Миусская пл., д. 6 С диссертацией можно ознакомиться в библиотеке РГГУ.
Автореферат разослан 13 мая 2005 г.
диссертационного совета
Ученый секретарь
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность исследования.
В Концепции федеральной целевой программе «Развитие информатизации в России на период до 2010 года» информатизация рассматривается как процесс использования информационных технологий во всех сферах общественной жизни с целью реализации права граждан на получение различной информации, и в частности, на получение архивной ретроспективной информации, которая образует значительный по объему информационный потенциал.
В настоящее время архивная информация становится самостоятельным фактором социального и экономического развития общества. Возрастает ее роль в принятии решений в области политике и социальной сфере, в связи с тем, что обладание нужной информацией обеспечивает получение политических и экономических преимуществ.
В ситуации востребованности архивной информации при больших объемах ее хранения традиционные информационные технологии, сложившиеся в архивной отрасли теряют свою эффективность. В связи с этим требуются новые подходы х информатизации в архивах и разработки методов повышения эффективности информационных технологий в архивной отрасли.
Становление информатизации архивной информационной деятельности связано с исследовательской и практической работой целого ряда ученых и специалистов. Значительный вклад в применении информационных технологий в практику работы архивов внесли А. С. Шапошников, разработавший принципы построения АИПС на документы Архивного фонда, М.И. Пилипчук и А.Н. Балакирев, практические работы которых по цифровому копированию фонодокументов и фотодокументов имеют важное значение для создания современных фондов пользования и страхового копирования, В.А. Устинов, проведший целый ряд исследований по физико-химической сохранности современных носителей для хранения архивной информации, Г.А. Медведева, работы которой заложили основу автоматизации научно-справочного аппарата. При разработке методов информатизации архивных информационных
технологий необходимо было опираться на работы, проводимые в системе научно-технической информации (Р.С. Гиляревский, В.А. Цветкова, И.И. Родионов), в информационно-библиотечной отрасли (Я. Л. Шрайберг).
Целью работы является разработка методов повышения эффективности информационных технологий поиска и доступа к архивной информации.
Цель предполагает решение следующих задач:
- анализ состояния и тенденций развития информационных процессов в архивной отрасли;
- исследование свойств архивной информации;
- разработка метода индексирования архивных документов, на основе исследования лексики документов различных тематических комплексов;
- разработка лингвистических моделей образования многокомпонентных терминов;
- анализ процессов оцифровки различных видов архивных документов и теоретическое обоснование создания фондов пользования и обеспечения сохранности методами цифрового копирования;
- разработка метода расширения доступа к архивной информации на основе удаленного фонда пользования;
- разработка и апробация унифицированных технологических процессов обработки информации в электронных архивах, фондов пользования и фондов обеспечения сохранности на основе методов цифрового копирования архивных документов.
Методы исследования. Теоретические исследования основывались на изучение и обобщение научных публикаций по данной проблеме. Проанализированы труды отечественных и зарубежных ученых и практиков в области информатики, современных информационных технологий, оцифровки документов. При разработке математических моделей использовались научные положения, изложенные в работах В.В. Кульбы и И.И. Попова. Методологическую базу исследований составили методы информатики, теории графов, прикладной лингвистики, математической статистики.
Объект исследования - архивная отрасль России.
Предмет исследования - процессы развития информатизации архивной отрасли в условиях внедрения современных информационных технологий поиска и распространения архивной информации.
Экспериментальной базой для поведения исследований послужили тематические комплексы архивных документов из фондов РГАНТД, ГАРФ, РГАЭ, РГАКФД, РГИА, РГИА г. Москвы и РГИА г. Санкт-Петербурга.
Научная новизна выносимых на защиту положений диссертационной работы состоит в следующем:
1. Проведено исследование состояния и тенденций развития информатизации архивной отрасли, в результате которого сформулированы и обоснованы свойства архивной информации, разработана классификация электронных документов; выделены направления развития информационных технологий; на графовых представлениях информационных процессов в архивах проанализированы информационные технологии и показана эффективность использования фонда пользования с цифровыми копиями архивных документов.
2. Выявлены лексические факторы, влияющие на качество индексирования и информационного поиска архивных документов: характерное присутствие в лексике архивных документов идентификаторов, семантически значимых низкочастотных лексических единиц, устойчивых исторических словосочетаний, специфической синонимии.
3. Разработаны лингвистические модели образования многокомпонентных терминов характерных для лексики архивных документов.
4. Разработан метод автоматического индексирования архивных документов с использованием информационно-поискового тезауруса и свободного индексирования, который учитывает особенности лексики архивных документов.
5. Разработаны методы доступа к архивной информации на основе удаленного фонда пользования и фонда пользования с цифровыми копиями.
6. Разработан метод потенциально-пертинентных элементов для выделения смысловых элементов в потоке видеоинформации, позволяющий повысить качество информационного поиска в фонде пользования с цифровыми копиями видеодокументов за счет предоставления фрагментов видеодокумента отвечающих его информационной потребности.
Наиболее существенные научные результаты исследования, полученные лично автором и выносимые на защиту, состоят в следующем:
- результаты исследования лексики архивных документов: выводы о семантической значимости низкочастотных лексических единиц, характерном присутствии идентификаторов, устойчивых исторических словосочетаний, специфической синонимии;
- метод автоматического индексирования архивных документов с использованием информационно-поискового тезауруса и свободного индексирования;
- метод доступа к архивной информации на основе удаленного фонда пользования и фонда пользования с цифровыми копиями архивных документов;
- метод потенциально-пертинентных элементов для выделения смысловых элементов в потоке видеоинформации.
Практическая значимость исследования определяется реализацией разработанных методов и рекомендаций при разработке архивов электронных документов фонда пользования и фонда страхового копирования в РГАНТД, а также других архивов и организаций. Некоторые положения нашли отражения при проведении научно-исследовательского проекта «Разработка системы страхового копирования архивных документов и фондов пользования на основе современных информационных технологий», осуществляемого по Федеральной целевой программе «Развитие и сохранение культуры и искусства Российской Федерации» (подпрограмма «Развитие архивного дела»).
Результаты диссертационного исследования нашли отражение в учебных дисциплинах, прочитанных автором: в ИАИ РГГУ в курсе лекций «Электрон-
ные архивы и документы», в Российской академии государственной службы в курсе лекций и семинаров по теме «Электронные архивы».
Личный вклад автора выражается в исследовании, теоретическом обобщении и практическом внедрении результатов научных исследований и разработок, проводимых в течение многих лет как лично автором, так и под его руководством и при непосредственном участии. Автором лично проведены исследования состояния и тенденций развития информационных процессов в архивной отрасли; исследованы свойства лексики архивных документов различных тематических комплексов; разработаны метод автоматического индексирования архивных документов, метод доступа к архивной информации на основе удаленного фонда пользования и методы создания фонда пользования с цифровыми копиями архивной проектной документации, а также разработана классификация электронных документов.
Теоретическая значимость исследования. Разработанные методы повышения эффективности информационных технологий поиска и расширения доступа к архивной информации образуют научно-методическую платформу для перспективного развития исследований и разработок информационной деятельности архивов в области исследований проблем ввода информации, поиска документов и организации информационных массивов в электронных архивах, а также разработки информационной сети Федеральной архивной службы.
Апробация работы. Основные положения и результаты работы обсуждались на следующих семинарах, конференциях и симпозиумах: научная конференция «Роль государственных архивов в ускорении научно-технического прогресса» (МГИАИ, 1986 г.); вторая Всероссийская конференция «Архивоведение и источниковедение отечественной истории. Проблемы взаимодействия на современном этапе» (ВНИИДАД, 1996 г.); НТИ-96: Конференция с международным участием «Информационные продукты, процессы и технологии», (Москва, 1996 г.); НТИ-97: Конференция с международным участием «Информационные продукты, процессы и технологии» (Москва, 1997 г.); НТИ-99: 4-я международная конференция «Интеграция, Информационные технологии.
Телекоммуникации» (Москва, 1999 г.); НТИ 2000: 5-х международная конференция «Информационное общество. Информационные ресурсы и технологии. Телекоммуникации» (Москва, 2000 г.); Региональная научно-практическая конференция «Роль и значение автоматизированных технологий в деятельности архивных учреждений и перспективы их развития» (Пермь, 1996 г.); конференция «Электронные документы и архивы: теория и практика» (Москва, ВНИИДАД, 1999 г.); Научно-практическая конференция «Безопасность архивов и архивных фондов» (Москва, Росархив, РОИА, 1999 г.); VI Международная научно-практическая конференция «Документация в информационном обществе: электронное делопроизводство и электронный архив» (Москва, Росархив, ВНИИДАД, РОИА, 1999 г.); НТИ-2002 6-я международной конференции «Состояние и перспективы развития сектора архивной информации» (Москва, 2002); Научный семинар «Электронные архивы и документы» (Секция РОИА, Москва, 1998 г.); Круглый стол «Электронные документы и архивы: состояние и перспективы» (Москва, РОИА, 2001-2004 гг.); Научно-практическая конференция «Информационные технологии в архивном деле» (Москва, 2000 г.); УП Международная конференция «Крым 2001» (Судак, 2001 г.); DLM-FORUMA «European Citizens & Electronic Information: the memory ofthe Information Society» (Brussels, 1999 г.); Научно-технический совет РГАНТД (1999-2004 гг.).
Основные положения и результаты также были апробированы в учебном процессе ИАИ РГГУ в курсе лекций «Электронные архивы и документы» (1998-2004 гг.) и в учебном процессе РАГС в курсе лекций и семинаров по теме «Электронные архивы» (2004 г.).
Публикации. По теме диссертации опубликовано 45 научных работ.
Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, списка литературы из 240 наименования и 10 приложений, содержит 230 страниц основного текста, 52 рисунка, 33 таблицы и 96 страниц приложений.
СОДЕРЖАНИЕ РАБОТЫ
Первая глава посвящена анализу информационных процессов в архивной отрасли, исследованию свойств архивных информационных ресурсов, анализу проектов по оцифровке архивных документов и представлению архивами информации в сети Интернет, разработке классификации электронных документов, оценки эффективности информационных процессов в архивах.
Сектор архивной информации, в котором ведущую роль играют федеральные архивы, является частью информационной инфраструктуры России и содержит ретроспективную документальную информацию различною вида (научно-техническую, экономическую, социально-политическую и т.д.) на различных носителях (табл. 1).
Таблица 1
Распределение архивных документов по видам (Федеральные архивы)
Виддокумента Кол-во единиц хранения тыс.
Фото 1040
Аудио 27
Кино и видео 360
Микрофильмы 5200 кадров
МЛ ЭВМ 0,3
МЛ телеметрии 5,7
Лазерные компакт диски -0,5
Документы на бумажной основе 3600
Анализ представления федеральных архивов в сети Интернет проводился по следующим параметрам:
1. Наличие сайта.
2. Наличие раздела на сайте «Архивы России».
3. Характер представления информации (описательный, доступ к описаниям документов архива, доступ к цифровым копиям). Результаты анализа представлены в таблице 2.
Доступ к своим каталогам реализуют в режиме On line РГАНТД и РГАКФД. Доступ к цифровым копиям предоставляет один архив - РГАНТД. Характеристика On line доступа представлена в таблице 3.
Изучение позволило выделить следующие особенности документальных архивных информационных ресурсов: объемность, значимость и уникальность, рассредоточенность, политематичность, поливидовой характер, специфичность генерации, особенность лексики. Архивным документальным ресурсам свойственна органически связанная с ними метаинформация.
Таблица 2
Представления федеральных архивов в сети Интернет
№ п/д Наименование архвва Наличие сайта Раздел Hacaihe «Архивы России» Характер представления информации
Описательный Доступ в режиме on line ОД Доступ в режиме on line к цифровым копиям
1 ГАРФ + + +
2 РГАДА + +
3 РГИА + +
4 РГВИА + +
5 РГАВМФ + +
6 РГАЭ + +
7 РГАЛИ + +
8 РГВА + +
9 РГАНТД + + + + +
10 РГАФД + +
И РГИАДВ + +
12 РГАКФД + + +
13 РГАСПИ + + +
14 РГАНИ + +
Таблица 3
Характеристика Оп Нпе доступа
№ п/п Наименование архива Вид документов Объем каталога Объем массива цифровых копий Примечание
1 Российский государственный архив научно-технической документации фото 3000 ед. 3000 ед. Пополняется
кино 2000 ед. Пополняется
2 Российский государственный архив кинофотодокументов кино 25000 ед. Пополняется
Анализ основных информационных технологий в архивной отрасли позволяет выделить следующие направления в становлении и развитии автоматизации информационных процессов:
- автоматизированные информационно-поисковые системы и базы данных описаний архивных документов;
- автоматизированные архивные технологии различного назначения;
- учетные системы;
- разработка и размещение в сети Интернет сайтов архивов;
- оцифровка архивных документов.
В результате проведенного анализа выделено четыре вида электронных документов:
- документы на машинных носителях (ДМН);
- оцифрованные документы;
- современные электронные документы;
- продукты безбумажных технологий.
Класс оцифрованных документов был выделен в силу значения технологии оцифровки для развития информационных технологий в архивах.
В архивах как федеральных, так и крупных фирм намечаются тенденции к преобразованию традиционных документов в цифровую форму. Для фирм это связано, прежде всего, с удобством и экономичностью хранения и использова-
ния. Для федеральной архивной службы оцифровка архивных документов -это, прежде всего замена технологии микрофильмирования при страховом копировании особо ценных документов на современные экологически чистые информационные технологии создания страхового фонда архивных документов.
Для федеральных архивов оцифровка архивных документов - это создание современного фонда пользования и переход к новой модели информационного обслуживания.
Таким образом, оцифрованные документы, хотя и представляют собой копии традиционных документов, но начинают играть самостоятельную роль, приобретая самостоятельное значение в жизни общества.
Предложенная классификация электронных документов дает необходимое понимание комплекса проблем связанных с электронными документами: архивными, юридическими, сохранности, а также выработки концепций организации приема, хранения и обработки электронных документов.
На этапе анализа информационных технологий в архивах были решены задачи выделения процедур преобразования информационных элементов и анализа технологий обработки при решении задач информационного обслуживания в архивах.
Технологии решения каждой из п задач информационного обслуживания соответствует направленный граф где множество
вершин графа, которые отражают информационные элементы, -
множество процедур преобразования информационных элементов.
Доступ потребителей к архивным документам и их обслуживание отражены на графе рис. 1.
-—-( 6
Рис. 1. Доступ потребителей к архивным документам
Дуги /¡2 - процедура формулировки информационной потребности; /ц -процедура поиска информации по запросу; /и- процедура отбора по архивным номерам из архивохранилища документов соответствующих запросу; /к — процедура анализа и отбора пертинентных документов; - процедура копирования пертинентных документов отобранных пользователем; /ц- процедура отправке документов потребителю.
Вершины: 1 - информационная потребность; 2 - запрос, 3 - информация релевантная запросу: описание документов, архивные номера; 4 - оригиналы (архивные документы); 5 - пертинентные документы; 6 - копии архивных документов (пертинентных).
Анализ технологических процессов, представленных на графе (рис. 1) показывает, что отбор пертинентных документов возможен только после получения релевантных документов из хранилища и требует для большинства видов документов (фоно, кино, видео) специального оборудования. При введении в модель фонда пользования с цифровыми копиями и где: - время выполнения процедур при использовании фонда пользования с цифровыми копиями архивных документов. Примеры количественных характеристик релевантности и пертинентности для разных видов архивных документов приведены в таблице 4.
Таблица 4
Соотношение релевантных и пертинентных документов (по результатам информационного поиска в РГАНТД 1999-2000 гг.)
Вид документов Релевантные ДО Пертинентные (Р) % P/R
нтд 327 1 0,31
Фото 11887 401 3,37
Фоно 127 7 5,51
Видео 120 15 12,50
Кино 4100 567 13,83
ИТОГО 16561 991 5,98
Как показывает анализ, из пертинентных документов потребитель отбирает для своих нужд всего несколько документов: 1-5. Например, из 26 фотографий пертинентных запросу исследователь для публикации отобрал только две фотографии. Этот эффект является особенностью информационного обслуживания в архивах и отражается на графе (рис. 2).
Рис. 2. Граф формирования информационного обслуживания
Дуги: f\i - формулировка запроса; /¡з - информационный поиск; fa -просмотр релевантных документов и выбор пертинентных документов; j,¡5 -отбор пертинентных документов для использования.
Вершины: 1 - информационная потребность; 2 - поисковый образ документов; 3 - релевантные документы; 4 - пертинентные документы; 5 - используемые пертинентные документы.
Процедура, описываемая дугой fa для некоторых видов архивных документов, может быть достаточно трудоемкой. Например, для кинодокументов это просмотр материала из фонда пользования на VHS, работа за монтажным столом, закладка фрагментов.
Во второй главе проведены семантические и статистические исследования лексики тематических комплексов архивных документов (ТКАД) по истории освоения космического пространства, истории архитектуры и градостроительства, истории Октябрьской революции и установления Советской власти. Данные ТКАД охватывает широкую тематику и содержит поливидовые документы. В табл. 5 и 6 приведены результаты анализа лексического состава документов тематических комплексов.
Таблица 5
Состав лексических групп
ТКАД «История освоения космического пространства»
группы Лексические группы Содержите ко всей лексике (%) Содержите идентификаторов (%)
1 Научно-техническая лексика 72 2
2 Наименование экспериментов, приборов и т.д. 12 100
3 Персоналии 6 100
4 Наименование географических объектов 4 100
5 Общеупотребительная лексика 4 -
Таблица 6
Содержание идентификаторов в лексических группах ТКАД «История архитектуры и градостроительства»
>6 группы Лексическая группа Колмчестм идентификаторов {*/*)
1 Наименование архитектурных объектов подгруппы 1-16 подгруппы "Жилые здания" подгруппы "Участки" 83 100 100
2 Наименование улиц, частей кварталов 100
3 Персоналии 100
4 Организация и технологи« строительных работ, элементы строительных сооружений -
Проведенный анализ лексики документов ТКАД выявил следующие особенности:
1. В составе лексики более 70 % идентификаторов.
2. Архитектурные объекты, наименования улиц и частей города, географические названия находятся в историческом развитии. Например, Сухарева башня, построенная в 1692-1695 гг. как въездная башня Земляного города, в 1701 г. была надстроена и превращена в «Школу математических и навигационных наук», Фрунзенская набережная - Гагаринская набережная.
3. В документах существуют различные формы обозначения одного и того же объекта: МУЗЕЙ РУМЯНЦЕВСКИЙ -МУЗЕЙ ПУБЛИЧНЫЙ РУМЯНЦЕВСКИЙ.
4. Лексика документов содержит рад специфических омонимов: один и тот же термин может обозначать разные объекты. Например, термин ДОМ ЮСУПОВА может употребляться для обозначения разных объектов: дом Юсупова в Москве и дом Юсупова в Петербурге на нескольких улицах.
5. Вследствие того, что архивные документы создавались в разное время и в разных местах они содержат разночтения и неточности в наименованиях организаций, учреждений, воинских формирований и т.д.
6. Характерной особенностью архивных документов является наличие в них относительно большого количества (около 1,5 % для ТКАД «Документы Октябрьской революции») сокращений и аббревиатур.
7. Спецификой лексики комплекса является наличие в документах именных словосочетаний, которые не поддаются разбиению без искажения смысла:
- устойчивые исторические словосочетания (историзмы), например: ликвидация неграмотности; съезд советов.
- названия высших, центральных организаций, обществ, воинских подразделений, местных органов управлений.
Подобные лексические единицы обязательно должны быть зафиксированы в информационно-поисковом тезаурусе в неизменном виде.
Изучение парадигматических отношений в лексике документов ТКАД показало, что у лексических единиц рассмотренных предметных областей в полной мере развиты отношения синонимии, иерархии и ассоциации. Были выделены два класса синонимии: эквивалентность имманентная (лексические синонимы, полное наименование и принятое сокращение, грамматические варианты лексических единиц) и эквивалентность факультативная (контекстуальная условная эквивалентность, например Гагаринская набережная - Фрунзенская набережная).
Гистограммы распределения частот употребления лексических единиц при индексировании различных видов архивных документов (рис. 3, 4, 5, 6, 7) дают наглядное представление о количественном соотношении дескрипторов с
различными частотами употребления. При этом отчетливо выделяются группы дескрипторов, имеющих одинаковую частоту.
Анализ гистограмм позволяет выделить две области в лексике документов каждого тематического комплекса. Первая область (ядро) содержит высокочастотные и низкочастотные дескрипторы с вторая - дескрипторы с единичной частотой. Статистический анализ показывает, что количество одно-частотных дескрипторов достаточно велико и составляет около 45 % всех дескрипторов ТКАД «Документы Октябрьской революции», 35 % дескрипторов ТКАД «История архитектуры и градостроительства» и 27 % дескрипторов ТКАД «История освоения космического пространства». Семантический анализ показывает, что эти дескрипторы несут значительную смысловую нагрузку в текстах архивных документах. Например, персоналии, наименования архитектурных объектов, названия приборов и экспериментов и т.д. Таким образом, одночастотные дескрипторы играют значительную роль в лексике архивных документов.
В прикладной лингвистике к низкочастотным лексическим единицам относят и лексические единицы с , хотя они в ряде случаев представляют собой пограничные явления. С учетом средней встречаемости лексических единиц (20-84) по фондам тематических комплексов архивных документов, становится ясно, что дескрипторы с частотами f— 1 и/=2 представляют собой с точки зрения употребления окказиональные лексические единицы. При свободном индексировании для подготовки информационно-поискового тезауруса обычно получается такая же картина, причем практически принято считать, что одно-частотные лексические единицы явно случайные, двухчастотные большей частью случайные и только как минимум трехчастотные (обычно дескрипторы с /—5, в некоторых системах с /= 10) единицы рассматриваются как объект обязательной оценки на предмет включения в ИПТ.
Рис. 3. Распределение частот употребления лексических единиц для ТКАД «История архитектуры и градостроительства»
Рис. 4. Распределение частот употребления лексических единиц для ТКАД «История освоения космического пространства»
Таким образом, можно выделить низкочастотную лексику, для которой /<= 2 и которая составляет: для ТКАД «История освоения космического пространства» - 40 %, для ТКАД «Документы Октябрьской революции» - 59 %, для ТКАД «История архитектуры и градостроительства» -51 %.
Следовательно, можно сделать вывод о специфичности лексики архивных документов, которая обычно отражается в автоматизированных информационно-поисковых системах как случайная (оказиональная), играет настолько важную роль, что отбрасывание ее не позволит идентифицировать ряд документов, а требования на точность и полноту поиска предусматривает выдачу конкретных документов (а не классов, как в АИПС системы научно-технической информации). В общем случае разница между выдачей индивидуального, конкретного документа и класса документов, которая наблюдается в подходе к информационному поиску и его стратегии в архивах, является одной из черт, приближающей АИПС на архивные документы к фактографическим информационным системам.
Частотные распределения лексических единиц для различных видов архивных документов представлены на рис. 5,6 и 7. Величина выборки составляет 1000 лексических единиц для каждого вида документов.
Рис. 5. Частотное распределение лексических единиц (фотодокументы
123456789 10
Частота «стрсчасмосги
Рис. 6. Частотное распределение лексических единиц (кинодокументы)
12 3 4 5 6 7 8 9 10 20 30
Частот» влречаеашсти
Рис. 7. Частотное распределение лексических единиц (фонодокументы)
Таким образом, соотношение низкочастотной лексики и ядерной лексики примерно одинаковое. Низкочастотная лексика составляет: для фонодокумен-тов - 47,8 %; для фотодокументов - 40 %; для кинодокументов - 57,6 %.
Статистические исследования появления низкочастотных дескрипторов во входном потоке АИПС «История освоения космического пространства» показывает, что для низкочастотных идентификаторов характерна тенденция к симультанному появлению во входном потоке.
Особенно резко эта тенденция проявляется у лексических единиц с 2, что подтверждает окказиональный характер таких лексических единиц, поскольку совместная встречаемость в одной партии документов является для них своеобразным контекстом, в котором реализуется их специфика. Если для ока-зиональности необходимо единство контекста (оказиональность конструирует-
ся единством контекста), то такое единство проявляется в уникальности партии документов, в пределах которой лежит вся частотность таких единиц. Данный эффект можно объяснить систематизацией архивных документов по фондам и внутри фонда по делам, т.е. в автоматизированную обработку документы поступают в сгруппированном виде.
Необходимость отражения в поисковом образе документа лексики ока-зиональной группы требует свободного индексирования. Анализ парадигматических отношений в лексике документов ТКАД показывает необходимость использования ИПТ для отражения в поисковых образах документов лексики ядерной группы.
Исследования многокомпонентных лексических единиц в документах ТКАД показало, что двухкомпонентные лексические единицы (61 %) играют существенную роль при отражении смыслового содержания архивных документов (рис. 8).
Необходимо отметить, что, применяя процедуру компрессии, можно заменить некоторые модели многокомпонентных лексических единиц двухком-понентными. Так, например, в модели ИсИтИр (сварка с помощью лазера) второй элемент не является необходимым и модель может быть заменена моделью ЫЫт (сварка лазером). Модель МпоШМр (расчет по методу Монте-Карло) может быть заменена на модель ИИр (метод Монте-Карло).
Исследование образования словосочетаний, характерных для лексики архивных документов, позволило разработать и проанализировать лингвистические модели образования двухкомпонентных терминов в лексике документов ТКАД: А N А (Л)Ы, ЫЫр^Ыт^Щ, ЫрЫ.
«м-
I
Рис. 8. Соотношения многокомпонентных терминов в комплексе ИПТ
"■""■"""^ ТКАД «Документы Октябрьской революции»
-ТКАД «История архитектуры и градостроительства»
— - - — - ТКАД «История освоения космического пространства»
Третья глава посвящена разработке и оценке эффективности методов автоматического индексирования архивных документов, учитывающих свойства и особенности лексики архивных документов.
Для решения задач идентификации понятий и анализ неидентифициро-ванных словоформ воспользуемся графовой формализацией модели линейной системы уровней (ЛСУ) перехода от естественного языка к ИПЯ.
В основу ЛСУ положена трансформация элементов представления смысла ^ = ¥(С), где ¥ - процедура трансформации, С - элементы представления смысла. Каждая такая трансформация определяет уровень представления. Мо-
дель допускает также преобразования в пределах одного уровня. Рассмотрим графовую формализацию модели. Модель ЛСУ представляется ориентированным графом О - (¥, Г), где ¥- множество вершин графа, а Г- отображение ¥ в ¥.
Вершинам графа О соответствуют процедуры, а дугам - связи между процедурами.
Рассмотрим построение некоторой процедуры ,Рт безотносительно уровня детализации модели системы автоматического индексирования.
Пусть Л^ е|я,;к = 1, - операторы, которые необходимо выполнить для преобразования элементов представления смысла С\ в элементы представления смысла С2в пределах одного уровня; /е{/ = 1, /„} — средства, которые могут быть использованы для реализации операторов е {?и;Л,/ = 1, — по-
рядки, определяющие возможные последовательности выполнения операторов и при преобразовании
Процедура С, -*Сг будет однозначно определенной, если фиксированы: набор операторов , необходимый и достаточный для осуществления преобразования ; множество средств , необходимых и достаточных для реализации всех операторов (каждое средство ? закреплено за конкретным оператором Л* ); некоторый порядок ; в котором должны быть реализованы все операторы средствами г е {*
Таким образом, процедура е ({«, }г{1 где ^ = ; » = 1,^}
— множество допустимых вариантов процедур преобразования
Допустимость различных вариантов процедур определяется ограни -чениями на показатели качества (стоимость разработки, время разработки, стоимость эксплуатации и т.д.) и свойствами среды существования системы. Для системы автоматического индексирования документов ТКАД такой средой является АИПС на архивные документы.
Вследствие требования единой технологии и единого математического обеспечения
Эти требования являются корректными, т.к. лексика документов ТКАД имеет одинаковые свойства. Следовательно,
Используя графовую формализацию ЛСУ, можно представить систему автоматического индексирования с идентификацией по ИПТ в виде графа (рис. 9).
Рис. 9. Граф связей процедур АИД при использовании ИПТ
где ^ — процедура ввода текстов; :Г->Г = (5^} — процедура графического анализа. — словоформа, 1 = 1 ,/„ — номер словоформы в предложении, — номер предложения в тексте; — процедура семантической фильтрации; — процедура морфологического анализа. — префикс, —корень, —словообразовательный суффикс, — словоизменительный суффикс; — окончание, — возвратная частица; Fs — процедура идентификации по ИПТ; р(, — процедура формирования ПОД.
Использование ИПТ для идентификации смысловых единиц имеет следующие особенности: встретившиеся в тексте информационные термины, которые не зафиксированы в ИПТ системы, не включаются в поисковый образ документа. Для обработки документов ТКАД, которые содержат, как было установлено до 50% идентификаторов с единичной или низкой частотой ветре-
чаемости и которые появляются во входном потоке для информационной обработки в сгруппированном виде, этот фактор имеет существенное значение, т.к. приводит к потере информации при поиске.
Данное положение приводит к необходимости включения в модель процедуры анализа неидентифицированных словоформ.
Данную процедуру можно рассматривать как процедуру непосредственного включения неидентифицированных словоформ в поисковый образ документа (ПОД). В этом случае мы будем иметь синонимию лексических единиц, вызванную флексиями. Для устранения этого явления вводим процедуру нормализации неидентифицированных словоформ. Для нормализации используется морфологическая информация, полученная в результате выполнения процедуры /*4.
В лексике архивных документов важную роль играют словосочетания. В связи с этим для повышения качества поиска за счет снижения информационного шума вводится процедура синтеза многословных терминов (рис. 10). На этом рисунке: F^ — процедура ввода; — процедура графического анализа текста; — процедура семантической фильтрации; F^ — процедура морфологического анализа; — процедура идентификации по ИПТ; — процедура нормализация словоформы; — процедура синтеза многословных терминов; — процедура формирования ПОД.
Рис. 10. Граф связей процедур АИД с идентификацией по ИПТ, нормализацией и синтезом неидентифицированных словоформ
В принципе возможен непосредственный переход от процедуры к процедуре ¥%.
В этом случае элементы можно использовать в качестве лексических единиц ИПЯ, т.е. мы приходим к информационно-поисковому языку на базе ключевых слов с чистой координацией. Однако поисковые характеристики (точность, полнота) системы будут низкими из-за отсутствия явного выражения парадигматических отношений, омонимии и полисемии ключевых слов.
Так же неэффективен непосредственный переход от процедуры к процедуре Р%. Это связано с тем, что процедурой Р* (морфологический уровень) устраняется только синонимия лексических элементов, отличающихся своими флексиями окончаниями, и не разрешается проблема установления парадигматических отношений, учет которых повышает качество информационного поиска, например, за счет синонимии лексических единиц часто устанавливаю -щейся в результате исторического исследования, и не всегда широко известной.
Задача идентификации заключается в сравнении понятия Р текста с понятием Р,, зафиксированным в ИПТ. Определим понятие как кортеж связанных по смыслу словоформ Понятие считается идентифицированным, если все Ь, ($ = 1, к ) выражающие Р, содержатся среди смысловых эквивалентов , выражающих , и схемы связей между словоформами и вР и совпадают.
Будем рассматривать Р как информационный профиль (сообщение), а
как информационный массив (совокупность сообщений). Очевидно, что непосредственное сравнение Р и Рт невозможно, т.к. в тексте понятия не присутствуют в явном виде, а выражаются через свои словоформы . Тогда задача идентификации состоит в разработке метода поиска (структуры файлов и стратегии поиска) сообщений Р в информационном массиве на основе сочетания (1*1,1,2, ... Ь/) ~(Ь,\,1Ц2> ... Ь,к) и решается на основе создания вторичной информационной совокупности.
Задача нормализации формулируется как Ры 5( где 5* - слово-
форма в канонизированном (нормальном) виде; Т^ - процедура нормализации. Канонические представления для различных грамматических категорий достаточно хорошо изучены и определяются значения морфологических переменных
Качественная оценка эффективности разработанного метода на основе упрощенной модели коэффициента линейной корреляции, который отражает меру корреляции фактической и формальной релевантности, показала эффективность разработанного метода по сравнению с индексированием по ИПТ и свободным индексированием.
где: Я„р- коэффициент линейной корреляции; а* - мера истинной релевантности документа запросу оцениваемая потребителем; - степень формальной релевантности поискового образа документа и поискового профиля;
- математическое ожидание произведения случайных величин - дисперсии и ;
- математические ожидания величин и
Результаты экспериментальной оценки глубины индексирования приведены в таблице 7.
В главе четыре рассматриваются вопросы оценки соответствия (достоверности) цифровой копии оригиналу архивного документа.
Процесс оцифровки можно представить как преобразования
Р Р' Х-*У У-»Л"
где - множество параметров характеризующих оригинал;
- множество параметров характеризующих цифровую копию; - множество параметров характеризующих аналоговое воспроизведение цифровой копии.
Таблица 7
Оценка глубины индексирования
Наименование ТКАД Глубиняа индексирования
АИ РИ
ИПТ ИПТ ш кмзвдескрап-торы
Документы Октябрьской революции 3,8 54 4,6
История архитектуры и градостроительства 13 4,0
История освоешм космического пространства 17,1 18,5
Преобразование р ставит в соответствие каждому значению параметра х,-значение параметра у-,, р' - процесс перехода от цифрового представления архивного документа к аналоговому представлению. Задача сводится к оценке степени соответствия и Степень соответст-
вия характеризуется где
Декомпозиция р и р определяют набор процедур обеспечивающих выполнение Следовательно, можно представить ориентированным графом О = (V, Р) где V - вершины представляющие множества входных, выходных и промежуточных параметров; Р - множество дуг соответствующих множеству процедур преобразования
Процедуры преобразования реализуются техническими средствами, технологиями, персоналом. Для наших целей будем считать, что ошибки вызванные деятельностью персонала равны нулю. Анализ позволил выделить следующие процедуры: дискретизации, квантования, запись цифровой копии в виде файла, воспроизведение.
Архивный документ любого вида может быть представлен непрерывной математической функции трех переменных F(x, у, t), которая в каждой точке определяет свойства документа. Для фотодокументов, текстовых документов, графических документов t = 0 и моделирующая функция имеет вид F(х, у). Для фотодокументов моделирующая функция имеет вид F (t). Для кино и видеодокументов аргумент / меняется дискретно и, следовательно, моделирующая функция имеет вид F (х,у).
Процесс дискретизации функции F (х, у) представляет собой перемножение функции F (х, у) с дискретизирующей функцией S(x, у)
Функция S(x, у) состоит из бесконечного числа двумерных дельта-функций Дирака б(х, у) заданных в узлах решетки с шагом (Дт, Ду).
F(х, у) является финитной. Следовательно, функция F (х, у) может быть представлена в виде спектра изображения при применении Фурье-преобразования.
2(й\ aij) = ¡1F (х,у) exp{-i (a, x^y)}dxdy
где: (О» Оу- пространственные частоты.
Выбор шага дискретизации определяется на основании теоремы Котель-никова для сигнала и на основании критерия Найквиста для изображения. И определяется верхней граничной частотой спектра
для всех отражает некоторую идеализацию, так как
Фурье спектр реального сигнала за пределами интервала отличен от
нуля (более или менее быстро спадает). Интервал (-Д, Д) на практике выбирается из соображения требуемого для определенной цели соответствия цифровой
копии сигнала сигналу. Таким образом, оптимальным шаг дискретизации является только в рамках заданного отличия цифровой копии от оригинала.
Так как цели использования цифровой копии априорно неизвестны, то из группы целей необходимо выбрать цель, требующую максимально возможную характеристику. Можно привести следующие примеры целей:
1. Вывод изображения на дисплей.
2. Вывод изображения на устройство печати.
3. Вывод сигнала на прослушивающее устройство (прослушивание сигнала).
4. Запись сигнала на аналоговый носитель.
При квантовании происходит сравнение значений функции ¥(х, у) в точках дискретизации с набором пороговых значений и присвоение значения уровня квантования при попадании значения отсчета в соответствующий интервал пороговых значений, преобразование отсчетов, имеющих непрерывное множество значений, в отсчеты с дискретными значениями.
Ошибка квантования характеризует различие между значением отсчета/ и значением квантованного отсчета -и характеризуется величиной г^
Требование к точности процесса квантования задается необходимыми ограничениями на величину
При оптимальном положении уровня квантования ошиб-
ка квантования определяется соотношением
где: I- число уровней квантования, р(г) - плотность вероятности значений квантуемого отсчета.
В системах с цифровым кодированием число уровней квантования выбирается равным двоичному числу 3= 2Ь, где Ь - число разрядов.
Процесс восстановления изображения или сигнала заключается в получении непрерывного изображения (сигнала) по его цифровой копии и основан на интерполяции. При этом возникают ошибки связанные с тем, что в реальных восстанавливающих системах невозможно с абсолютной точностью выдержать шаг дискретизации между отдельными отсчетами. Изменения значения шага дискретизации также приводит к искажениям восстановленного изображения.
Следующая погрешность восстановления связана, во-первых, с «неидеальностью» частотной характеристикой восстанавливающего устройства. Во-вторых, восстановление непрерывного сигнала по его дискретному представлению не может быть точно реализовано на практике и производится линейным синтезатором, апертура которого отличается от требуемой апертуры. Это приводит к тому, что в спектр восстановленного сигнала попадают составляющие размноженного спектра сигнала. Если в сигнале имеется достаточно мощная компонента с частотой , то в восстановленном сигнале появится дополнительная компонента с частотой Это приводит к возникновению эффекта биения. На изображениях такие биения проявляются как муар.
Форматы, из-за своих внутренних свойств, оказывают влияние на соответствие цифровой копии оригиналу.
Анализ форматов файлов представления цифровых копий для различных видов документов позволяет разделить форматы файлов на две группы - форматы представления файлов с ухудшением качества, которые применяются с целью уменьшения размера файла, и форматы без ухудшения качества. Очевидно, что неправильный выбор формата может вызвать утрату части информации. Это не позволит полноценно использовать цифровые копии.
Таким образом, при выборе формата необходимо решить вопрос -для каких целей необходимо цифровать оригиналы, т.е. конечная цель применения цифровых копий архивных документов будет определять параметры оцифровки и формат записи цифровой копии в виде файла. Для архивов такими целями, прежде всего, являются создание фонда пользования или фонда обеспечения сохранности.
На основе цифровых копий своих документов архивы образуют два фонда: фонд обеспечения сохранности архивных документов (страховой фонд) и фонд пользования. Исходя из назначения фондов, можно сформулировать требования к цифровым копиям архивных документов, образующих эти фонды.
Основное требования к цифровым копиям страхового фонда - наиболее полное соответствие копии оригиналу.
Пятая глава посвящена разработке методов доступа к архивной информации на основе удаленного фонда пользования (УФП) и фонда пользования с цифровыми копиями (ФП ЦК) архивных документов. Метод доступа к архивной информации на основе УФП дает новое качественное решение одной из основных задач архивной отрасли - расширение доступа к архивным информационным ресурсам и продвижения информации о документах архива на рынке информационныхуслуг
Проблема создания удаленного фонда пользования на основе сети Интернет практически не затронута в отечественном и зарубежном архивоведении. Существующие публикации посвящены решению смежных задач или затрагивают данный вопрос с юридической точки зрения использования архивных документов в сети Интернет.
В соответствие с ГОСТ Р 51141-98 фонд пользования - совокупность копий архивных документов, предназначенных для использования вместо оригиналов с целью предотвращения их износа и традиционно фонд пользования территориально находится в помещении архива и доступ к нему возможен только при непосредственном контакте. Это создает определенные ограничения в использовании архивных документов.
Под удаленным фондом пользования будем понимать фонд пользования, размещенный в сети Интернет и содержащий следующие компоненты:
- электронный каталог (база данных);
- массив цифровых копий документов;
- система обработки заказов пользователей;
- управляющая процедура, связывающая все вышеуказанные компоненты в единую систему.
Метод доступа к архивной информации на основе УФП позволит повысить эффективность информационного обслуживания за счет:
1. Предоставления документов архива максимально широкому кругу исследователей.
2. Регулярного и оперативного введения в научный и общественный оборот неизвестных или неиспользованных исследователями документов.
3. Упрощения и ускорения процедуры поиска документов.
4. Предоставления услуг по поиску и работе с документами архива пользователям, находящимся на значительном расстоянии от архива.
5. Одновременной работы с цифровой копией документа практически неограниченного числа пользователей, что позволяет удовлетворить запросы наибольшего числа посетителей за наименее короткий срок.
Критериями приоритетности при формировании УФП являются:
1. Социально-политические и исторические значения документов.
2. Уникальность и особая ценность архивных документов.
3. Международное значение.
4. Интенсивность обращения документов к ТКДД.
5. Последние поступления в архив.
Задача формирования массива цифровых копий документов является наиболее трудоемкой и затратной. Анализ возможностей современных информационных технологий и их сопоставление с техническими и финансовыми возможностями архивов позволяет разработать следующую последовательность оцифровки различных видов архивных документов: фотодокументы; текстовые документы; фотодокументы; видеодокументы; кинодокументы. Разработанные методы формирования УФП применимы и для создания фондов пользования с цифровыми копиями аудиовизуальных документов.
Видеодокумент характеризуется большим объемом цифровой копии и смысловой многоаспектностью информации. С целью повышения эффективно-
ста информационного поиска в ФП ЦК видеодокументов был разработан метод выделения смысловых элементов в потоке видеоинформации - метод позиционирования потенциально-пертинентных элементов.
Пусть элементы видеоинформации отражающие воз-
можную пертинентность. Такие элементы мы будем называть потенциально-пертинентными элементами. Потенциально-пертинентный элемент - это информация априорно значимая для потребителя.
Так как видеоинформация передается потоком, то с, будет характеризоваться парой (7„ где - время начала появления с, в потоке видеоинформации, - время окончания появления в потоке видеоинформации, Пара однозначно выделяет в потоке видеоинформации и может быть использована для позиционирования потенциально-пертинентных элементов в потоке видеоинформации. Информация передается посредством языка и с, можно трактовать как элемент смысла. Следовательно, с{ может характеризоваться {к;, к,2, где является ключевым словом. Таким образом, и полно-
стью выделяют потенциально-пертинентный элемент в потоке видеоинформации.
Для стоп-кадра Количество стоп-кадров может варьироваться в
зависимости от продолжительности видеодокумента и их можно использовать для характеристики видеодокумента при формировании УФП.
Из приведенной формализации задачи выделения смысловых элементов в потоке видеоинформации следует, что для повышения эффективности информационного поиска в УФП с цифровыми копиями видеодокументов (а также аудиодокументов) необходимо проводить позиционирования пертинентной информации в видеопотоке. Одним из решений данной задачи является представление видео информационного потока в виде потенциально-пертинентных элементов. Потенциально-пертинентный элемент - это информация априорно значимая для потребителя. Например, для видеодокумента потенциально-пертинентным элементом может являться сюжет. Метод выделения потенци-ально-пертинентных элементов предполагает выделять потенциально-
пертинентные элементы на этапе ввода информации в базу данных ФП ЦК с использованием для идентификации потенциально-пертинентных элементов ключевых слов.
Метод доступа к архивной информации на основе фонда пользования с цифровыми копиями состоит в следующем. На дисках СБ - Я размещаются фонд пользования и страховой фонд. На жестком диске находится оперативный (рабочий) фонд. Фонд пользования и страховой фонд идентичны по своему составу и характеристикам цифровых копий. Для различных видов архивных документов ФП ЦК может иметь различие в структуре и методах формирования обусловленные особенностью вида. Для ФП ЦК проектной документации фонд пользования состоит из двух наборов дисков. Первый набор включает в себя цифровые копии исходной проектной документации, второй набор - изменения к проектной документации.
Оперативный фонд предназначен для организации эффективного доступа к архивной документации. Оперативный фонд предназначен для быстрого и удобного использования архивной документации. Информация содержится в баг<6 данных, обеспечивающей поиск и копирование требуемой для работы архивной документации.
Доступ к информации устанавливается на основании распоряжений администрации так же, как это делается для бумажных документов. Например, доступ к архивным документам из оперативного фонда осуществляется через администратора базы данных, который на основании распоряжений администрации определяет доступ каждому пользователю к той или иной информации.
Доступ к информации из страхового фонда осуществляется по специальному разрешению, когда необходимо восстановить утраченную по каким-то причинам информацию из рабочего фонда.
Такая организация системы доступа позволит исключить несанкционированный доступ к информации для служебного пользования.
Глава шесть посвящена разработке фондов пользования и электронных каталогов на основе разработанных методов.
Разработанные методы повышения качества информационного поиска и доступа к архивной информации были использованы при разработке фондов пользования с цифровыми копиями архивных документов, удаленного фонда пользования и системы Интернет-каталога видеодокументов: информационной системы с цифровыми копиями документов о жизни и деятельности канцлера Германии Й. Вирта; системы полнотекстовых документов «Фотографии Ю.А. Гагарина»; удаленного фонда пользования с цифровыми копиями фотодокументов по истории освоения космического пространства; системы интернет-каталога кинодокументов по истории освоения космического пространства.
Информационная система с цифровыми копиями документов о жизни и деятельности канцлера Германии Й. Вирта содержит массив цифровых копий документов и базу данных. База данных обеспечивает многоаспектный поиск и представление метаинформации.
При проектировании системы полнотекстовых документов «Фотографии Ю.А. Гагарина» был разработан метод связи массива цифровых копий документов и описаний документов через специальное поле базы данных. Это позволило просматривать цифровые копии в соответствии с релевантными описаниями документов для отбора пертинентной информации. База данных системы формировалась путем отбора необходимых описаний документов из АИПС «История освоения космического пространства)).
В соответствии с разработанными методами формирования УФП концепция отбора документов для удаленного фонда пользования фотодокументов предусматривала следующие этапы ввода документов:
1. Ввод и оцифровка особоценных документов.
2. Ввод и оцифровка документов, имеющих международное значение: о подготовке и реализации программы совместного экспериментального полета космических кораблей «Аполлон» и «Союз».
3. Ввод и оцифровка документов выбранных по описаниям из АИПС «История освоения космического пространства» начиная с первого за исключением отобранных на первых двух этапах.
Технология формирования массива цифровых копий документов представлена на рис. 11. Технология предусматривает 3 этапа. На первом этапе фотодокументы сканируются в формате TIFF с разрешением 680 dpi (таблица 8) . TIFF формат был выбран для того, чтобы исключить потери качества свойственные формату JPEG, Это позволяет максимально приблизить цифровую копию к оригиналу. При сканировании выдерживается следующее требование -максимальный размер по высоте или ширине для каждой цифровой копии устанавливается в 972 пиксели.
Таблица 8
Параметры сканирования
Назначение цифровой копии Максимальный размер по ширине или высоте, пиксели Разрешение, dpi Графический формат
Фонд обеспечения сохранности 972 680 TIFF
Фонд пользования 750 120 JPG
Интернет-каталог 300 72 JPG
На втором этапе полученные TIFF копии обрабатывались системой Photoshop для образования двух групп цифровых копий:
1. TIFF копии переводятся в формат JPEG с разрешением 120 dpi и размером 750 пикселей для наибольшей стороны фотодокумента (по высоте или ширине).
2. JPEG копии переводятся на разрешение 72 dpi с размером 300 пикселей по наибольшей стороне.
Формирование электронного каталога производилось следующим образом. Из базы данных АИПС «История освоения космического пространства» по запросу были отобраны описания документов соответствующие цифровым копиям. Затем эти описания были экспортированы в формат ISO 2709. И импор-
тированы из формата ISO 2709 в формат системы электронного интернет-каталога.
Вход в УФП фотодокументов через сайт РГАНТД или непосредственно по адресу http://rgantd.ni/elcatalog/photocat.htm
Рис. 11. Формирования фонда цифровых копий
Интернет-каталог кинодокументов по истории освоения космического пространства представляет собой дальнейшее развитие традиционного каталога и является первым этапом создания удаленного фонда пользования для кинодокументов, находящихся на государственном хранении в РГАНТД.
Данная система содержит описания кинодокументов по истории освоения космического пространства.
Данный каталог доступен пользователю по адресу http://rgantd.ru/ecfilm/catalog.htm и составлен с учетом специфики архива. При входе в каталог пользователю предлагается составить запрос (процедура его формирования подробно изложена в правом фрейме).
Формирование интернет-каталога кинодокументов проводилось по той же технологии, что и система каталога УФП фотодокументов.
Система интернет-каталога на кинодокументы позволила апробировать новой подход к распространению архивной информации базирующийся на сети Интернет.
Апробация разработанных методов в проектах рассмотренных выше позволяет сделать следующие рекомендации для проектирования фондов пользования и обеспечения сохранности.
1. При проектировании системы поиска для систем работающих с цифровыми копиями документов необходимо использовать базы данных, которые позволяют, во-первых, реализовывать многоаспектный поиск, во-вторых, отображать мета-информацию.
2. Для создания массива цифровых копий фотодокументов фонда обеспечения сохранности необходимо использовать формат TIFF, так как формат JPEG по своей природе является форматом «с ухудшением качества». Для цифровых копий фотодокументов фонда пользования возможно использования формата JPEG.
3. Для системы интернет-каталога необходимо использовать формат JPEG, как формат, упрощающий передачу файлов по сети.
4. Для организации фонда обеспечения сохранности необходимо использовать как можно большее разрешение, но при этом ограничивать размер файлов до 2 Мбайт. Для цифровых копий фотодокументов фонда пользования разрешение может составлять 300 dpi и выше.
5. После электронной реставрации или улучшении цифровой копии фотодокумента необходимо сохранять не реставрированное (улучшенное) изображение, которое будет являться подлинником. Реставрированное (улучшенное) изображение заносится в массив цифровых копий фонда пользования, подлинник записывается в массив цифровых копий фонда обеспечения сохранности.
6. При оцифровке фотодокументов необходим 100% контроль полученного изображения для оценки качества.
7. Массивы цифровых копий документов должны храниться в соответствии с требованиям, предъявляемым к температурно-влажностному и другим режимам хранения носителей на которых записаны массивы цифровых копий.
8. В связи с тем, что кардинальные изменения в развитии информационных технологиях происходят каждые 8-10 лет, необходимо отслеживать возможные изменения в форматах и конструкции оборудовании для своевременного перехода на качественно новые носители информации.
9. Дня обеспечения надежного функционирования системы необходимо создавать дублирующую копию информации для ее хранения в удаленном месте.
Заключение
В заключение приведены основные результаты и выводы, полученные в диссертационной работе.
1. Проведен анализ состояния и Тенденций развития информационных технологий в архивной отрасли. Выявлены свойства архивной информации.
Разработана классификация электронных документов, которая дает основу для решения комплекса проблем связанных с электронными документами: приема, хранения, обеспечения сохранности и использования. Выделен класс
оцифрованных документов и показано значение технологий оцифровки для развития информационных технологий в архивах.
2. Проведено исследование лексики архивных документов различных тематических комплексов. В результате исследования установлено, что для лексики архивных документов характерно присутствие идентификаторов, семантически значимых низкочастотных лексических единиц, устойчивых исторических словосочетаний - историзмов, специфической синонимии (эквивалентность имманентная и эквивалентность факультативная).
Семантический и статистический анализ лексики документов различных тематических комплексов позволил выделить в лексике архивных документов низкочастотную и ядерную области, которые оказывают влияние на эффективность применения методов индексирования архивных документов.
3. На основании проведенного исследования образования словосочетаний, характерных для лексики архивных документов, разработаны и проанализированы лингвистические модели образования многокомпонентных терминов в лексике архивных документов. Формализирована задача синтеза словосочетаний из неидентифицированных словоформ по разработанным лингвистическим моделям для автоматического индексирования архивных документов.
4. Выявлены и исследованы факторы, влияющие на качество автоматического индексирования архивных документов: неточные названия, разночтения в наименованиях организаций и учреждений, комиссий комитетов и персоналий, свойственные архивным документам.
5. На графовом представлении модели линейной системы уровней перехода от естественного языка к ИПЯ формализованы требования к процессам автоматического индексирования архивных документов. На графах проанализированы различные варианты процедур автоматического индексирования архивных документов, учитывающих особенности лексики архивных документов.
6. Разработан метод автоматического индексирования архивных документов на основе автоматического индексирования с использованием ИПТ и
свободного индексирования. Разработанный метод отражает особенности лексики архивных документов, состоящей из ядерной и окказиональной лексики.
7. Анализ применимости различных методов индексирования на базе использования меры корреляции фактической и формальной релевантности (коэффициента линейной корреляции) показал эффективность разработанного метода индексирования архивных документов различных тематических комплексов. Анализ показал, что при данном методе значение коэффициента линейной корреляции имеет наибольшее значение. Экспериментальная оценка разработанного метода автоматического индексирования показала его эффективность при информационном поиске.
8. Проведен анализ процессов оцифровки, квантования, воспроизведения, а также анализ форматов представления файлов цифровых копий. Дано теоретическое обоснование применения методов цифрового копирования для архивных документов.
Проведенный анализ показал, что при цифровом копировании архивного документа вносятся определенные искажения. Показано, что выбор параметров цифрового копирования и формата представления цифровой копии определяется предполагаемыми целями использования данной цифровой копии.
9. Разработаны методы доступа к архивной информации на основе удаленного фонда пользования и фонда пользования с цифровыми копиями. На основании разработанной формализации задачи анализа информационных технологий в архивах показана эффективность применения предложенных методов для информационного обслуживания в архивах.
10. Разработанный метод потенциально-пертинентных элементов для выделения смысловых элементов в потоке видеоинформации позволяет повысить качество информационного поиска в фонде пользования с цифровыми копиями видеодокументов за счет предоставления пользователю фрагментов видеодокумента отвечающих его информационной потребности.
11. Разработаны технологические процессы формирования удаленного фонда пользования и фонда пользования с цифровыми копиями архивных документов.
12. Сформулированы рекомендации по оцифровке архивных документов для фондов пользования и страхового копирования.
13. Разработанные методы прошли апробацию при проектировании систем: информационной системы с цифровыми копиями документов о жизни и деятельности канцлера Германии Й. Вирта; системы полнотекстовых документов «Фотографии Ю.А. Гагарина»; удаленного фонда пользования с цифровыми копиями фотодокументов по истории освоения космического пространства; системы интернет-каталога кинодокументов.
Основные положения диссертации отражены в следующих публикациях автора:
1. Автоматизированные информационно-поисковые системы в архивах: Методическое пособие. М.: Главархив, 1985. 150 с. - В соавт. с Армадеровой Г.Б., Епа-нешниковой Е.К., Корюкиной Р.Д., Медведевой ГЛ., Михайловым О А.
2. Основные тенденции развития автоматизированных информационно-поисковых систем в архивах: Аналитический обзор. М.: Главархив СССР, 1988. 33 с. - В соавт. с Армадеровой Г.Б.
3. Информационный рынок в России. М.: ВИНИТИ, 1996. 294 с. В соавт. с Ар-ским Ю.М., Гиляревским Р.С., Егоровым B.C. и др.
4. Современная информатика: наука, технология, деятельность. М.: ВИНИТИ. 1998. 220 с. - В соавт. Гиляревским Р.С., Родионовым И.И., Цветковой ВЛ.
5. Об опыте автоматизации индексирования документов и требованиях к системе автоиндсксироаания для АСНТИС. // НТИ в строительстве. М.: ВНИИИС, 1985. Сер. 15. Вып. 5.12 с. - В соавт. Гриневым СВ.
6. Анализ соответствия цифровой копии архивного документа оригиналу // Техника кино и телевидения. 2003. № 12. С. 43-44.
7. Проект по созданию Интернет-каталогов архивных кино- и фотодокументов.// Техника кино и телевидения. 2003. № 11. С. 42-45.
8. Современные принципы хранения и распространения архивной информации // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества. Труды 8-й Международной конференции «Крым 2001» М.: ГПНТБ, 2001 г.
9. Автоматизации процессов индексирования документов в тематических комплексах ГАФ СССР. Автореферат диссертации. М.: МГИАИ, 1988.
10. Автоматическое индексирование документов Государственного архивного фонда СССР. Автоматизированные системы в архивном деле. М.: НИЦТД СССР, 1984.
11. Анализ и классификация электронных документов // Вестник архивиста, 1999. № 2-3 (50-51). С. 60-69.
12. Влияние информационных технологий на безопасность архивных документов // Научно-практическая конференция «Безопасность архивов и архивных фондов». М.: РОИА, 1999.
13. Вопросы формирования электронных архивов и использования электронных документов // VI Международная научно-практическая конференция «Документация в информационном обществе: электронное делопроизводство и электронный архив». М.: ВНИИДАД, 1999.
14. Интегральная автоматизированная информационно-поисковая система по архивным документам // НТИ. Сер.2. ВИНИТИ. 1985. № 9. С. 8-11. - В соавт. Медведевой ГА., Шапошниковым А. С.
15. Некоторые вопросы создания электронных архивов. // Доклады и тезисы выступлений на третьей Всероссийской конференции. 25-26 февраля, 1999. М: Научная книга, 1999. С. 258-261.
16. Один из подходов к автоматическому индексированию архивных документов ГАФ СССР. // Информационно-документационные проблемы ускорения научно-технического прогресса. М: МГИАИ, 1988.
17. Современные принципы хранения архивной информации // Материалы Всероссийского заочного семинара работников архивных учреждений по проблемам обеспечения сохранности документов. М.: Росархив, 1999. С. 128.
18. Современные принципы хранения и распространения архивной информации // Вестник архивиста, 2000. № 5-6 (59-60). С. 85-87.
19. Состояние и перспективы развития сектора архивной информации // Материалы 6-й международной конференции «НТИ-2002». М-, 2002. С. 145
20. Удаленный фонд пользования на основе Интернет-каталогов // Вестник архивиста. 2004. № 3-4 (81-82). С. 54-60.
21. Концепция удаленного фонда пользования на основе цифрового копирования. // Технотронные архивы в современном обществе: наука, образование, наследие. Материалы научно-практической конференции, посвященной 10-летию факультета технотронных документов. РГТУ. 2004. С. 106-108.
22. Архивы и Интернет // Отечественные архивы. 2002. № 2. С. 42-50. В соавт. с Бобровой Е.В.
23. Как создать и поддерживать сайт в Интернет // Отечественные архивы. 2002, № 4. С. 90-95. В соавт. с Бобровой Е.В.
24. Проектирование баз данных по киноинформации. // Материалы Международной конференции «Информационные продукты, процессы и технологии». ВИНИТИ. 19%. С. 133. В соавт. с Бочковым О.М., Медведевым В.М., Шапошниковым А.С.
25. Фактографический поиск на базе ППП АИДОС // Совершенствование АИПС на тематические комплексы архивных документов. Сб. науч. трудов. М.: Главархив СССР, 1980. С. 21-28. В соавт. с Гурко Л.Н.
26. Возможности ППП АИДОС для обработки научно-технический информации в области строительства // НТИ в строительстве, М.: ВНИИИС, 1984. Сер. 15. Вып. 2. С. 12. В соавт. с Ивановым Ю.П., Русевым АЛ.
27. Создание экспериментального массива полнотекстовых копий на оптических дисках // Оптические диски и их использование в архивах. М.: РНИЦКД. 1993. С. 42- 70. В соавт. с Медведевой ГА., Ржевкиным В.Р., Шапошниковым А.С.
28. Проблемы и метод автоматического индексирования архивных документов // Актуальные направления исследований в научно-технической информации. М.: МГИАИ, 1985. С. 193-197. В соавт. с Никитиным П.И.
29. Диалоговая система поиска информации в АИПС по документам ГЛФ СССР // Совершенствование АИПС на тематические комплексы архивных документов. Сб. науч. трудов. М.: Главархив, 1987. С. 39-43. В соавт. с Рожковой Р.Т., Овчинниковой С.В.
30. Совершенствование обработки информации в АИПС на документе ГАФ СССР // Автоматизированные системы в архивном деле. М.: Главархив СССР, НИПТД СССР, 1985. С.42-45. В соавт. с Рожковой Р.Т., Шапошниковым А.С,
31. Некоторые вопросы маркетинга архивной информации // НТИ-96: Конференции с международным участием «Информационные продукты, процессы и технологии». Материалы конференции. М., 1996. С. 132-133. В соавт. с Цветковой ВА
32. Организация и технология подготовки, ввода и обработки информации в Автоматизированной информациотюй системе МСИС НИР. Доклад на VII научно-технической конференции молодых ученых и специалистов ВИНИТИ «Информационные процессы и системы». М., 28-29 апреля 1980 г. В соавт.с Цветковой ВА.
33. Оцифрование как одно из направлений современных информационных технологий. Маркетинг оцифрованных массивов // НТИ-97: Конференция с международным участием «Информационные ресурсы, интеграция и технологии». Материалы конференции. М.: ВИНИТИ, 1997. С. 93-94. В соавт. с Цветковой ВА
34. Подход к созданию электронной библиотеки на основе фонда архивной информации // НТИ-2000: Информационное общество. Информационные ресурсы и технологии. Телекоммуникация. Материалы 5-й Международной конференции. М.; ВИНИТИ. 2000, С. 124-127. В соавт. с Цветкова ВА
35. Электронная библиотека: опыт создания на примере научно-технической информации государственного архивного хранения // НТИ-99: «Интеграция, Инфор-
мационные технологии. Телекоммуникации». Материалы 4-й Международной конференции. М.Д999. С. 97-98. В соает.с Цветковой ВА.
36. Информационный поиск в тезаурусных и бестезаурусных АИПС на базе ПЭВМ // Развитие автоматизированных и реставрационных систем на космические документы. Сб. науч. трудов НИЦКД М.: Главархив, 1992. В соавт.с Чернышевой О.Н.
37. Некоторые вопросы применения технологии оцифрования в архивном деле. // Вторая Всероссийская конференция «Архивоведение и источниковедение отечественной истории. Проблемы взаимодействия на современном этапе». Материалы конференции. М.: ВНИИДАД, 1997. С. 142-144. В соавт.с Шапошников А.С.
38. Опыт разработки и эксплуатации АИПС на тематические комплексы документов государственных архивов СССР // Архивоведение, археография: ЭИ/ ВНИИДАД. 1984. № 4(31). С.13-15. В соавт.с Шапошниковым А.С.
39. Создание экспериментального массива полнотекстовых копий на оптических дисках // Оптические диски и их использование в архивах. М.: ГАС России, РНИЦКД. 1993. С. 42-47. В соавт. с Медведевой ГЛ., Ржевкиным В.Р., Шапошниковым А.С.
40. Оптические диски и их использование в архивах (Аналитический обзор). М.: ГАС России, РНИЦКД, 1993. В соавт. с Михайловым ОА., Армадеровой Г.Б., Макаревич ИЛ., Медведевой ГА., Ржевкиным В.Р., Шапошниковым А.С, Пилипчу-ком М.И., Лисютиным АЛ.
41. Рынок информационных услуг и продуктов. М.: МК-Периодика. 2002. 549 с. В соавт.с Родионовым И.И., Гиляревским Р.С., Цветковой В А.
42. Некоторые вопросы применения технологии оцифрования в архивном деле // Тезисы докладов региональной научно-практической конференции «Роль и значение автоматизированных технологий в деятельности архивных учреждений и перспективы их развития». Пермь: ГА Пермской обл. 1996. С. 6-9. В соавт.с Шапошниковым А.С.
43. Основные направления компьютеризации в архивах и опыт применения CDS (ISIS) M в РНИЦКД // Совершенствование тематического поиска и реставрации архивных документов на базе компьютерной техники. М.: ГАС России, РНИЦКД, 1993. С. 3-17. В соавтх Шапошниковым А.С, Медведевой ГА.
44. Means of support of dissemination of electronic information. DLM-FORUM'99 "European Citizens & Electronic Information: the memory of the Information Society. Brussels 18-19.10.1999: Abstracts -Brussels. 1999. P. 74-75.
45. The project on digitization of archival photo documents and accommodating them on the Internet. European Commission Proceeding of the DLM-Forum 2002. Access and preservation of electronic information: best practices and solutions. Barcelona, 6-8 May 2002. Luxembourg: Office for Official Publications ofEC, 2003. P. 411-415.
Î mwaerç* ; У О
I ¿дегпаэми » _
^ у 09 ИЮН 2005
Оглавление автор диссертации — доктора технических наук Залаев, Геннадий Захарович
Введение
Глава 1. Анализ информационных процессов в архивной 14 отрасли
1.1. Характеристика сектора архивной информации
1.2. Анализ проектов по оцифровке архивных документов
1.3. Электронные документы и их классификация
1.4. Анализ представления архивной информации в сети 33 Интернет
1.5. Анализ и оценка эффективности информационных 36 технологий архивной отрасли
1.6. Исследование свойств архивной информации
1.7. Тематические комплексы архивных документов
1.8. Краткие выводы
Глава 2. Исследование лексики архивных документов
2.1. Анализ лексического состава тематических комплек- 50 сов архивных документов
2.1.1. Анализ лексики ТКАД «История освоения космиче- 50 ского пространства»
2.1.2. Анализ лексики ТКАД «История памятников архитек- 54 туры и градостроительства»
2.1.3. Анализ лексики ТКАД «Документы Октябрьской ре- 58 волюции»
2.2. Анализ парадигматических отношений
2.3. Исследование количественных характеристик лексики 64 архивных документов
2.4. Анализ и разработка лингвистических моделей образования многокомпонентных словосочетаний
2.5. Краткие выводы
Глава 3. Разработка и оценка эффективности метода автоматаческого индексирования архивных документов
3.1. Линейная модель перехода от естественного языка к 87 информационно-поисковому языку
3.2. Формальная постановка и методы решения задачи 93 идентификации понятий по ИПТ
3.3. Разработка методов обработки неидентифщированных 98 словоформ
3.4. Оценка эффективности методов индексирования ар- 100 хивных документов
3.5. Краткие выводы
Глава 4. Разработка методов оценки достоверности цифровой копии оригиналу
4.1. Математические модели аналогового представления 109 документа
4.2. Формализация задачи оценки достоверности цифро- 112 вой копии архивному документу
4.3. Математический анализ процесса оцифровки
4.3.1. Анализ процесса дискретизации
4.3.2. Анализ процесса квантования
4.3.3. Числовые оценки
4.4. Оценка качества цифровых копий
4.5. Анализ процесса воспроизведения
4.6. Анализ влияния формата записи на соответствие циф- 131 ровой копии оригиналу
4.6.1. Анализ форматов файлов представления фотодоку- 132 ментов
4.6.2. Анализ форматов файлов представления фонодоку- 134 ментов
4.6.3. Анализ форматов файлов представления видеодоку- 135 ментов
4.7. Краткие выводы
Глава 5. Разработка методов доступа к архивной информации
5.1. Проблемы и задачи создания удаленного фонда поль- 141 зования
5.1.1. Разработка требований к удаленному фонду пользова- 141 ния
5.1.2. Анализ систем электронного заказа и доставки доку- 143 ментов
5.1.3. Анализ электронных каталогов в сети Интернет
5.2. Разработка удаленного фонда пользования архивных 151 документов в сети Интернет
5.2.1. Разработка структуры и методов формирования УФП
5.2.2. Метод выделения смысловых элементов в потоке ви- 154 деоинформации
5.2.3. Разработка системы обработки заказов потребителей
5.2.4. Управляющая процедура
5.2.5. Защита от несанкционированного использования 158 цифровых копий
5.2.6. Разработка структуры фонда обеспечения сохранно- 158 сти
5.3. Разработка фонда пользования проектной документа- 159 ции на цифровых носителях
5.4. Краткие выводы
Глава 6. Разработка фондов пользования и электронных каталогов на основе методов цифрового копирования и Интернет-технологий
6.1. Разработка информационной системы с цифровыми 168 копиями документов о жизни и деятельности канцлера Германии Й. Вирта
6.1.1. Цели и задачи разработки
6.1.2. Информационное обеспечение
6.1.3. Выбор технического обеспечения
6.1.4. Разработка технологии ввода и обработки информа- 170 ции
6.1.5. Разработка программного обеспечения и системы по- 172 иска информации
6.2. Разработка системы полнотекстовых документов "Фо- 174 тографии Ю.А. Гагарина"
6.2.1. Разработка проекта
6.2.2. Разработка структуры информационных файлов
6.3. Разработка удаленного фонда пользования фотодокументов
6.3.1. Предпосылки и цели проекта
6.3.2. Разработка этапности отбора, ввода и оцифровки до- 183 кументов
6.3.3. Разработка структуры системы
6.3.4. Реализация проекта
6.4. Разработка системы Интернет-каталога кинодокумен- 196 тов
6.5. Разработка перспектив развития проектов
6.6. Рекомендации по оцифровке архивных документов 200 при проектировании электронных ФП
6.7. Краткие выводы 202 Заключение 204 Литература 207 Приложение 1. Обзор проектов по оцифровке доку- 231 ментов
Введение 2005 год, диссертация по документальной информации, Залаев, Геннадий Захарович
В Концепции федеральной целевой программе «Развитие информатизации в России на период до 2010 года» информатизация рассматривается как процесс использования информационных технологий во всех сферах общественной жизни с целью реализации права граждан на получение различной информации, и в частности, на получение архивной ретроспективной информации, которая образуюет значительный по объему информационный потенциал.
Архивная информация все больше превращается в экономическую категорию и представляет собой "информационное сырье" для производства информационных продуктов и компонентов при производстве клипов, видео и кинофильмов, радиопрограмм и т.д.
В настоящее время архивная информация становится самостоятельным фактором социального и экономического развития общества. Возрастает ее роль в принятии решений в области политике и социальной сфере, в связи с тем, что обладание нужной информацией обеспечивает получение политических и экономических преимуществ.
Архивные информационные ресурсы могут представлять интерес для других стран. Например, в фондах РГАНТД представлены документы о международном сотрудничестве в области освоения космического пространства и космической техники, например, программа "ЭПАС" и зарубежные контакты советских и российских космонавтов.
В ситуации востребованности архивной информации при больших объемах ее хранения традиционные информационные технологии, сложившиеся в архивной отрасли теряют свою эффективность. В связи с этим требуются новые подходы к информатизации в архивах и разработки методов повышения эффективности информационных технологий в архивной отрасли.
Проведенный анализ позволил выделить ряд направлений в современных информационных технологиях, способных оказать влияние на решение данной проблемы:
- использование носителей информации большой емкости;
- технологии оцифровки различного вида документов;
- технологии создания мультимедиа систем и продуктов, Web-технологии;
- телекоммуникационные сети и системы, в частности, сеть Интернет.
Применение вышеуказанных технологий и средств компьютерной техники позволяют:
- использовать уникальные архивные документы, которые в силу своей значимости или физического состояния практически недоступны исследователям;
- создавать фонды пользования на основе баз данных с цифровыми копиями архивных вербальных, аудио- видео- документов;
- разрабатывать мультимедийные продукты на основе архивных документов как текстовых, так и аудиовизуальных;
- осуществлять удаленный информационный поиск архивной информации в базах данных с передачей по телекоммуникационным каналам электронных копий архивных документов;
- проводить электронную реставрацию архивных документов.
Становление информатизации архивной информационной деятельности связано с исследовательской и практической работой целого ряда ученых и специалистов. Значительный вклад в применении информационных технологий в практику работы архивов внесли А.С. Шапошников, разработавший принципы построения АИПС на документы Архивного фонда, М.И. Пилипчук и А.Н. Балакирев, практические работы которых по цифровому копированию фонодокументов и фотодокументов имеют важное значение для создания современных фондов пользования и страхового копирования, В.А. Устинов, проведший целый ряд исследований по физико-химической сохранности современных носителей для хранения архивной информации, Г.А. Медведева, работы которой заложили основу автоматизации научно-справочного аппарата. При разработке методов информатизации архивных информационных технологий необходимо было опираться на работы, проводимые в системе научно-технической информации (Р.С. Гиляревский, В. А. Цветкова, И.И. Родионов), в информационно-библиотечной отрасли (Я.Л. Шрайберг).
Целью работы является разработка методов повышения эффективности информационных технологий поиска и доступа к архивной информации.
Цель предполагает решение следующих задач:
- анализ состояния и тенденций развития информационных процессов в архивной отрасли;
- исследование свойств архивной информации;
- разработка метода индексирования архивных документов на основе исследования лексики документов различных тематических комплексов;
- разработка лингвистических моделей образования многокомпонентных терминов;
- анализ процессов оцифровки различных видов архивных документов и теоретическое обоснование создания фондов пользования и обеспечения сохранности методами цифрового копирования;
- разработка метода расширения доступа к архивной информации на основе удаленного фонда пользования;
- разработка и апробация унифицированных технологических процессов обработки информации в электронных архивах, фондов пользования и фондов обеспечения сохранности на основе методов цифрового копирования архивных документов.
Методы исследования. Теоретические исследования основывались на изучение и обобщение научных публикаций по данной проблеме. Проанализированы труды отечественных и зарубежных ученых и практиков в области информатики, современных информационных технологий, оцифровки документов. При разработке математических моделей использовались научные положения, изложенные в работах В.В. Кульбы и И.И. Попова. Методологическую базу исследований составили методы информатики, теории графов, прикладной лингвистики, математической статистики.
Объект исследования - архивная отрасль России.
Предмет исследования - процессы развития информатизации архивной отрасли в условиях внедрения современных информационных технологий поиска и распространения архивной информации.
Экспериментальной базой для поведения исследований послужили тематические комплексы архивных документов из фондов РГАНТД, ГАРФ, РГАЭ, РГАКФД, РГИА, РГИА г. Москвы и РГИА г. Санкт-Петербурга.
Научная новизна выносимых на защиту положений диссертационной работы состоит в следующем:
1. Проведено исследование состояния и тенденций развития информатизации архивной отрасли, в результате которого сформулированы и обоснованы свойства архивной информации, разработана классификация электронных документов; выделены направления развития информационных технологий; на графовых представлениях информационных процессов в архивах проанализированы информационные технологии и показана эффективность использования фонда пользования с цифровыми копиями архивных документов.
2. Выявлены лексические факторы, влияющие на качество индексирования и информационного поиска архивных документов: характерное присутствие в лексике архивных документов идентификаторов, семантически значимых низкочастотных лексических единиц, устойчивых исторических словосочетаний, специфической синонимии.
3. Разработаны лингвистические модели образования многокомпонентных терминов характерных для лексики архивных документов.
4. Разработан метод автоматического индексирования архивных документов с использованием информационно-поискового тезауруса и свободного индексирования, который учитывает особенности лексики архивных документов.
5. Разработаны методы доступа к архивной информации на основе удаленного фонда пользования и фонда пользования с цифровыми копиями.
6. Разработан метод потенциально-пертинентных элементов для выделения смысловых элементов в потоке видеоинформации, позволяющий повысить качество информационного поиска в фонде пользования с цифровыми копиями видеодокументов за счет предоставления фрагментов видеодокумента отвечающих его информационной потребности.
Практическая значимость исследования определяется реализацией разработанных методов и рекомендаций при разработке архивов электронных документов фонда пользования и фонда страхового копирования в РГАНТД, а также других архивов и организаций. Некоторые положения нашли отражения при проведении научно-исследовательского проекта "Разработка системы страхового копирования архивных документов и фондов пользования на основе современных информационных технологий", осуществляемого по Федеральной целевой программе "Развитие и сохранение культуры и искусства Российской Федерации" (подпрограмма "Развитие архивного дела").
Результаты диссертационного исследования нашли отражение в учебных дисциплинах, прочитанных автором: в ИАИ РГГУ в курсе лекций "Электронные архивы и документы", в Российской академии государственной службы в курсе лекций и семинаров по теме «Электронные архивы».
Личный вклад автора выражается в исследовании, теоретическом обобщении и практическом внедрении результатов научных исследований и разработок, проводимых в течение многих лет как лично автором, так и под его руководством и при непосредственном участии. Автором лично проведены исследования состояния и тенденций развития информационных процессов в архивной отрасли; исследованы свойства лексики архивных документов различных тематических комплексов; разработаны метод автоматического индексирования архивных документов, метод доступа к архивной информации на основе удаленного фонда пользования и методы создания фонда пользования с цифровыми копиями архивной проектной документации, а также разработана классификация электронных документов.
Теоретическая значимость исследования. Разработанные методы повышения эффективности информационных технологий поиска и расширения доступа к архивной информации образуют научно-методическую платформу для перспективного развития исследований и разработок информационной деятельности архивов в области исследований проблем ввода информации, поиска документов и организации информационных массивов в электронных архивах, а также разработки информационной сети Федеральной архивной службы.
Апробация работы. Основные положения и результаты работы обсуждались на следующих семинарах, конференциях и симпозиумах: научная конференция «Роль государственных архивов в ускорении научно-технического прогресса» (МГИАИ, 1986 г.); вторая Всероссийская конференция «Архивоведение и источниковедение отечественной истории. Проблемы взаимодействия на современном этапе» (ВНИИДАД, 1996 г.); НТИ-96: Конференция с международным участием «Информационные продукты, процессы и технологии», (Москва, 1996 г.); НТИ-97: Конференция с международным участием «Информационные продукты, процессы и технологии» (Москва, 1997 г.); НТИ-99: 4-я международная конференция «Интеграция, Информационные технологии. Телекоммуникации» (Москва, 1999 г.); НТИ 2000: 5-я международная конференция «Информационное общество. Информационные ресурсы и технологии. Телекоммуникации» (Москва, 2000 г.); Региональная научно-практическая конференция «Роль и значение автоматизированных технологий в деятельности архивных учреждений и перспективы их развития» (Пермь, 1996 г.); конференция «Электронные документы и архивы: теория и практика» (Москва, ВНИИДАД, 1999 г.); Научно-практическая конференция «Безопасность архивов и архивных фондов» (Москва, Росархив, РОИА, 1999 г.); VI Международная научно-практическая конференция «Документация в информационном обществе: электронное делопроизводство и электронный архив» (Москва, Росархив, ВНИИДАД, РОИА, 1999 г.); НТИ-2002 6-я международной конференции «Состояние и перспективы развития сектора архивной информации» (Москва, 2002); Научный семинар «Электронные архивы и документы» (Секция РОИА, Москва, 1998 г.); Круглый стол «Электронные документы и архивы: состояние и перспективы» (Москва, РОИА, 2001-2004 гг.); Научно-практическая конференция "Информационные технологии в архивном деле" (Москва, 2000 г.); VIII Международная конференция «Крым 2001» (Судак, 2001 г.); DLM-FORUM'99 «European Citizens & Electronic Information: the memory of the Information Society» (Brussels, 1999 г.); Научно-технический совет РГАНТД (1999-2004 гг.).
Основные положения и результаты также были апробированы в учебном процессе ИАИ РГГУ в курсе лекций "Электронные архивы и документы" (1998-2004 гг.) и в учебном процессе РАГС в курсе лекций и семинаров по теме «Электронные архивы» (2004 г.).
Публикации. По теме диссертации опубликовано 45 научных работ.
Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, списка литературы из 240 наименования и 10 приложений, содержит 230 страниц основного текста, 52 рисунка, 33 таблиц и 96 страниц приложений.
Заключение диссертация на тему "Разработка методов повышения эффективности информационных технологий в архивной отрасли"
В заключение приведены основные результаты и выводы, полученные в диссертационной работе.
1. Проведен анализ состояния и тенденций развития информационных технологий в архивной отрасли. Выявлены свойства архивной информации.
Разработана классификация электронных документов, которая дает основу для решения комплекса проблем связанных с электронными документами: приема, хранения, обеспечения сохранности и использования. Выделен класс оцифрованных документов и показано значение технологий оцифровки для развития информационных технологий в архивах.
2. Проведено исследование лексики архивных документов различных тематических комплексов. В результате исследования установлено, что для лексики архивных документов характерно присутствие идентификаторов, семантически значимых низкочастотных лексических единиц, устойчивых исторических словосочетаний - историзмов, специфической синонимии (эквивалентность имманентная и эквивалентность факультативная).
Семантический и статистический анализ лексики документов различных тематических комплексов позволил выделить в лексике архивных документов низкочастотную и ядерную области, которые оказывают влияние на эффективность применения методов индексирования архивных документов.
3. На основании проведенного исследования образования словосочетаний, характерных для лексики архивных документов, разработаны и проанализированы лингвистические модели образования многокомпонентных терминов в лексике архивных документов. Формализирована задача синтеза чттучтлгттт^ ттп ТТЛТ» ттлттгтт/ктттттИЛЛПОТТТТТ TV Г» тглт»Г\ЛлП\ К ТТГЛ ПООПО ^ATQlItIt.T\J лингвистическим моделям для автоматического индексирования архивных документов.
4. Выявлены и исследованы факторы, влияющие на качество автоматического индексирования архивных документов: неточные названия, разночтения в наименованиях организаций и учреждений, комиссий комитетов и персоналий, свойственные архивным документам.
5. На графовом представлении модели линейной системы уровней перехода от естественного языка к ИПЯ формализованы требования к процессам автоматического индексирования архивных документов. На графах проанализированы различные варианты процедур автоматического индексирования архивных документов, учитывающих особенности лексики архивных документов.
6. Разработан метод автоматического индексирования архивных документов на основе автоматического индексирования с использованием ИПТ и свободного индексирования. Разработанный метод отражает особенности лексики архивных документов, состоящей из ядерной и окказиональной лексики.
7. Анализ применимости различных методов индексирования на базе использования меры корреляции фактической и формальной релевантности (коэффициента линейной корреляции) показал эффективность разработанного метода индексирования архивных документов различных тематических комплексов. Анализ показал, что при данном методе значение коэффициента линейной корреляции имеет наибольшее значение. Экспериментальная оценка разработанного метода автоматического индексирования показала его эффективность при информационном поиске.
8. Проведен анализ процессов оцифровки, квантования, воспроизведения, а также анализ форматов представления файлов цифровых копий. Дано теоретическое обоснование применения методов цифрового копирования для сгрл.пг>л--1Э1-л iviwji l WJJ.
Проведенный анализ показал, что при цифровом копировании архивного документа вносятся определенные искажения. Показано, что выбор параметров цифрового копирования и формата представления цифровой копии определяется предполагаемыми целями использования данной цифровой копии.
9. Разработаны методы доступа к архивной информации на основе удаленного фонда пользования и фонда пользования с цифровыми копиями. На основании разработанной формализации задачи анализа информационных технологий в архивах показана эффективность применения предложенных методов для информационного обслуживания в архивах.
10. Разработанный метод потенциально-пертинентных элементов для выделения смысловых элементов в потоке видеоинформации позволяет повысить качество информационного поиска в фонде пользования с цифровыми копиями видеодокументов за счет предоставления пользователю фрагментов видеодокумента отвечающих его информационной потребности.
11. Разработаны технологические процессы формирования удаленного фонда пользования и фонда пользования с цифровыми копиями архивных документов.
12. Сформулированы рекомендации по оцифровке архивных документов для фондов пользования и страхового копирования.
13. Разработанные методы прошли апробацию при проектировании систем: информационной системы с цифровыми копиями документов о жизни и деятельности канцлера Германии Й. Вирта; системы полнотекстовых документов «Фотографии Ю.А. Гагарина»; удаленного фонда пользования с цифровыми копиями фотодокументов по истории освоения космического пространства; системы интернет-каталога кинодокументов.
207
Библиография Залаев, Геннадий Захарович, диссертация по теме Документалистика, документоведение и архивоведение
1. Абрамова Н.Н. Алгоритм синтаксического анализа неформализованных текстов //Вопросы информационной теории и практики. 1984. № 51. С. 81-87.
2. Аврам Т.Д. Перспективы создания национальной информационной системы США //НТИ. Сер. 1. ВИНИТИ. 1993. № 9. С. 22-27.
3. Автоматизация анализа научного текста. Киев: Наукова думка, 1984.
4. Автоматизированные информационно-поисковые системы на документы Государственного архивного фонда СССР: Метод, пособие. М.: Главархив, 1983.
5. Адамьянц А.О., Шакирова Н. Н. Результаты эксперимента по автоматизации индексирования документов в АСИНИТ-2 // Проблемы автоматизированной обработки научно-технической информации М.: ВИНИТИ, 1982.
6. Анно Е.И. О выборе формальной модели для представления синтаксической структуры текстов на естественном языке // НТИ. Сер. 2. ВИНИТИ. 1980. № 1.
7. Антопольский А.Б. Проблемы эффективной организации информационных ресурсов в Интернете. Материалы 5-й международной конференции «Информационное общество, информационные ресурсы и технологии, телекоммуникации». М.: ВИНИТИ, 2000.
8. Антопольский А.Б., Дубнова И.Л., Ерина А.В., Лахути Д.Г., Пархоменко В.Ф., Федоров Е.Б. Сравнение качества интеллектуального и автоматического индексирования документов // НТИ. Сер. 2. ВИНИТИ. 1984. № 1.
9. Аракелова Р.В. Автоматическое кодирование текстов рефератов и заlljju^vjc длл tUJ^annfl иллм^лллэшл vjO^ojud jviv^n i ^jd jrj. ЗсШрОССБ //'
10. Проблемы разработки и эксплуатации отраслевых автоматизированных системы НТИ в газовой промышленности. 1983.
11. Армадерова Г.Б., Епанешникова Е.К., Залаев Г.З., Корюкина Р.Д., Медведева Г.А., Михайлов О.А. Автоматизированные информационно-поисковые системы в архивах: Методическое пособие. М.: Глав-архив, 1985. 150 с.
12. Армадерова Г.Б., Залаев Г.З. Основные тенденции развития автоматизированных информационно-поисковых систем в архивах: Аналитический обзор. М.: Главархив СССР, 1988. С. 33.
13. Арский Ю.М., Гиляревский Р.С., Егоров B.C., Залаев Г.З. и др. Информационный рынок в России. М.: ВИНИТИ, 1996. 294 с.
14. Арский Ю.М., Гиляровский Р.С., Туров И.С., Черный А.И. Инфосфера. М.: ВИНИТИ, 1996.
15. Архивы России. Москва и Санкт-Петербург. Справочник, обозрение и библиографический указатель. Русское издание. М.: Археографический центр, 1997.
16. Архипова Н.И., Меркулов В.Н., Залаев Г.З. Использование ретроспективной документальной информации в региональных и муниципальных информационно-управляющих системах // Проблемы регионального и муниципального управления. М.: РГГУ, 2000. С. 20-21.
17. Баженов С.Р., Новоженин А.Ф. Разработка системы решения информационно-библиотечных задач в ГПНТБ СО РАН с использованием Интернета // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества. М., 1998. (J. 205-2Ы.
18. Бейер Р., Ожогин Б.А., Залаев Г.З. Обработка и возможности представления в коммуникативном формате фактографической информации в типовой АИС МОСНТИ на базе ППП АИДОС/ДОС // Проблемы МСНТИ М.: МЦНТИ. 1982. № 3.
19. Белоногов Г.Г., Кузнецов Б.А., Кричевский В.К. Автоматическое индексирование документов для диалоговых ИПС. // НТИ. Сер. 2. ВИНИТИ.1984. № 8.
20. Белоногов Г.Г., Шемакин Ю.И., Новоселов А.П., Чиркин В.А., Рыбаков Б.П. Автоматическое индексирование документов и запросов. // НТИ. Сер. 1. ВИНИТИ. 1973. № 7.
21. Белоногов Г.Г., Кузнецов Б.А., Новоселов А.П. Автоматизированная обработка научно-технической информации. Лингвистические аспекты. // Итоги науки и техники. Сер. «Информатика». М.: ВИНИТИ, 1984. Т. 8.
22. Бирмен Д. Виртуальный архив — архив будущего. // Вестник архивиста, 1996. №3. С. 99-111.
23. Блох М.Я. Проблема основной единицы текста. Коммуникативные единицы языка. // Всесоюзная научная конференция. Тезисы докладов. М., 1984.
24. Боброва Е.В. Анализ археографического уровня подготовки документальных публикаций в российском сегменте Интернет // Информационный бюллетень Ассоциации «История и компьютер». 2002. № 30. С.80-83.
25. Бондаренко Г.В., Яровенко О.И. Использование структурных закономерностей текста при автоматической обработке информации. // НТИ. Сер. 2. ВИНИТИ. 1984. № 3.
26. Боухьюз Г., Браат Дж., Хейсер А. Оптические дисковые системы. М., 1991.
27. Василевский Ю.А. Новые системы цифровой записи звука цифровая компакт-кассета и лазерный мини-диск //Техника кино и телевидения. 1993. № 10. С. 10-16.
28. Володин К.И., Низкер Е.М. Система автоматического индексирования документов, использующая морфологический анализатор и деск-рипторный словарь. // НТИ. Сер. 2.ВИНИТИ. 1984. № 3.
29. Габриелян Р.А., Павлов А.Н., Попов И.И., Саруханян Л.Ф. Исследования алгоритмов индексирования. // НТИ. Сер. 2. ВИНИТИ. 1982. №9.
30. Гадасин В.А., Конявский В.А. От документа — к электронному документу. Системные основы. М., 2001.
31. Гарскова И.М., Иванов С.А. Библиографический анализ исторической информатики как научного направления // Информационный бюллетень Ассоциации «История и компьютер». 2002. № 30. С.254-256.
32. Гедрович Ф.А. Цифровые документы: проблемы обеспечения сохранности //Вестник архивиста. 1998. № 1(43). С. 120-122.
33. Гиляревский Р.С., Залаев Г.З., Родионов И.И., Цветкова В.А. Современная информатика: наука, технология, деятельность. М.: ВИНИТИ. 1998. 220 с.
34. Глухов В.А., Лаврик О.Л. Электронная доставка документов. М.: ИНИОН РАН, 1999.
35. ГОСТ 28388-89. Системы обработки информации. Документы на магнитных носителях данных. Порядок выполнения и обращения. М., 1989.
36. ГОСТ 6.10.4 84. Придание юридической силы документам на машинном носителе и машинограмме, создаваемым средствами вычислительной техники. Основные положения. М., 1985.
37. ГОСТ Р 51141-98. Делопроизводство и архивное дело. Термины и оп-рсдслс:;;:л М 199S
38. ГОСТ РД 50-524-84. Методические указания. Порядок хранения документов на машинных носителях. М., 1985.
39. Гринев С.В., Залаев Г.З. Об опыте автоматизации индексирования документов и требованиях к системе автоиндексирования для
40. АСНТИС. // НТИ в строительстве. М.: ВНИИИС, 1985. Сер. 15. Вып. 5.12 с.
41. Гудмен Дж. Введение в Фурье оптику. М.: Мир, 1970.
42. Даниленко И.И., Цаплин В.В. Об архивном хранении и использовании машиночитаемых документов // Советские архивы, 1985. №3.
43. Дементьева Л.Б. Система гиперзаписи информации. // НТИ. Сер.2. ВИНИТИ. 1990. №2. С. 2-8.
44. Дж. Мартин Организация баз данных в вычислительных системах. М: Мир, 1980.
45. Дмошинский Г.М., Серегин А.В. Телекоммуникационные сети России // «Архитектура и строительство России». М., 1993.
46. Документоведческие и архивоведческие проблемы электронных документов. Аналитический обзор. М.: ВНИИДАД, 1999.
47. Доллар Ч. Влияние информационных технологий на теорию и практику архивного дела // Машиночитаемые документы (прием на государственное хранение, создание специализированных архивов). Информационная записка. М., 1994. С.7-30.
48. Дюранти Л. Влияние новых технологий на архивную теорию // Вестник архивист. 2000. № 5-6. С. 17-21.
49. Залаев Г.З., Иванов Ю.П. Методы повышения надежности автоматизированного поиска в ИПС «Электрон» // Материалы Всесоюзного симпозиума по использованию автоматизированных систем обработки НТИ в области радиоэлектроники. М.: Советское радио, 1971.
50. Залаев Г.З. Анализ соответствия цифровой копии архивного документа оригиналу // Техника кино и телевидения. 2003. № 12. С. 43-44.
51. Залаев Г.З. Проект по созданию Интернет-каталогов архивных кино-и фотодокументов.// Техника кино и телевидения. 2003. № 11. С. 42-45.
52. Залаев Г.З. Современные принципы хранения и распространения архивной информации // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества. Труды 8-й Международной конференции «Крым 2001» М.: ГПНТБ, 2001 г.
53. Залаев Г.З. Автоматизация процессов индексирования документов в тематических комплексах ГАФ СССР. Автореферат диссертации. М.: МГИАИ, 1988.
54. Залаев Г.З. Автоматическое индексирование документов Государственного архивного фонда СССР. Автоматизированные системы в архивном деле. М.: НИЦТД СССР, 1984.
55. Залаев Г.З. Анализ и классификация электронных документов // Вестник архивиста, 1999. № 2-3 (50-51). С. 60-69.
56. Залаев Г.З. Влияние информационных технологий на безопасность архивных документов // Научно-практическая конференция «Безопасность архивов и архивных фондов». М.: РОИА, 1999.
57. Залаев Г.З. Медведева Г.А., Шапошников А.С. Интегральная автоматизированная информационно-поисковая система по архивным документам // НТИ. Сер.2. ВИНИТИ. 1985. № 9. С. 8-11.
58. Залаев Г.З. Некоторые вопросы создания электронных архивов. // Доклады и тезисы выступлений на третьей Всероссийской конференции. 25-26 февраля, 1999. М.: Научная книга, 1999. С. 258-261.
59. Залаев Г.З. Один из подходов к автоматическому индексированию архивных документов ГАФ СССР. // Информационно-документационные проблемы ускорения научно-технического прогресса. М.: МГИАИ, 1988.
60. Залаев Г.З. Современные принципы хранения архивной информации // Материалы Всероссийского заочного семинара работников архивных учреждений по проблемам обеспечения сохранности документов. М.: Росархив, 1999. С. 128.
61. Залаев Г.З. Современные принципы хранения и распространения архивной информации // Вестник архивиста, 2000. № 5-6 (59-60). С. 85-87.
62. Залаев Г.З. Состояние и перспективы развития сектора архивной информации // Материалы 6-й международной конференции «НТИ-2002». М., 2002. С. 145
63. Залаев Г.З. Удаленный фонд пользования на основе Интернет-каталогов // Вестник архивиста. 2004. № 3-4 (81-82). С. 54-60.
64. Залаев Г.З., Боброва Е.В. Архивы и Интернет // Отечественные архивы. 2002. № 2. С. 42-50.
65. Залаев Г.З., Боброва Е.В. Как создать и поддерживать сайт в Интернет // Отечественные архивы. 2002, № 4. С. 90-95.
66. Залаев Г.З., Бочков О.М., Медведев В.М., Шапошников А.С. Проектирование баз данных по киноинформации. // Материалы Международной конференции «Информационные продукты, процессы и технологии». ВИНИТИ. 1996. С. 133.
67. Залаев Г.З., Гурко JI.H. Фактографический поиск на базе lllill АИДОС // Совершенствование АИПС на тематические комплексы архивных документов. Сб. науч. трудов. М.: Главархив СССР, 1980. С. 21-28.
68. Залаев Г.З., Иванов Ю.П., Русев А.А. Возможности 111111 АИДОС для обработки научно-технический информации в области строительства // НТИ в строительстве, М.: ВНИИИС, 1984. Сер. 15. Вып. 2. С.12.
69. Залаев Г.З., Медведева Г.А., Ржевкин В.Р., Шапошников А.С. Создание экспериментального массива полнотекстовых копий на оптических дисках // Оптические диски и их использование в архивах. М.: РНИЦКД. 1993. С. 42-7.
70. Залаев Г.З., Меркулов В.Н. Оцифровка документов и микрофильмов для повышения эффективности использования архивных документов // Материалы 6-й международной конференции «НТИ-2002». М., 2002. С. 147
71. Залаев Г.З., Никитин П.И. Проблемы и метод автоматического индексирования архивных документов // Актуальные направления исследований в научно-технической информации. М.: МГИАИ, 1985. С. 193197.
72. Залаев Г.З., Рожкова Р.Т., Овчинникова С.В. Диалоговая система поиска информации в АИПС по документам ГАФ СССР // Совершенствование АИПС на тематические комплексы архивных документов. Сб. науч. трудов. М.: Главархив, 1987. С. 39-43.
73. Залаев Г.З., Рожкова Р.Т., Шапошников А.С. Совершенствование обработки информации в АИПС на документе ГАФ СССР // Автоматизированные системы в архивном деле. М.: Главархив СССР, НИЦТД СССР, 1985. С.42—45.
74. Залаев Г.З., Цветкова В.А. Некоторые вопросы маркетинга архивной информации // НТИ-96: Конференция с международным участием «Информационные продукты, процессы и технологии». Материалы конференции. М., 1996. С. 132-133.
75. Залаев Г.З., Чернышева О.Н. Информационный поиск в тезаурусных и бестезаурусных АИПС на базе ПЭВМ // Развитие автоматизированных и реставрационных систем на космические документы. Сб. науч. трудов НИЦКД М.: Главархив, 1992.
76. Залаев Г.З., Шапошников А.С. Опыт разработки и эксплуатации АИПС на тематические комплексы документов государственных архивов СССР // Архивоведение, археография: ЭИ/ ВНИИДАД. 1984. №4(31). С. 13-15.
77. Инструкция по индексированию документов в АИПС на документы ГАФ СССР. М.: Главархив СССР, НИЦТД СССР, 1985.
78. Каленов Н.Е, Власова С. А. Каталог книг и продолжающихся изданий ЦБС БЕН РАН в Интернете // Современные технологии в информационно-библиотечном обеспечении научных исследований. Материалы научно-практического семинара. М., 1999. С. 100-102.
79. Киселев И.Н. Электронные документы на пороге архива // Вестник архивиста. 1998. № 3(45). С. 8-10.
80. Киселев И.Н., Шапошников А.С. Работа с машиночитаемыми документами в архивах России // Отечественные архивы. 1995. № 3. С. 114-119.
81. Колесников В.М. Лазерная звукозапись и цифровое радиовещание. М., 1991.
82. Кон Л.Ф., Дашенко В.В. Интернет в Новосибирской государственной областной библиотеке // Тезисы докладов Международной конференции «Интернет, общество, личность». СПб., 1998. С. 104-106.
83. Кулешов С.Г. О понятии «электронный документ» // Документация в информационном обществе: электронное делопроизводство и электронный архив. М., 2000. С.54-57.
84. Кульба В.В., Микрин Е.А., Павлов Б.В. Проектирование информационно-управляющих систем долговременных орбитальных станций. -М.: Наука, 2002.
85. Кульба В.В., Ковалевский С.С., Шелков А.Б. Достоверность и сохранность информации в АСУ. Издание второе. Серия «Информационные технологии». М.: СИНТЕГ, 2003.
86. Лазарева А.Г. Рынок электронной информации. Опыт промышленно развитых стран // НТИ. Сер. 1. ВИНИТИ. 1992. № 3-4. С. 54-59.
87. Ларин М.В. Проблемы совершенствования документационного обеспечения управления в современных условиях // Отечественные архивы. 1999. № 3. С. 26-33.
88. Левин Б.Р. Теоретические основы статистической радиотехники: В 2-х кн. М.: Советское радио, 1974. Кн. 1.
89. Лернер И.В., Седякин В.П. Справочник: компакт-диски CD-ROM. М.: МЦНТИ, 1995.
90. Малышев М.И., Пилипчук М.И., Устинов В.А., Шапошников А.С. Технология оцифрования аудиовизуальных документов // Техника кино и телевидении. 1996. № 4. С. 16-21.
91. Малышев М.И., Балакирев А.Н. Отечественный опыт применения методов цифровой обработки для реставрации архивных фотодокументов // Библиотечная ассамблея Евразии. 1999. № 11. С. 92-95.
92. Марчук Ю.Н. Современная проблематика лингвистического обеспечения автоматизированных систем // НТИ. Сер. 2. ВИНИТИ. 1984. № 10.
93. Материалы конференции «Электронные документы и архивы: теория и практика». М.: ВНИИДАД, 1999.
94. Медведева Г.А. Научно-справочный аппарат к аудиовизуальным документам государственных архивов: состояние и перспективы поиска документной информации. / Автореферат диссертация на соискание ученой степени к.и.н. М., МГИАИ. 1990.
95. Медведева Г.А., Ржевкин В.Р., Шапошников А.С., Залаев Г.З. Создание экспериментального массива полнотекстовых копий на оптических дисках // Оптические диски и их использование в архивах. М.: ГАС России, РНИЦКД. 1993. С. 42-47.
96. Миркин Л.И. Измерение статистических характеристик изображений // Вопросы кибернетики: иконика, цифровая обработка и фильтрация изображений. 1978. Вып. 38.
97. Михайлов А.И., Черный А.И., Гиляревский Р.С. Основы научной информации. М.: Наука, 1965.
98. Михайлов В.И., Князев Г.И., Макарычев П.П. Запоминающие устройства на оптических дисках. М., 1991.
99. Михайлов О.А. Автоматизированные технологии в космических архивах. Аналитический обзор зарубежного и отечественного опыта // Экспресс-информация, М.: ВИНИТИ. 1996. № 40-42.
100. Михайлов О.А. Цифровые документы и архивы // Вестник архивиста. 1997. №3. С. 56-68.
101. Михайлов О.А. Электронные документы в архивах. М.: Диалог-МГУ, 2000.
102. Михайлов О.А. Электронные документы в архивах: проблемы приема; обеспечение сохранности и использование: Аналитический обзор зарубежного и отечественного опыта: В 2 кн. М.: МАКС Пресс, 2002. Кн. 1.
103. Михайлов О.А. Электронные документы в архивах: проблемы приема; обеспечение сохранности и использование: Аналитический обзор зарубежного и отечественного опыта: В 2 кн. М.: МАКС Пресс, 2002. Кн. 2.
104. Михайлов О.А., Армадерова Г.Б., Макаревич И.Л. Влияние информационной технологии на теорию и практику архивного дела. М.: ГАС России, РНИЦКД, 1992.
105. Михайлов О.А., Армадерова Г.Б., Макаревич И.Л., Медведева Г.А., Ржевкин В.Р., Шапошников А.С., Залаев Г.З., Пилипчук М.И., Лисю-тин А.П. Оптические диски и их использование в архивах (Аналитический обзор). М.: ГАС России, РНИЦКД, 1993.
106. Михайлов О.А., Армадерова Г.Б., Макаревич П.Л. Информационные технологии и автоматизация в архивном деле. (Аналитический обзор по зарубежным материалам). М.: ГАС России, РНИЦКД. 1993.
107. Михайлов О.А., Малышев М.И., Крылов Б.В. Цифровое копирование архивных документов для обеспечения их сохранности (Аналитический обзор). М.: ГАС России, РНИЦКД, 1993.
108. Михайлов О.А., Мусатова Т.Н., Новикова Н.Н., Солодкова Э.И. Машиночитаемые документы и архивы (Аналитический обзор зарубежного и отечественного опыта). М.: ГАС России, РНИЦКД, 1994.
109. Михайлов О.А., Шапошников А.С. Разработка и внедрение АИПС на архивные документы ГАФ СССР // Советские архивы. 1982. № 4.
110. Михайлов О.А., Шапошников А.С., Медведева Г.А., Залаев Г.З., Пилипчук М.И. Автоматизированные архивные системы (Аналитический обзор). М.: ГАС России, РНИЦКД, 1993.
111. Михайлова В.Г., Раскин Д.И., Шапошников А.С. Информационное и лингвистическое обеспечение АИПС на комплекс документов «История памятников архитектуры и градостроительства» // Советские архивы. 1984. № 4.
112. Молчанова О.П., Родионов И.И., Торжевский А.П. Анализ рынка информационных средств России. НТИ. Сер.1. ВИНИТИ. 1993. № 9. С. 8-19.
113. Никитин П.И., Шапошников А.С. Автоматизированная система поиска, документов в архивах// НТИ. Сер. 1. ВИНИТИ. 1981. № 12.
114. Нильсон М. Искусственный интеллект. М.: Мир, 1973.
115. Новосельцев С.К. Системы мультимедиа //Системы и средства информатики. 1993. № 4. С. 25-46.
116. Основные правила работы государственных архивов СССР. М.: Глав-архив СССР, 1984.
117. Основные правила работы с научно-технической документацией в государственных архивах. Российской Федерации. М.: Росархив, 2003.
118. Отбор на государственное хранение документов на машинных носителях автоматизированных систем научно-технического и производственного назначения. Рекомендации. М.: ВНИИДАД, 1991.
119. Папулис А. Теория систем и преобразований в оптике. М.: Мир, 1961.
120. Пащенко Н.А., Кнорина JI.B., Молчанова Т.В., Чепиго Т.С, Шумилина A.JL, Яровенко О.И. Проблемы автоматизации индексирования и реферирования // Итоги науки и техники. Сер. «Информатика». М.: ВИНИТИ АН СССР. 1983. № 7.
121. Перечень научно-технической документации, подлежащей приему в государственные архивы СССР и методические рекомендации по экспертизе ценности научно-технической документации. М.: ВНИИДАД, 1987.
122. Пилипчук М.И. Применение компьютерной технологии записи данных на CD-R для обеспечения сохранности фотодокументов // Техника кино и телевидения. 2001. № 2. С. 40^2.
123. Пилипчук М.И., Коростелев Ю.В., Лисютин А.П. Применение компьютерной технологии копирования информации для обеспечения сохранности фонодокументов // Отечественные архивы. 2000. № 2. С. 51.
124. Пилипчук М.И., Лисютин А.П. Система хранения архивных фонодокументов на оптических дисках // Оптические диски и их использование в архивах. М.: ГАС России, РНИЦКД, 1993. С. 47-53.
125. Пилипчук М.И., Устинов В.А. Методические рекомендации по оценке сохраняемости оптических дисков при архивном хранении. Депонируемая рукопись № 10190 СИФ ОЦНТИ ВНИИДАД, 1998.
126. Положение о Федеральной архивной службе России // Отечественные архивы. 1999. № 1.
127. Попов И.И. Некоторые модели оценки и оптимизации информационных систем: математический аппарат моделирования // НТИ. Сер. 2. ВИНИТИ. 1981. № з.
128. Попов И.И. Некоторые модели оценки и оптимизации информационных систем: оценка качества лингвистического обеспечения // НТИ. Сер. 2. ВИНИТИ. 1981. № 6.
129. Попов И.И., Романенко А.Г. Моделирование информационных систем (теория и приложение) // Итоги науки и техники. Сер. «Информатика». М.: ВИНИТИ АН СССР. 1983. № 5.
130. Порядок отбора и приема на архивное хранение документов, созданных средствами вычислительной техники. Основные положения. Депонированная рукопись № 9745 СИФ ОЦНТИ, ВНИИДАД, 1995.
131. Применение цифровой обработки сигналов. / Под ред. А. Оппенгей-ма. М.: Мир, 1980.
132. Прэтт У. Цифровая обработка изображений: В 2 кн. М.: Мир, 1982. Кн.1.
133. Прэтт У. Цифровая обработка изображений: В 2 кн. М.: Мир, 1982. Кн.2.
134. Прюнар Г. Очистка компакт-дисков // HiFi Video. 1988. № 147. С.75-80.
135. Чернин Э.А., Шапошников А.С., Залаев Г.З. и др. Разработка системы страхового копирования архивных документов и фондов пользования на основе современных информационных технологий. Отчет о научно-исследовательской работе. М.: ВНИИДАД, 1996 г.
136. Раскин Д.И. Задачи и особенности информационной базы АИПС «История памятников архитектуры и градостроительства Москвы, Ленинграда и их пригородов» // Архивоведение, археография. М.: Главархив, 1984. № 4 (32).
137. Рекомендации по отбору на государственное хранение электронных научных и технических документов. М.: ВНИИДАД, 2002.
138. Родионов И. И. Базы данных деловой и коммерческой информации на компакт-дисках. М.: ДИЗ, 1994.
139. Родионов И.И., Гиляревский Р.С., Цветкова В.А., Залаев Г.З. Рынок информационных услуг и продуктов. М.: МК-Периодика. 2002. 549 с.
140. Розенфельд А. Распознавание и обработка изображений. М.: Мир, 1972.
141. Российская энциклопедия информации и телекоммуникаций. М.: АО «Международное бюро информации и телекоммуникаций». 1996. Т.1.
142. Рыбаков Ф.И., Руднев Е.А., Петухов В.А. Автоматическое индексирование на естественном языке. М.: Энергия, 1980.
143. Савчук А. Пространственно-зависимые искажения изображения, вызванные движением, и реставрация изображений // Обработка изображений при помощи цифровых вычислительных машин. М.: Мир. 1973.
144. Серебренников А.И., Тихонов С.А., Устинов В.А., Синенко Б.В. Условия хранения компакт-дисков. Аналитический обзор. Депонированная рукопись N 134-95 СИФ ОЦНТИ ВНИИДАД, 1995.
145. Сиберт У.М. Цепи, сигналы, системы: В 2 ч. М.: Мир. 1988. 4.2.
146. Смирнов Д.С., Логутенко О.И. Аппаратные средства мультимедиа. Аудио система PC. Спб.: БХВ Санкт-Петербург, 1999.
147. Советский энциклопедический словарь. М.: Советская энциклопедия, 1989.
148. Создание современных архивных справочников на основе дифференцированного подхода: Методическое пособие. М.: ВНИИДАД, 2003.
149. Гарскова И.М. Стандарт описания исследования (SSD), принятый в Датском архиве исторических данных // Базы и банки данных в исторических исследованиях. 1994. С. 187-188.
150. Строук Дж. У., Халиуа М., Тон Ф., Виллаш Д. Г. Улучшение качества и восстановление трехмерных изображений голографическими методами // ТИИЭР. 1977, Т. 65. № 1.
151. Субботин М.М. Гипертекст новая форма письменной коммуникации. // Итоги науки и техники. М.: ВИНИТИ АН СССР. 1994. № 5.
152. Тайц А.Н. Каталог Photoshop Plug ins. СПб., 1999.
153. Тибодо К. Хранение и миграция электронных документов: положение на сегодняшний день // Вестник архивиста. 2000. № 5—6. С.21-23.
154. Тихонов В.И. Аутентичность и целостность электронных документов при долговременном хранении // Вестник архивиста. 2002. № 4-5. С. 166-190.
155. Тихонов В.И., Юшин И.Ф. Современные концепции электронных архивов // Отечественные архивы. 1999. № 1. С. 18-27.
156. Трахтман A.M. Спектральная теория сигналов. М.: Советское радио, 1972.
157. Трахтман A.M., Трахтман В.А. Основы теории дискретных сигналов на конечных интервалах. М.: Советское радио, 1975.
158. Труды международного семинара «Управление архивным делом». М.: ГАС России, 1995.
159. Тюнеев В.А. Федерализм в «Основах законодательства Российской Федерации об Архивном Фонде Российской Федерации и архивах»: проблемы реализации развития // Отечественные архивы. 1999. № 5.
160. Уинтц Д. Кодирование изображения посредством преобразований // Обработка изображений при помощи цифровых вычислительных машин. М.: Мир, 1973.
161. Условия хранения компакт-дисков (Обеспечение физико-химической сохранности фонодокументов на оптических компакт-дисках). Аналитический обзор. М.: РНИЦКД, 1992.
162. Устинов В.А. Обеспечение физической сохранности архивных документов // Техника кино и телевидения. 2000. № 6. С. 44-47.
163. Устинов В.А., Меркулов В.Н., Тихонов С.А. Новые носители архивной информации // Вестник архивиста. 1999. № 1(49). С. 32-51.
164. Федеральный закон Российской Федерации «Об электронной цифровой подписи». М., 2001 г.
165. Френке JI. Теория сигналов. М.: Советское радио, 1974.
166. Хуанг, Шрейбер, Третьяк. Обработка изображений // Обработка изображений при помощи цифровых вычислительных машин. М.: Мир, 1973.
167. Цифровое копирование архивных документов для обеспечения сохранности. Аналитический обзор. М.: РНИЦКД, 1993
168. Шапошников А.С. Основные направления и перспективы оцифрования архивных документов // Отечественные архивы. 1996. № 3. С. 26-30.
169. Шапошников А.С. Основные принципы построения АИПС на документы Государственного архивного фонда СССР // Вопросы информационного обслуживания. М.: МГИАИ, 1983.
170. Шварцман М.Е. Использование метаданных для каталогизации российских ресурсов Интернета // Электронные библиотеки. 1998. Т. 1. Вып. 2.
171. Шварцман М.Е. К вопросу каталогизации ресурсов Интернета // Мир библиографии. 1998. № 5.
172. Шеннон К. Математическая теория связи // Работы по теории информации и кибернетике М.: ИЛ, 1963.
173. Шрайберг Я.Л., Москалева Г.И., Ксенофонтова Г.П. Автоматизация предварительного заказа зарубежных изданий: Проблемы и пути решения // Научные и технические библиотеки СССР. 1987. № 9.
174. Шрайберг Я.Л. Создание общероссийской библиотечной компьютерной сети ЛИБНЕТ: цели, проектные решения и перспективы // Научные и технические библиотеки. 1995. №2.
175. Шрайберг Я.Л. Онлайновый компьютерный библиотечный центр -OCLC: Краткий очерк // Научные и технические библиотеки. 1995. Спец. вып.
176. Шрайберг Я. Л. Библиотеки, компьютерные технологии и информационного общества: год прошедший и год грядущий: Пленарный доклад// Научные и технические библиотеки. 2003. №1.
177. Эндрюс Г. Применение вычислительных машин для обработки изображений М.: Энергия, 1977.
178. Юшин И.Ф. Источниковедение и архивоведение в цифровую эпоху: очень недоверчивые сестры // Информационный бюллетень Ассоциации «История и компьютер». 2002. №30. С.251-254.
179. Юшин И.Ф., Тихонов В.И. Будут ли в «электронной» России электронные архивы? // Отечественные архивы. 2002. № 5. С.12-20.
180. Ярославский Л.П. Введение в цифровую обработку изображений. М.: Советское радио, 1979.
181. Ярославский Л.П. Цифровая обработка изображений // Радиотехника. 1977. Т. 32, № 11. С. 72.
182. Akcyn R.M., VcCracen D.L., Voider Е.А. Distributed Hypermedia system for managing knowledge in organization J. Communication of the ACM. 1988. -Vol.31. N7.
183. AS 4390.1-1996. Australian Standard. Records Management. Part 1: General: Part 3: Strategies. 1996.
184. AS 4390.3-1996. Australian Standard. Records Management. Part 4: Control. 1996.
185. Authenticity Task Force Final Report. International Research on Permanent Authentic Records in Electronic Systems (Inter PARES Project). October 18,2001.
186. Blankinship W.A. Note on computing autocorrelations. // IEEE Trans., 1975, v: ASSP-22. N 1. P. 76.
187. Borko H. Automatic indexing: tutorial. // SIGIP forum, 1982. Vol. 16. N 3.
188. Challenges in Managing and Preserving Electronic Records. GAO. United States General Accounting Office. Report to Congressional Requesters. June 2002. GAO-02-586.
189. Cleveland Donald В., Cleveland Ana D., Wise Olga B. Less than full-text indexing using a non-boolean searching model // J. Amer. Soc., Inf. Sci., 1984. Vol. 35. N 1.
190. Davis L.S. A survey of edge detection techniques // Computer Graphics and Image Processing, 1975. Vol. 4. N 3. P. 248.
191. Digital imaging technology for preservation. N.-Y., 1994.
192. Duranti L., Macneil H., Underwood W. E. Protecting Electronic Evidence: a Second Progress Report on a Research Study and its Methodology // Archive & Computer, 1996. N 1.
193. English L.K. New directions in high performance films // Materials engineering, 1988. Vol. 105. N 7. P. 43^17.
194. Fisher M.J. Digital paper promises cost storage gains for optical media // Datamation, 1988.Vol. 41. P. 32.
195. Extrom M.P., Mayall B.H. Digital image processing at Lawrence Liver-more laboratory// Computer, 1974. May. P. 72.
196. Goodall W. Television by Pulse Code Modulation // Bell Syst. Tech. J, 1951. Vol. 30.
197. Guide for Managing Electronic Records from an Archival Perspective. International Council on Archives, Committee on Electronic Records. Paris, 1997.
198. Habibi A. Hybrid coding of pictorial data. // IEEE Trans., 1974. Vol. COM-22. N 5.
199. Habibi A., Robinson G.S. A survey of digital picture coding // IEEE Computer, 1974. Vol. 7. N 5. P. 22.
200. Hedstrom M. Context and Custody: Strategies for Long-term Preservation of Electronic Records. Abstract for International Workshop «Archives in Cyberspace: Electronic Records in East and West». Moscow, 4-6 January 1996.
201. Huang T.S. Introduction // Picture processing and digital filtering/ Ed. by T.S. Huang. N.-Y.: Springer Verlag, 1975.
202. Huffman D.A. A method for the construction of minimum-redundancy codes// Proc. IRE, 1952. Vol. 40.
203. Hutchins W.J. The generation of syntactic structures from a semantic base. L., 1971.
204. Hutchins W.J. Automatic Document Selection without Indexing. // Journal of Documentation. № 4, Vol. 23, 1967.
205. McLeod J. Make room for optical storage // EUSA, 1989. Vol. 9. P. 82-85, 87.
206. Panter P., Dite W. Quantization Distortion in Pulse Code Modulation with Non-uniform Spacing of Levels // Proc. IRE Trans. Inf. Theory, IT-6, March 1960.
207. Patterson C.L., Buechler G. Digital image processing at the Aerospace Corporation // Computer, May 1974. P. 46.
208. Photoshop 5.5 для Windows. Библия пользователя / Пер. с англ. М.: Издательский дом «Вильяме», 2000.
209. Pratt W.K., Welch L.R., Chen W. Slant transforms for image coding // IEEE Trans., 1974. Vol. COM-22. N8.
210. Preservation Task Force Final Report. Draft for Comment International Research on Permanent Authentic Records in Electronic Systems (Inter PARES Project). October 31, 2001.
211. RLG Digital Image Access Project, International Conference. California, 1994.
212. Ross A. Choosing a Starting Point for Installing Document Image Processing // Digital Imaging Technology. L., 1991.
213. Rothenberg J. Avoiding Technological Quicksand: Finding a Viable Technical Foundation for Digital Preservation. A Report to the Council on Library and Information Resources. Washington, 1999.
214. Salton G. Automatic indexing: a summary // Inf. Manag. Res. Eur. Proc. EURIM 5 Conf., Versailles, May. 1982. L., 1983.
215. Sparck J.K. A Statistical interpretation of Specificity and its Application in Retrieval // J. of Documentation, 1972. Vol.28. N 1. P. 11-21.
216. Thibodeau K. Archival Options for Preservation of Electronic Records. June 16, 1996.
217. Van Tyle Sherrie Archiving gets a shot in the arm // EUSA, 1995. N 62.
218. Zalaev G. Means of support of dissemination of electronic information. DLM-FORUM'99 "European Citizens & Electronic Information: the memory of the Information Society. Brussels 18-19.10.1999: Abstracts -Brussels. 1999. P. 74-75.
219. Обзор проектов по оцифровке документов
220. Михайлов О.А., Армадерова Г.Б., Макаревич И.Л. Влияние информационной технологии на теорию и практику архивного дела. ГАС России. РНИЦКД. М., 1992.
221. Roginski В. и др. Digital Imaging and Optical Digital Data Disk Storage Systems Системы цифровых изображений и хранения на цифровых оптических дисках. Национальный архив США. Вашингтон, 1994. (Англ.)
222. В Британской библиотеке переведен на компактные ОД Генеральный каталог печатных книг 4 млн. библиографических описаний в 360 томах, содержащих 176 тыс. страниц. Перевод занял 4 года, в работе участвовало более 100 человек.
223. Магнитными и оптическими дисками был оснащен, осуществлявшийся в 1989 г. в Кувейте проект создания машиночитаемого архива "Всеарабский фонд экономического и социального развития".
224. В Нидерландах реализована Архивная информационная система AMS, включающая, в частности, нотариальные документы большого исторического периода с автоматизированным поиском изображений.
225. Обеспечение доступа к оригиналам архивной информации, посредством поиска вех релевантных дескрипторов.
226. Получение цифровых образов документов, записанных на ОД на экране монитора или в виде распечатки, что устраняет проблему физического контакта с оригиналом.
227. Обеспечение некоторых аспектов управления, связанных с использованием архива, например, проведение статистических исследований, контроль за перемещением в хранении и т.д.
228. Особое внимание было уделено развитию дружественного интерфейса, реализованного с помощью меню, что делает его доступным даже для несведущего в компьютерах человека.
229. В цифровую форму также переводились вся секция Карт и планов (более 7 тыс. ед. хранения).
230. Следует вкратце охарактеризовать несколько проектов оцифровка архивных фондов, выполненных в архивах Германии.
231. Третья часть архива содержит документы по истории освободительных движений, по объединению Европы, движению за мир, о студенческих выступлениях и борьбе мир-любивых сил против распространения ядерного оружия.
232. Цель проекта создание цифрового научно-справочного аппарата в читальном зале Организации Фридриха Эберта, доступного через Интернет, и создание фонда пользования на цифровой основе.
233. Цифровая обработка списков иммигрантов в Государственном архиве в Гамбурге12.
234. Обработке подверглись документы, относящиеся к периоду 1850 1934 гг. В них содержатся сведения о 5 млн. иммигрантов, проследовавших через Гамбург.
235. Проект оцифровка фотоколлекции "Церкви EKKW" в Земельном церковном ар1Яхиве г. Касселя . Цифровой обработке должны быть подвергнуты 12000 фотографий архитектурных объектов.
236. Архивар, 1999, №4, с. 327-329
237. Архивар, 2000., №4, с. 326-329
238. Bettina Wischhofer. Projekt Digitalisierung dtr Fotosammlung "Kirchen dtr EKKW" im Landeskirchlichen Frchiv Kassel. Der Archivar, 2000, s. 241 -245
239. Технические параметры: формат обрабатываемых фотографий 30X21 см., требуемое разрешение сканирования 300 точек/дюйм, 256 градаций серого, размер файла около 8 Мб, сохранение в формате JPEG (80%) размером около 1,5 Мб.
240. Используемая техника: 20 Gb запоминающее устройство, PC 500 MHz , 128 MB RAM, 8 MB графическая карта, CD записывающее устройство, высокопроизводительный сканер, программа Photoshop 5.0.
241. Отечественный опыт оцифровки архивных документов и создания электронных архивов14
242. Примерное количество слайдов — около 3 тысяч единиц хранения. Точное количество переводимых в цифровую форму документов на нынешний момент неизвестно по причине изначального отсутствия описей к ним.
243. Немаловажно, что цифровая коллекция создана в результате повышения эффективности использования уже имеющегося оборудования и людских ресурсов, без привлечения значительных материальных средств.
244. Библиотека делает упор на организацию межбиблиотечного сотрудничества в этой сфере, обмен цифровыми копиями изданий и устранение пробелов в фондах библиотек. Такое сотрудничество уже начато с Челябинской областной научной универсальной библиотекой.
245. Электронные документы (электронные версии книг, рефератов, карт, открыток) собираются в базах данных, включенных в программу "Библиотека 2000" .Кроме этого на первой странице orel.rsl.ru выведен алфавитный указатель авторов выставленных книг. .
246. Тип базы: полный текст, изображения
247. Тематическое покрытие: мировая история, включая политику, религию, науку, технику и искусство.1. Язык: английский.
248. Доступ: начиная с 1996 года.
249. Временной охват: с до н.э. до наших дней.1. Поставщик: Gale Group.
250. Системные требования: Microsoft Windows; CD-ROM дисковод.1. История авиации
251. Тип базы: видео, аудио, изображения
252. Тематическое покрытие: история полета и авиация.1. Язык: английский.
253. Поставщик: Ledge Multimedia.
254. Системные требования: 486SX/25 или выше; Windows 3.1 или выше; 4MB RAM; жесткий диск, имеющий не менее 7 MB свободных; двухскоростной CD-ROM дисковод; звуковая карта.1. Космос
255. Тип базы: полный текст, изображения, аудио, видео.
256. Тематическое покрытие: солнечная система, включая галактики, туманности, сверх новые звезды, кометы, а также галактические вулканы, гейзеры и штормы.1. Язык: английский.
257. Доступ: начиная с 1995 года.
258. Поставщик: Hopkins Technology, LLC.
259. Системные требования: IBM PC или совместимый; Microsoft Windows 3.1 или выше; звуковая карта; CD-ROM дисковод.1. Полет Аполлона XIII
260. Тип базы: аудио, изображения, видео.
261. Тематическое покрытие: полет Аполлона XIII.1. Язык:английский.
262. Доступ: начиная с 1995 года.
263. Временной охват: 1967 год.
264. Поставщик: Odyssey Interactive.
265. Системные требования: уточняются у поставщика.1. Астрономия
266. Тип базы: изображения, видео, полный текст.
267. Тематическое покрытие: астрономия и космические исследования.1. Язык: английский.1. Обновление: ежегодно.
268. Поставщик: Network Cybernetics Corporation.
269. Системные требования: MS-DOS; OS/2; Apple Macintosh; или UNIX.
270. Вне земли (астероиды, луны, планеты)
271. Тип базы: изображения, полный текст, видео.
272. Тематическое покрытие: солнечная система.1. Язык: английский.
273. Поставщик: Baker & Taylor, Inc., Information and Entertainment Services.
274. Системные требования: 386 или выше IBM PC или совместимый; Microsoft Windows 3.1 или выше; 4MB RAM; CD-ROM дисковод; цветной монитор. Apple Macintosh system 7 или более поздний; 4MB RAM; CD-ROM дисковод; цветной монитор.1. Земля и космос
275. Тип базы: полный текст, изображения, аудио, видео, аудио
276. Содержание: фрагменты фотографий, заголовки, короткие анимационные презентации и отрезки звукозаписи в области астрономии.
277. Тематическое покрытие: астрономия, включая фазы луны, кометы, космические исследования, галактики и большой взрыв.1. Язык: английский.
278. Доступ: начиная с 1994 года.
279. Поставщик: Armagh Planetarium.
280. Системные требования: IBM PC или совместимый; 386 процессор; VGA монитор; звуковая карта.1. Снимки земли из космоса.1. Тип базы: изображения.
281. Доступ: начиная с 1995 года.
282. Поставщик: Now What Software.
283. Системные требования: Microsoft Windows 3.1, Microsoft Windows 95 и Apple Macintosh.1. Патентный архив.
284. Тип базы: патенты/торговые марки; изображения, полный текст.
285. Замечание: база данных должна загружаться в Lotus Notes server.
286. Тематическое покрытие: американская и европейская патентная информация, включая полный текст патентных заявок и патентов, включая графики и диаграммы.1. Язык: английский.
287. Доступ: начиная с 1994 года.
288. Временной охват: текущая информация.
289. Обновление: по мере необходимости.1. Поставщик: MicroPatent.
290. Системные требования: IBM PC или совместимый; жесткий диск; Microsoft Windows 3.1 или выше.1. Архив Эйнштейна.
291. Тип базы: статистика, числовая БД, изображения.
292. Тематическое покрытие: астрономические данные и наблюдения.1. Язык: английский.
293. Поставщик: Harvard-Smithsonian Center for Astrophysics.
294. Системные требования: уточняются у поставщика.
295. По результатам проведенной работы были сделаны следующие выводы:
296. Для хранения копий архивных документов могут использоваться оптические диски с однократной записью, обеспечивающие высокую плотность фиксации информации и высокую (по сравнению с другими видами носителей) надежность ее хранения CD-R или CD-WORM.
297. Зарубежные исследования и рекламные материалы сообщают о сроке хранения информации в диапазоне от нескольких лет до ста лет.
298. Статистика для сайта РГАНТД2 61. Последнееобновление:1. Отчетный период:rgantd.ru14 Янв 2005 11:001. Дек20041. Когда: Кто:1. Посетители:1. Запросы: Прочие:
299. Сводная таблица Days of month Дни недели Время (на сервере)
300. Домены/страны Весь список Хосты Весь список Последнее посещение IP без имени домена Роботы Весь список Последнее посещение
301. Продолжительность визитов Типы файлов Доступ Весь список Просмотрена первой Просмотрена последней Операционные системы Версии Неизвестно Браузеры Версии Неизвестно
302. Откуда Ссылающиеся поисковики Ссылающиеся сайты Поиск Поисковые фразы Поисковые слова
303. Miscellanous Ошибки HTTP Не найденные страницы1. Сводная таблица
304. Первое посещение Сводная таблица Последнее посещение
305. Дек 2004 -00:46 Месяц Дек 2004 31 Дек 2004 - 23:51
306. Уникальных посетителей Количество посетителей Страниц Скачано Байт2302 2806 (1.21 заходов на посетителя) 13971 (4.97 Страниц/посетителя) 76974 (27.43 Скачано/посетителя) 483.60 MB (176.48 КВ/посетителя)1. J'rllJ
307. Янв Фев Map Апр Май Июн Июл Авг Сен Окт Ноя Дек 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004 2004
308. Месяц Уникальных посетителей Количество посетителей Страниц Скачано Байт
309. Янв 2004 1100 1307 7350 32352 344.63 MB
310. Фев 2004 591 668 3252 15968 102.91 MB
311. Map 2004 2493 2988 12582 73713 1.34 GB
312. Апр 2004 1918 2297 9978 57550 795.74 MB
313. Май 2004 1374 1666 7720 39027 269.29 MB
314. Июн 2004 1190 1556 7993 38060 279.78 MB
315. Июл 2004 235 1421 3810 20163 136.67 MB
316. Авг2004 988 1332 6327 30196 204.01 MB
317. Сен 2004 1224 1538 7901 40832 484.49 MB
318. Окт 2004 1447 1830 8472 45682 311.78 MB
319. Ноя 2004 1667 2089 8220 49004 464.04 MB
320. Дек 2004 2302 2806 13971 76974 483.60 MB
321. Итог 16529 21498 97576 519521 5.13 GB1. Days of montha 1. ,л j, J* J J01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
322. Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек Дек1. Средне1. Лрнь1. Количество1. Гтпяиммr-i — ■ посетителей
323. Дек 2004 90 192 1795 6.81 MB
324. Дек 2004 93 346 2095 6.93 MB
325. Дек 2004 63 164 1109 12.96 MB
326. Дек 2004 42 174 767 5,64 MB
327. Дек 2004 52 142 1113 7.95 MB
328. Дек 2004 98 285 . 1697 6.36 MB
329. Дек 2004 92 246 1908 6.07 MB
330. Дек 2004 100 332 2048 11.77 MB
331. Дек 2004 95 649 2844 12.39 MB
332. Дек 2004 95 229 1854 6.63 MB
333. Дек 2004 51 227 1114 4.40 MB
334. Дек 2004 41 88 615 3.10 MB
335. Дек 2004 88 310 1870 6.89 MB
336. Дек 2004 81 277 2062 6.20 MB
337. Дек 2004 87 354 1818 6.86 MB
338. Дек 2004 77 238 1385 5.20 MB
339. Дек 2004 65 ■241 1429 6.62 MB
340. Дек 2004 48 235 1209 15.03 MB
341. Дек 2004 49 169 936 3.36 MB
342. Дек 2004 90 350 2346 30.22 MB
343. Дек 2004 80 199 1710 26.39 MB
344. Дек 2004 74 287 1933 13.66 MB
345. Дек 2004 115 333 2935 35.77 MB
346. Дек 2004 186 697 5172 24.14 MB
347. Дек 2004 90 281 2295 14.93 MB
348. Дек 2004 83 352 2419 12.02 MB
349. Дек 2004 121 455 3548 38.52 MB
350. Дек 2004 141 460 3938 23.08 MB
351. Дек 2004 161 1131 6159 25.44 MB
352. Дек 2004 159 4148 11717 87.36 MB
353. Дек 2004 99 380 3134 10.89 MB
354. Среднее 90.52 450.68 2483.03 15.60 MB
355. Итог 2806 13971. 76974 483.60 MB1. Дни недели1. Пн Вт Ср Чт Пт Сб Вс1. День Страниц Скачано Байт1. Пн 350 2365.25 20.50 MB
356. Вт 295.50 2404.50 15,44 MB
357. Ср 459.20 2750.60 12.91 MB
358. Чт 1142.80 4195.20 29.53 MB
359. Пт 342.20 2539.60 12.25 MB
360. Сб 229.25 1346.25 10.00 MB1. ВС 187.75 1270.75 6.61 MB1. Время (на сервере)0 • 1 2 3 (1С 4 « 5 6 7 т т т 8 т 9 10 11 * т Ф 12 13 14 •> m с 15 • 16 17 18 • т » 19 т 20 21 22 т * т 23 »
361. Посещения с домена/страны (первые 20) Весь список
362. Домены/стран ы Страниц Скачано Байт
363. ЧР ? Неизвестно ip 3645 22983 128.02 MBill Russian Federation ru 3634 26263 114.16 MB I'"" "ф Commercial com 714 3030 16.59 MB
364. Ш Ukraine ua 286 2202 15.36 MBwm Poland Pi 145 730 4.79 MB
365. Ш Canada ca 144 709 5.99 MB k иm Estonia ее 133 1144 3.82 MBwm Netherlands nl 102 364 27.38 MB 11.rael il 89 806 2.91 MB ЁГs Latvia Iv 84 524 2.10 MB ipgj Lithuania It 69 464 1>31 MB i.
366. France fr 55 422 3.34 MB iiц . United Kingdom uk 51 253 6.02 MB i
367. Bulgaria bg 42 160 843.92 KB 9 Й i
368. Я Belarus Dy <4-/ а / ч 1./4. i'iD w ifiij USA Educational edu 34 114 347.04 KB s 9 iв Former USSR su 32 251 787.91 KB 1
369. Germany de 31 313 1.15 MB iв Turkey tr 22 144 430.59 KB i i1. Прочие 161 1563 8.32 MB
370. Хосты (первые 20) Весь список - Последнее посещение - IP безимени домена
371. Прочие 8042 65422 387,87 MB
372. Роботы (первые 10) Весь список - Последнее посещение
373. Роботы Скачано Байт Последнее посещение
374. Googlebot (Google) 557 4.87 MB 31 Дек 2004- 12:20
375. Yandex bot 349 2.03 MB 31 Дек 2004- 23:051.ktomi Slurp 309 3.11 MB 31 Дек 2004 21:30gazz 247 3.84 MB 20 Дек 2004 02:16
376. MPlanetwide 165 614.44 KB 30 Дек 2004 14:18
377. Unknown robot (identified by 'crawl') 118 48.89 MB 31 Дек 2004 17:22
378. Jeeves 57 416.96 KB 30 Дек 2004 20:10psBot 46 473.29 KB 16 Дек 2004 14:04
379. MSIECrawler 36 102.85 KB 12 Дек 2004 18:10
380. Alexa (IA Archiver) 27 249.90 KB 27 Дек 2004 19:251. Прочие 66 461.62 KB1. Продолжительность визитов
381. Количество посетителей: 2806 Среднее: 204 s Количество посетителей Процент0s-30s 1933 68.8 %30s-2mn 318 11.3 %2mn-5mn 214 7.6 %5mn-15mn 182 6.4 %15mn-30mn 70 2.4 %30mn-lh 54 1.9 %lh+ 35 1.2 %1. Типы файлов
382. Типы файлов Скачано Процент Байт
383. СП Image 49398 64.1 % 84.62 MBш jpg Image 10617 13.7 % 143.78 MBhtm HTML static page 6721 8.7 % 64.66 MBini Config file 5220 6.7 % 13.31 MB
384. CSS Cascading Style Sheet file 2988 3.8 % 3.44 MBhtml HTML static page 1614 2 % 17,45 MB3 php HTML dynamic page or Script file 160 0.2 % 630.11 KBwav Audio 99 0.1 % 56.15 MBщ avi Video 63 0 % 83.63 MB- rtf 40 0 % 3.20 MB
385. Pi HTML dynamic page or Script file 28. 0 % 1.42 MBв doc Document 13 0 % 3.64 MBexe HTML dynamic page or Binary runtime 13 0 % 7.69 MB
386. Прочие 4037 50.49 KB 1172 1311
387. Операционные системы (первые 10) Весь список/Версии1. Неизвестно
388. Операционные системы Скачано Процентш Windows 74358 96.6 %1. Неизвестно 1301 1.6 %1. Macintosh 683 0.8 %1.nux 631 0.8 %1. OpenBSD 1 0 %
389. Браузеры (первые 10) Весь список/Версии - Неизвестно
390. Браузеры Скачивалка Скачано Процент
391. Откуда Страниц Процент Скачано Процент
392. Набор адреса/закладки 2351 16.8 % 4734 6.1 %1. Ссылки из NewsGroup
393. Ссылка с поискового сервера Весь список 918 6.5 % 1336 1.7 %-Yandex 661 973 - Google 147 237 - Google (Images) 43 56 - MSN 37 37 - AltaVista 25 28 - Yahoo 4 4 - Ask Jeeves UK 1 1
394. Ссылка на сайте (другая страница на этом сервере) 9165 65.6 % 68294 88.7 %
395. Ссылка с новостной группы 4 0 % 75 0 %26SL
396. Поисковые фразы (первые 20) Поисковые слова (первые 20)1. Весь список Весь список
397. Различные ключевые слова Поиск Процент 1036 Кл. слово Поиск Процентдокументация 49 1.7 %
398. СГРэСЪР- P°PTPsP»P»PsPS 48 4.7 % P°Pi'PsP»P»PsPS 48 1.6 %
399. Союз-Аполлон 47 4.6 % CfPsCTiP- 48 1.6 %техническая документация 36 3.5 % Союз-Аполлон 47 1.6 %союз 15 1.4 % история 40 1.4 %ракета Р-11 15 1.4 % техническая 38 1.3 %
400. Постановление Правительства о создании комплекса тяжелого класса 14 1.3 % создания 30 1 %1. Земли 27 0.9 %гурво 14 1.3 % архив 27 0.9 %спутник Великобритания 14 1.3 % 0 21 0.7 %
401. Серебренников А. И. 14 1.3 % техники 21 0.7 %
402. CUPSPIP°CbCU 1994 14 1.3 % . из 21 0,7 %летчики испытатели вов 14 1.3 % в 20 0.7 %
403. ГИДРОСПЕЦПРОЕКТ 14 1.3 % космонавт 20 0.7 %климатические условия хранения носителей данных 14 1.3 % космоса 19 0.6 %1. История 18 0.6 %
404. Съемка Земли из космоса !4 1.3 % хранения 18 0.6 %
405. PHP(jPSC%oPePSC< PePsCfPjPsPSP°PIC,C< 14 1.3 % спутник 18 0.6 %ракета 18 0.6 %
406. P±PsP»C.PsPIPec,PePSPsPI PI. C„. 14 1.3 %на 17 0.6 %лисютин игорь 14 1.3 % Прочие слова 2263 80 %магазин Наташа 14 1.3 %
407. Космонавт участник ВОВ 13 1.2 %неделин митрофан иванович 12 . 1.1 % 1. Другие фразы 636 63.3 % 1. Miscellanous1. Miscellanous
408. Add to favourites 0/ 2302 Посетители 0 %
409. Browsers with Java support
410. Browsers with .Macromedia Director Support
411. Browsers with Flash Support
412. Browsers with Real audio playing support
413. Browsers with Quictime audio playing support1. Browsers with PDF support1. Коды ошибок HTTP
414. Коды ошибок HTTP Скачано Процент Байт
415. Document Not Found 641 58.1 % 173.81 KB
416. Partial Content 437 39.6 % 320.10 MB
417. Moved Permanently 12 1 % 3.50 KB
418. Bad Request 12 1 % 4.16 KB
419. Advanced Web Statistics 5,6 (build 1.533) Created by awstats
420. Статистика для сайта РГАКФД2€Ъ
-
Похожие работы
- Методы и модели проектирования тематических баз данных при автоматизации деятельности архивных учреждений
- Информационные технологии в создании научно-справочного аппарата и использовании архивных документов национального архива Республики Карелия. 1995-2005 гг.
- Система защиты архивных документов от утрат и хищений: история и современное состояние
- Архивы в системе социокультурных учреждений России
- Организация использования научно-технической документации в государственных архивах