автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Автоматизированная технология переиздания лексикографических источников XVIII-нач. XIX вв.

кандидата технических наук
Филиппович, Анна Юрьевна
город
Москва
год
2007
специальность ВАК РФ
05.13.06
Диссертация по информатике, вычислительной технике и управлению на тему «Автоматизированная технология переиздания лексикографических источников XVIII-нач. XIX вв.»

Автореферат диссертации по теме "Автоматизированная технология переиздания лексикографических источников XVIII-нач. XIX вв."

На правах рукописи

ФИЛИППОВИЧ АННА ЮРЬЕВНА

АВТОМАТИЗИРОВАННАЯ ТЕХНОЛОГИЯ ПЕРЕИЗДАНИЯ ЛЕКСИКОГРАФИЧЕСКИХ ИСТОЧНИКОВ XVIII - нач. XIX вв.

(на материале Словаря Академии Российской 1789-1794 гг.)

Специальность 05 13 06 «Автоматизация и управление технологическими процессами и производствами» (полиграфическое производство)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва - 2007

003160443

Работа выполнена на кафедре «Информационные технологии» в ГОУ ВПО «Московский государственный университет печати»

Научный руководитель - кандидат технических наук, профессор

Цыганенко Александр Максимович

Официальные оппоненты - доктор технических наук

Леонтьева Нина Николаевна

кандидат технических наук, доцент Поляков Владимир Николаевич

Ведущая организация Российская государственная библиотека

Защита диссертации состоится «01» ноября 2007 г. в 13-00 на заседании диссертационного совета К 212 147 02 при Московском государственном университете печати по адресу: 127550, г Москва, ул. Прянишникова, д 2а

С диссертацией можно ознакомиться в библиотеке Московского государственного университета печати

Автореферат разослан 29 сентября 2007 г

Ученый секретарь

диссертационного совета К 212 147 02 доктор технических наук, профессор

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Одной из актуальных проблем современности является недоступность текстовых источников культурного наследия для прикладных исследований и возможность их исчезновения из-за несовершенства способов хранения информации В этом случае решение проблемы доступности — повторное введение источников (книг) в научный оборот, которое осуществляется их копированием и переизданием

В случае печатного переиздания используются две технологии Традиционное факсимильное переиздание создается путем репродуцирования Такой способ позволяет сохранить историческую традицию, исходную форму издания, его палеографические компоненты Другой способ переиздания - это наборное издание с современной (упрощенной) гарнитурой, электронная наборная форма текста которого позволяет осуществить переработку и фильтрацию данных

Сегодня традиционное тиражирование и книгораспространение не являются эффективным решением проблемы доступа к источникам и их сохранения, поэтому необходим перевод книг в цифровую форму, разработка электронных изданий, публикация их в Интернет

Таким образом, с одной стороны следует сохранить исходную историческую форму издания, с другой стороны сделать возможным эффективный доступ, обработку и актуальность источников

Описание отдельных компонент технологии переиздания представлены в ряде публикаций, однако обобщенной технологии переиздания исторических источников в научных публикациях не представлено Требуется комплексное решение проблемы переиздания текстовых источников культурного наследия - разработка интегрированной автоматизированной технологии печатного и электронного издания.

Наиболее трудоемкие этапы переиздания, такие как набор и корректура, связаны с особенностями лексического состава текста исторических источников. При решении задачи введения исторических источников в научный оборот первыми следует переиздать лексикографические издания, в которых зафиксирован язык эпохи Фундаментальные основы лексикографии закладывали так называемые академические словари, и первый такой словарь, созданный в 1789-1794 гг, это Словарь Академии Российской (САР) По его образцу были созданы другие словари ХУШ-ХГХ вв На примере переиздания Словаря Академии Российской в работе разработана автоматизированная технология

Объект исследования. Объект исследования диссертационной работы является многокомпонентным и состоит из методов и технологии печатного и электронного переиздания, печатных лексикографических и других издания XVIII века, в том числе Словаря Академии Российской 17891794 гг , компонент изданий шрифтов, элементов оформления, лексикографических единиц, структур словарных статей и т п

Цель и основные задачи исследования. Целью диссертационной работы является разработка новой интегрированной автоматизированной технологии современного переиздания (повторного введения в научный оборот) лексикографических источников XVIII - нач XIX вв В качестве основы для исследования выступает Словарь Академии Российской 17891794 гг

Для реализации цели в диссертационной работе решаются следующие задачи.

1 Выявление особенностей словарных изданий XVIII - нач XIX вв и анализ сложившейся практики печатного и электронного переиздания

2 Исследование эффективности процессов ввода текста САР при подготовке его к переизданию

3 Исследование корректурных процессов

4 Разработка методики подготовки факсимильных компонент переиздания (изображений и шрифтов).

5 Анализ структуры и разработка формальной модели САР

6 Разработка интегрированной технологии переиздания САР

7 Реализация технологий и разработка печатного, электронного издания САР

Методы исследования. Для решения поставленных задач в диссертации использовались методы компьютерной (квантитативной) лингвистики, математической статистики, исторической лексикологии и лексикографии, теории частот слов, множеств, вероятности, формальных языков и грамматик, объектно-ориентированные и реляционные подходы к проектированию ИС

Научная новизна. В работе получены следующие новые научные результаты:

1 Впервые проведены частотные исследования текста Словаря Академии Российской 1789-1794 гг, разработана квантитативная модель, выявлены параметры функции распределения частот слов и появления новых слов на страницах его печатного издания

2 Сделано теоретическое обоснование методик ввода текста с помощью ОСЛ-системы и корректуры текста на основе алгоритма дина-мически-пополняемого словаря-спеллера — основных компонентов лингвистического обеспечения автоматизированных систем переиздания текстов XVIII - нач XIX вв

3 Разработано формальное описание модели данных Словаря Академии Российской трехуровневой иерархической гнездовой структуры, шрифтовой разметки оригинального издания, структур словарных статей

Достоверность научных положений, рекомендаций и выводов.

Обоснованность научных положений, рекомендаций и выводов определяется корректным использованием математических методов и моделей

Достоверность положений и выводов диссертации подтверждена результатами исследований и экспериментальными данными, полученными при внедрении макета прохраммного комплекса. Предложенные определения и классификации апробированы на конференциях и в научных публикациях

Практическая значимость, ценность и реализация результатов работы.

Практически значимыми для сохранения культурного наследия и повторного введения в научный оборот печатных книг, словарей и других изданий ХУШ-ХГХ вв являются следующие результаты диссертационной работы

1 Опыт реализации новой интегрированной автоматизированной технологии современного переиздания (повторного введения в научный оборот) на примере Словаря Академии Российской 1789-1794 гг., представленный в диссертации и научных публикациях;

2 Выявленные основные шрифтовые гарнитуры, используемые в научных изданиях ХУП1 - нач XIX вв и лежащая в их основе типовая — названная Дашковской. Проведенная оценка объема научного книгоиздания с использованием Дашковской гарнитуры Установленные четыре словарных издания, использующие Дашковскую гарнитуру,

3 Автоматизированные методики ввода текстов словарных источников с помощью ОСЯ-систем и устранения систематических ошибок,

4 Методика подготовки факсимильных компонент издания лексикографических источников XVIII - нач. XIX вв ,

6 Разработанная структура лингвистической базы данных Словаря Академии Российской 1789-1794 гг. и методика ее заполнения

Практическую ценность имеют следующие результаты диссертационной работы

1 Реализованный вариант новой интегрированной автоматизированной технологии современного переиздания (повторного введения в научный оборот) Словаря Академии Российской 1789-1794 гг ,

2 Сформированный общий словник словоформ — словарь-спеллер объемом около 200000 лексических единиц — средство повышения эффективности информационного поиска и оптического распознавания текстов,

3 Базы данных Словаря Академии Российской 1789-1794 гг объемом 44460 структурных единиц (гнезд)

4 Электронное издание Словаря Академии Российской 1789-1794 гг (CD ROM и Интернет версии)

Результаты диссертационной работы реализованы в проектах

1 Проект Отделения историко-филологических наук РАН и Московского гуманитарного института им Е.Р.Дашковой «Переиздание шеститомного Словаря Академии Российской 1789-1794 гг » (2000-2006 гг ),

2 Проект Российского гуманитарного научного фонда «Интегрированная инструментальная информационно-программная среда для автоматизации исследований Словаря Академии Российской 1789-1794 гг» — Грант № 06-04-12412в (2006-2008 гг );

3 Проект Ижевского государственного технического университета «Информационная технология создания электронного издания Словаря Академии Российской 1789-1794 гг » — Договор № МУ/НИР-33 (2006 г )

Апробация работы. Основные положения диссертационной работы докладывались на следующих конференциях и семинарах.

1 Совместном заседании кафедры «Информационные технологии» и «Автоматизация полиграфического производства», МГУП, М, 2007

2 НТС кафедры «Системы обработки информации и управления», МГТУ им Н.Э Баумана, М, 2007

3. Современные информационные технологии и письменное наследие от древних рукописей к электронным текстам, международная научная конференция. Ижевск, 2006.

4 Роль книгоиздания в развитии международных научных и культурных контактов международная научная конференция М, 2005

Публикации. По тематике диссертационной работы имеется 11 печатных публикаций, одна в рецензируемом журнале

Структура работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложений Общий объем 176 страниц Библиография содержит 168 изданий, включая 19 электронных

КРАТКОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ.

Во введении обосновывается актуальность работы Ставятся основные цели и задачи исследования Приводится краткое содержание глав диссертации

В первой главе решается задача выявления особенностей словарных изданий XVIII - нач XIX вв и анализа сложившейся практики печатного и электронного переиздания

В первой части главы проводится исследование особенностей издания словарей ХУШ-Х1Х веков Выявлены и описаны следующие крупные словари Лексикон треязычный Поликарпова-Орлова, Российский Целлариус Гельтергофа, Словарь разноязычный Курганова, Церковный словарь Алексеева, Словарь Академии Российской 1789-1794 гг., Словарь Академии Российской по азбучному чину расположенный, Общий церковно-славяно-российский словарь, Словарь церковно-славянского и русского языка, Толковый словарь живого великорусского языка Даля Проанализированы источники, особенности формирования словников, структура, способ расположения материала, лексический состав текста и т п Выявлены основные типы словарей XVIII — нач. XIX вв , составлена классификационная схема по следующим признакам объект описания, количество языков, назначение (тип), способ изготовления, расположение слов, область использования, лексика, объем.

При анализе Словаря Академии Российской, выявлены и описаны следующие его характеристики источники словаря, способ расположения материала - гнездовой (словопроизводный), принципы отбора слов для словника, шрифтовая разметка (используемая для описания структуры словаря)

Во второй части главы проводится исследование электронных изданий (ЭИ) современных словарей. Рассматриваются электронные (локальные и Интернет) переводные словари, словари на поисковых порталах, толковые словари, энциклопедии, а также лингвистические программы, обеспечивающие работу со словарными текстами и электронные переиздания старинных рукописных и печатных словарей. Выявлены и описаны следующие ЭИ. электронные словари АВВУ Ьц^уо, словари и энциклопедии на поисковых порталах, проект «Русские словари», Словари и энциклопедии Оп1те - Вгс.асаёепнс ги, электронное издание «Путятина минея» По методу Черчмена-Акофа осуществляется сравнение ЭИ по основным функциональным характеристикам, и формируются требования и состав функций для ЭИ САР

В третьей части главы представлено исследование шрифтового оформления книг второй половины XVIII - нач XIX вв Выявлены основные шрифтовые гарнитуры, используемые в этот период, осуществлено сравнение их параметров, установлена типовая гарнитура конца XVIII века Гробе Цицеро на Миттель из образцов 1788 года, названная в работе Дашковской Данная гарнитура применялась для набора текста Словаря Академии Российской

При сравнении рисунков шрифтовых гарнитур были рассмотрены 12 гарнитур, получивших широкое распространение Наибольшее сходство с Дашковской гарнитурой имеют в прямом начертании образцы шрифтов 1788 типографии Академии наук Терция Прямая, Ординарный Миттель на Терцию, Корпус на Цицеро и шрифты типа Гробе Цицеро 50-70 годов XVIII века

Проведена оценка объема книгоиздания второй половины XVIII - начала XIX века и количества книг, изданных Дашковской гарнитурой и схожими с ней - это около 800-1000 изданий Среди рассмотренных примеров книг второй половины XVIII - начала XIX века (20 изданий) выявлены четыре словарных издания, использующие Дашковскую гарнитуру, при переиздании которых может быть использована представленная ИТ и электронный Дашковский шрифт Словарь Академии Российской (17891794), Словарь Академии Российской по азбучному чину расположенный (1806-1822), Словарь минералогический (1790), Статистическое описание Российской Империи Зябловского (1807)

В четвертой части главы проводится анализ существующих технологий переиздания, формальная постановка задач и их описание Рассматриваются и анализируются методики подготовки текста к изданию ручного ввода, ввода текста с помощью OCR-систем, корректурных процессов, методики формирования факсимильной копии издания (сканирования и обработки ч/б изображений); методики электронного издания создания гипертекстовых PDF и HTML-документов, ввода словарных текстов в БД Проведен анализ вариантов технологий изданий, который показал их фрагментарность и отсутствие обобщенной технологии переиздания печатных лексикографических изданий в научных публикациях

Предложена новая интегрированная ИТ переиздания Словаря Академии Российской 1789-1794 гг Она состоит из двух последовательных этапов: разработка печатного и электронного издания Разработка печатного издания включает следующие стандартные задачи набор текста САР, корректура текста, верстка оригинал-макета, и дополняется разработкой факсимильной шрифтовой гарнитуры Разработка электронного издания включает в себя следующие задачи разработка архитектуры ЭСАР, создание лингвистической БД САР, разработка факсимильных компонент ЭСАР, создание гипертекстовой системы, синтез компонент ЭСАР и разработка программного комплекса.

Во второй главе решаются задачи исследования эффективности процессов ввода и корректуры текста САР

В первой части главы проводится исследование методики ввода словарного текста с помощью системы оптического распознавания (ОС11-систем), анализ ее эффективности

Проведены исследования временных затрат наиболее трудоемких процедур и операций этапа ввода словарного текста Рассмотрена и описана методика ввода текста с помощью ОСР--систем С целью оценки эффективности набора текста проведено исследование временных затрат по материалам различных типов текстов 1) текст САР, 2) современный текст хорошего качества, 3) современный текст плохого качества

Наиболее важным параметром качества функционирования ОСЛ-системы является точность распознавания Асрасп Для каждой г-ой страницы точность распознавания 100% п„

'верно_расп1

**срасп, ~

побщ1

где пверно^асп, и п0бщ, есть количество верно распознанных символов и общее количество символов на странице

Пверно _ расп, = Побщ, ~ По, > ГДе "<» ~ КОЛИЧвСТВО ошибок

Проведены статистические исследования количества ошибок при вводе текста САР и анализ их типов Выявлены ошибки обусловленные сходством графем шрифта, плохим качеством оригинала, некорректным выделением символов По результатам этого исследования значение точности распознавания для текста САР - 86%, для современного текста хорошего качества - 99,97%, для современного текста плохого качества - 99,61%

На основе проведенного анализа ошибок была разработана методика устранения типовых ошибок (система замен) Предложена автоматизированная методика ввода текста в ОС11-системе с использование эталона, словаря-спеллера и системы замен. Использование данной методики позволило повысить точность распознавания текста САР на 13 %, она составила 98,93%.

Определяющим параметром эффективности работы ОСЛ-системы является время, затрачиваемое на ввод текста - Т, при достаточном качестве ввода (количество ошибок на странице не должно превышать требуемого) На основном этапе при вводе текста выполняются: сканирование, распознавание, корректура и сохранение текста т т т т

Т X^расп, 2^кор1 2^сохр, •

1=1 1=1 1=1 1=1 где т - количество страниц всего текста

При этом время, затрачиваемое на корректуру страницы значительно превышает время, затрачиваемое на другие этапы ввода из-за особенно-

стей лексического состава старинного текста и используемой в нем шрифтовой гарнитуры Поэтому для сравнения будет учитываться только время корректуры

¿кор 1 = Ппр1 Iср + "о, ¿и >

где 1ср - время сравнения проверяемого слова или символа, /и - время исправления ошибки, ппр, - количество проверяемых символов на г-ой странице, п„, - количество ошибок на 1-ой странице.

Пусть /ср=/, (и=&, тогда = нлР( ( + п01 Кг

Согласно данным исследования время корректуры для рассматриваемых типов текстов равно

\текст = ^ ШК( 2текст = ш2 ш ¿текст ш ^ кор I коР' КОр_1

В случае использования для проверки эталона необходимо добавить время на обучение эталона, тогда время корректуры.

(кор_1 - ¿обучения +(ппр_Г( + по_1 = ¿обучения + (197/ + 53 Кг)

ПриК=1 = 714/, /¿77* =110/, =3131,

при К=10 (I™*™ =3288/, =182/, =10241

Без учета времени на обучение эталона в случае использования автоматизированной методики ввода текста время корректуры при К=1

= 250/, при К=10 = 727/

Таким образом, использование автоматизированной методики позволило уменьшить временные затраты на корректуру в 3-4,5 раза В результате выявлено, что при использовании представленной методики ввода текста в ОСИ-системе время на корректуру страницы САР (без учета на обучение эталона) в 2-4 раза больше по сравнению с вводом современного текста хорошего качества и на 20-30% меньше по сравнению с вводом теста плохого качества

Во второй части главы проводится исследование эффективности корректурных процессов Регламентация корректурных процессов носит в основном общий характер, прежде всего, из-за индивидуальных особенностей текстов и разнообразия собственных методик, которые используют корректоры Рассматриваются две методики корректуры, условно называемых «автоматизированная» и «традиционная»

С Конец ^

Рис 1 Традиционная методика корректуры страницы

В «традиционной» методике корректор проверяет текст последовательно страницу за страницей Он сравнивает пословно текст с его оригиналом Время, затрачиваемое на корректуру, определяет эффективность его работы Обозначим время корректуры г-ой страницы текста как /и Оно будет определяться следующим выражением

т т т

^ =!>< 'и,

г=1 1=1 1=1

где 1ср - время сравнения слова, - время исправления ошибки, и, - общее количество слов на 1-ой странице, п0[ - количество ошибок на 1-ой странице, И=[сек]

«Автоматизированная» методика отличается от «традиционной» тем, что в ней используется словарь-спеллер с функцией пополнения. В этом случае корректор последовательно проверяет страницу за страницей текста Однако он проверяет не все слова, а только слова, неизвестные компьютеру, которые не входят в словарь спеллера Т о по мере пополнения словаря количество неизвестных слов уменьшается на каждой последующей странице

Предположим, что словарь спеллера пустой, тогда все слова первой страницы будут новыми - неизвестными. Время проверки страниц определяется следующей формулой

т т т т т

Тк = 2Хг =1Хов1 гср +2>0! *«=Ипнов1 ' + 1>ог К{ 1=1 1=1 ¡=1 г=1 (=1

где пяов1 - количество новых слов на г-ой странице

Начало

да

Г- ____—— -<1конец С1раниць?£^> 1 нет «нов 1

Занесение слова в словарь спеллера

Сравнение неизвестного слова ^ср ИСЛ _ йНОВ,-1 "„„„ _1

Ошибка' нет Ииов -1 ~ Пр, ~

1

Гда Пт

Исправление слова ^

С

п_

Конец

3

Рис 2 Автоматизированная методика корректуры страницы

Эффективность корректурных процессов определяется двумя видами параметров: временем на ту или иную деятельность и количеством проверяемых слов (символов) и ошибок. Для оценки количественных характеристик были проведены квантитативные исследования текста Словаря Академии Российской

Частотный анализ текста страниц словаря показал, что на каждом последующем отрезке текста количество уже встретившихся ранее слов постоянно увеличивается (рис 3), следовательно, количество новых, неизвестных слов - слов, не входящих в словарь спеллера уменьшается

о о 3500 -

ч о 3000 -

п в 2500 -

1) В" 2000 -

е: о 1500

и 1000 •

т-г

5 6 7 выборки

—Ш— количество ранее встретившихся слов -Логарифмическая аппроксимирующая кривая

Рис 3 Количество ранее встречавшихся слов в выборках

В результате исследования для первых восьми страниц был получен экспериментальный график изменения количества новых слов - слов, проверяемых корректором, по мере пополнения словаря спеллера (Рис 4)

со о ч и о

300 250 200

8 150

£ 100 К

§ 50

м

о

1 2 3 4 5 6 7 8 страницы

—♦— количество слов проверяемых корректором -логарифмическая аппроксимирующая кривая

Рис 4 Количество слов, проверяемых корректором для страниц 1-8

Для оценки общего количества проверяемых слов при использовании автоматизированной технологии корректуры была построена аппроксимирующая функция На промежутке от 1-8 уравнение кривой имеет вид у = -20,94 1пх + 192,01, на промежутке от 8 до 570-у = -0,11-х + 10,84

Проинтегрируем соответствующие выражения по заданным отрезкам х=8 х=570

Г= /(-20,94 кис + 192,01)й& + Д-0,11 х + 10,84>& =44015 х=1 х=9

т

Эта величина соответствует количеству новых слов ^ пнов, а 44015

¡=1

Будем считать, что время исправления ошибки в К - раз больше времени сравнения слова, тогда обозначив время сравнения как (получим ¡ср

= и„ = ш

С учетом этих данных время корректуры в случае использования автоматизированной технологии будет равно т т

Тк = Xп»ов 1-{ + Ипо1 44015? + 758Ш 1=1 1=1

Время корректуры в случае использования традиционной технологии Т[ = (570 269)/ + (570 -13,3)АГ/ = 153330/ + 758 Ш

Полученные результаты позволяют сделать вывод о преимуществе технологии корректуры с использованием пополняемого словаря спеллера (автоматизированной) в сравнении с традиционной В случае использования словаря спеллера количество слов, сравниваемых корректором, уменьшается и по мере пополнения словаря на последней странице достигает ~20% общего объема Эффективность той или иной методики корректуры

зависит от соотношения величин времени сравнения слова и времени исправления ошибки В случае их равенства (коэффициент К=1) суммарный выигрыш времени корректуры может достигнуть »68%, а при К=10 он равен «47,7%

Оценивая полученные показатели, следует отметить ряд допущений, которые были приняты в формальной модели корректуры Во-первых, было принято, что ошибки распределены по тексту равномерно, поэтому количество ошибок на каждой странице постоянно Во-вторых, рассматривались только орфографические ошибки, не рассматривались ошибки пунктуации и связанные с нарушением правил верстки В данную модель не входят также ошибки в словах, входящих в состав словаря спеллера

В третьей главе представлена интегрированная ИТ печатного и электронного переиздания САР.

В первой части главы разработана методика создания факсимильной шрифтовой гарнитуры для набора текста (рис 6) Разработан электронный Дашковский шрифт. Проведена оценка качества и особенностей создания шрифтовых гарнитур и орнаментных элементов САР, выявлены их основные характеристики

Рис 6 Последовательность процедур и операций методики создания факсимильной шрифтовой гарнитуры

Во второй части главы представлена методика подготовки факсимильных компонент издания Рассмотрены основные недостатки качества изображений страниц при сканировании, такие как слишком высокая или низкая контрастность, искажения (перекосы), наличие загрязнений и дефектов и представлена методика обработки изображений для их устранения

В третьей части главы представлена ИТ создания лексикографической БЗ издания Был проведен анализ гнездовой структуры словаря и построена формальная трехступенчатая иерархическая модель словообразовательного гнезда

Рис. 7. Пример схемы гнездовой структуры слова

Построены и исследованы формальные модели шрифтовой разметки оригинального издания САР и стилевого оформления оригинал-макета его переиздания. Проведен анализ структур словарных статей. Разработана структура лингвистической базы данных САР и методика ее создания.

Фрагмент словарной стать» Структура словарной статьи

ВАЛЮ , ¡(сши, валхЬ, Лши, гл. д. Сл. ВырЬзыию и я дсрс<тЬ или на кан-и1> ; выдалбливаю изЪ дерева или зЬ í.jмг,я такое 111 о р 1X с ií [ с или

11одоЁ1€. Bitmt йлятн лслхц gomí. i IlajtiAHd. ib 14- '' юзмешя Авя кямнл II язваяеша яа mi.tS «><• híi сыноаЗ ЗкзранлсвыхЗ, Исх. X)tv Ш. 9-

Рис. 8. Пример структуры словарной статьи

В четвертой части главы рассматривается гипертекстовое представление словарей. Современные гипертекстовые системы используют форматы: HTML и PDF. Переиздание САР содержит две части: вступительную (научный комментарий) и основную (текст словаря). Формат PDF представляет текст и графику, используя модель формирования изображений языка программирования полос PostScript, что позволяет сохранить постраничную верстку словаря и шрифты, поэтому он используется для представления основного текста САР, имеющего специфическую шрифтовую разметку и набранного старинной гарнитурой. Для вступительной части САР используется формат HTML.

Методика создания гипертекстовой системы САР тесно интегрирована с технологией верстки оригинал макета печатного издания, которая осуществлялась в программах Microsoft Word и Adobe PageMaker. PDF-файлы были получены путем их конвертирования из формата Page Maker. HTML-файлы были конвертированы и откорректированы вручную с использованием каскадных таблиц стилей (CSS).

ЬУЛХНУ*.. V C/Tfvit

ВАЯЮ

кшн. цпЪ, í.' n,

Грлиматнчесжне xtti*-i<ü Пометы

ГА, Д. cZ

Тсcaoàa

ВирЪяиваю из дерев*, на rfmrfc; подалбливаю нзЪ дерева млн изЪ камня гаког нюбралгше или подобТе.

Цйтаяш Н&почннк

Шстл взлтн аслху кщь. 2. Паралшз 11,14.

{ЦФШПШ _____ Источник

9Í ооз.нещн JM ка.пкл м нэ&алшы на ннхЪ имена синоод /нзранмвихЪ, ИС1. ïïivl 11. 9.

В пятой части главы представлен синтез компонент технологий переиздания Словаря Академии Российской

В четвертой главе представлена реализация технологий, описание электронного издания САР

В первой части главы описана архитектура электронного издания Словаря Академии Российской 1789-1794 гг, которое включает в себя пять основных компонент гипертекстовую информационную систему, факсимильную копию страниц, лингвистическую базу данных, биобиблиографическую информационную систему «Создатели Словаря Академии Российской», информационную систему «Создатели переиздания Словаря Академии Российской 1789-1794 гг »

В качестве отдельных компонент реализуется программный комплекс автоматизированного ввода текста словарных статей в базу данных и программный комплекс создания электронных словников, словоуказателей, словарных подмножеств (языковых и тематических), поисковых тезаурусов

Во второй части главы описан интерфейс взаимодействия пользователя с системой

В третьей части главы разработана и представлена БЗ САР - лексикографическая интегрированная среда

В заключении приводятся основные выводы, полученные в работе

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ.

1 Разработана автоматизированная технология современного переиздания (повторного введения в научный оборот) лексикографических источников XVIII - нач XIX в, обеспечивающая эффективный доступ к текстовым источникам культурного наследия и их сохранение

2. Проведено описание и классификация крупных словарей XVIII -нач XIX вв., исследование шрифтовые гарнитур и установлена типовая гарнитура, названная Дашковской Проведена оценка количества изданий, которые могут быть переизданы с использованием представленной технологии (около 1000 изданий). Проведен сравнительный анализ современных электронных изданий словарей

3 Предложена и теоретически обоснована автоматизированная методика ввода текстов словарных источников с помощью ОСЯ-систем, использование которой позволило за счет созданных эталонов, словаря спеллера и системы замен увеличить точность распознавания на 13% и сократить время ввода в 3-4,5 раза Разработана методика устранения типовых ошибок распознавания, сократившая среднее их количество на странице в 5 раз

4 На основе проведенных частотных исследований Словаря разработаны компоненты лингвистического обеспечения автоматизированных систем переиздания текстов XVIII - нач XIX вв квантитативная модель текста, словарь-спеллер - средство повышения эффективности информационного поиска и оптического распознавания

5 Проведено исследование «традиционной» и автоматизированной методик корректуры на основе динамически-пополняемого словаря-спеллера, построены их алгоритмические модели В результате установлено, что использование автоматизированной методики корректуры позволяет уменьшить временные затраты первичного просмотра текста до 68%. Разработана методика устранения систематических ошибок (на этапе первой корректурной читки), использование которой при вводе текста САР сократило среднее их количество на странице до 1-2-х..

6 Разработана методика подготовки электронных факсимильных компонент издания (обработки изображений страниц) обеспечивающая сохранение исходной исторической формы издания, его палеографических элементов.

7 Разработана методика создания факсимильной шрифтовой гарнитуры для ввода текста САР, на базе которой создан электронный Дашков-ский шрифт, позволяющий переиздать около 1000 текстовых источников второй половины XVIII - нач XIX вв

8 В результате анализа структуры Словаря разработано формальное описание его модели данных, трехступенчатой иерархической гнездовой структуры, шрифтовой разметки оригинального издания, структур словарных статей. Разработана структура лингвистической базы данных Словаря и методика ее заполнения

9. Созданная автоматизированная технология применена для современного печатного и электронного переиздания Словаря Академии Российской

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИОННОЙ РАБОТЫ.

1 Филиппович А Ю. Особенности проектирования малых систем в Paradox [Текст] // Проблемы построения и эксплуатации систем обработки информации и управления Сборник статей Выпуск 1 - М • Изд-во МГТУ им Н Э Баумана, 2000 - С 144-145.

2 Филиппович АЮ Исследование эффективности системы оптического распознавания текстов [Текст] // Интеллектуальные технологии и системы. Сборник учебно-методических работ и статей аспирантов и студентов Выпуск 7 - М. Изд-во ООО «Эликс+», 2005 - С. 272-297

3 Филиппович А Ю Практические занятия по дисциплине «Мультимедиа технологии в образовании» [Текст] // Вестник информационных технологий в образовании Сборник учебно-методических и научных работ Вып 1.-М УМК по специальности ИТО, 2005. - С 168-198

4. Филиппович А Ю Электронная версия Словаря Академии Российской 1789-1794 годов [Текст] // Роль книгоиздания в развитии международных научных и культурных контактов Материалы международной научной конференции (Москва, 21-23 сентября 2005 г) / Сост В И Васильев, М А Ермолаева, А Ю Самарин - М • Наука, 2005 - С 293-296

5 Филиппович А Ю Автоматизированная технология корректуры переиздания Словаря Академии Российской 1789-1794 гг на основе динамически пополняемого словаря спеллера [Текст] // Вестник Московского государственного университета печати, №5 май - М Изд-во МГУП, 2005 -С 67-88

6 Филиппович А Ю Макет информационно-программной среды для автоматизации научных исследований САР [Текст] // Альманах исследований Словаря Академии Российской Сентябрь 2005 - декабрь 2006 - М Изд-во Азбуковник, 2007 -С 21-26 - [Электронныйресурс] - Режим доступа http //www philippovxch.ru /Projects/ ESAR/ Almanah htm, свободный -Яз Рус.

7 Филиппович А Ю Информационная технология подготовки и обработки данных для гиперграфической информационной системы САР [Текст] // Альманах исследований Словаря Академии Российской Сентябрь 2005-декабрь 2006 — М • Изд-во Азбуковник, 2007 - С 55-62 — [Электронный ресурс] - Режим доступа http //www Philippovich. ru/Projects/ESAR/ Almanah htm, свободный - Яз Рус.

8. Черкасова Г. А , Филиппович А Ю. Информационная технология подготовки текста САР для создания его лингвистической базы данных [Текст] // Альманах исследований Словаря Академии Российской Сентябрь 2005 -декабрь 2006 - М : Изд-во Азбуковник, 2007 - С 63-138 - [Электронный ресурс] - Режим доступа http //www philippovich ru/Projects/ESAR/ Almanah htm, свободный -Яз Рус

9. Филиппович А Ю Шрифтовое обеспечение электронной версии Словаря Академии Российской 1789-1794 гг. [Текст] // Информатика и системы управления в XXI век- сборник трудов №4 молодых ученых, аспирантов и студентов - М Изд-во МГТУ им Н.Э Баумана, 2006. - С 181-184.

10 Филиппович А.Ю Информационная технология создания электронного издания Словаря Академии Российской 1789-1794 гг [Текст] // Современные информационные технологии и письменное наследие, от древних рукописей к электронным текстам, материалы междунар. науч конф (Ижевск, 13-17 июля 2006 г) / Отв ред В А Баранов - Ижевск- Изд-во ИжГТУ, 2006. — С 174-178.

11 Филиппович А Ю Исследование эффективности автоматизации корректурных процессов с помощью словаря спеллера при подготовке переиздания Словаря Академии Российской 1789-1794 гг [Текст] И Проблемы полиграфии и издательского дела № 4 - М Изд-во МГУП, 2007 -С 102-112

Подписано в печать 27 09 2007 Формат60x90 1/16 1 пл Тираж 100экз Заказ

Отпечатано с готового оригинал-макета в Полиграфическом центре ИНЭК Адрес Москва, Ленинградское ш,д18, оф1216 Телефон (495)617-0924 E-mail manager@ipoligraf ru

Оглавление автор диссертации — кандидата технических наук Филиппович, Анна Юрьевна

Введение.

Глава 1. Исследование изданий словарей.

1. Особенности издания словарей XVIII-XIX вв.

2. Современные электронные издания словарей.

3. Исследование шрифтового оформление книг второй половины XVIII - начала XIX века.

4. Эскиз автоматизированной технологии переиздания Словаря Академии Российской 1789-1794 гг. (формальная постановка задач). 26 Выводы к главе 1.

Глава 2. Исследование эффективности процессов подготовки словарных текстов к переизданию.

1. Исследование эффективности процессов ввода текста САР

2. Автоматизированная методика корректуры на основе динамическипополняемого словаря-спеллера.

Выводы к главе 2.

Глава 3. Интегрированная автоматизированная технология печатного и электронного издания словарей.

1. Методика создания факсимильной шрифтовой гарнитуры для набора текста САР.:.

2. Методика подготовки факсимильных компонент издания.

3. Методика создания лексикографической БД издания.

4. Гипертекстовое представление словарей.

Выводы к главе 3.

Глава 4. Переиздание Словаря Академии Российской 1789-1794 гг.

1. Архитектура электронного издания САР.

2. Интерфейс взаимодействия пользователя с системой.

Выводы к главе 4.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Филиппович, Анна Юрьевна

Одной из важных проблем современности является доступность библиотечных фондов для потенциальных читателей. Особенно это касается старинных книг и рукописей, которые сегодня стали редкостью. Ввиду несовершенства способов хранения информации многие книги находятся на грани исчезновения. Войны, пожары и катастрофы уничтожили то, что является достоянием человечества, кладовой знаний, и сегодня полки наших библиотек поредели и ценные книги, являющиеся предметом и источником научных исследований фактически недоступны. В этом случае решение проблемы доступности - введение источников (книг) в научный оборот, для этого осуществляется их копирование и переиздание.

Развитие информационных технологий заставляет нас по-новому посмотреть на проблему доступности. Сегодня современный специалист в поиске информации в первую очередь обращается в Internet. Появляется большое количество электронных изданий, создаются «виртуальные библиотеки». Т.е. «современное понимание эффективности доступа к архивным и библиотечным фондам предполагает их всеобщую открытость, что является невозможным без всеобщего перехода на новые носители информации и средств доступа к ней» [142, с. 365].

Наряду с решением проблемы доступности электронная форма публикаций позволяет повысить надежность хранения, удобство распространения, экономичность и эффективность. Включение различных программных компонент и баз данных в состав современных электронных изданий позволяет эффективно осуществлять работу с материалом, представленном в издании, проводить научные исследования, поиск и обработку информации.

Однако печатные издания традиционны, а, следовательно, привычны и удобны в использовании для большого количества людей, поэтому эта форма переиздания не может быть исключена, т.о. современное переиздание должно содержать печатную и электронную форму.

Переиздание старинных книг продиктовано не только необходимостью сохранности и повышением доступности, но и актуальностью этих источников сегодня.

Для современного образованного человека важным является формирование вокруг себя такого интеллектуального окружения, которое способствовало бы его профессиональному росту и продвижению в различные сферы жизни и деятельности общества. Широта знания и возможность суждения обо всем — вот критерии, которые наиболее часто сегодня мы встречаем при оценке личности. Актуальными вновь становятся энциклопедичность и утонченность знаний, что невозможно без наполнения "словарной полки" личных или общественных книжных и электронных библиотек множеством энциклопедий и словарей различного типа» [138, с. 7].

Сейчас существует огромное количество словарей, и с каждым годом оно неуклонно продолжает расти. Теория их создания, основополагающие принципы и правила являются предметом изучения лексикографии. «Предшественниками современных словарей были рукописные, а затем и печатные словари эпохи средневековья. В процессе совершенствования "словариков" малого объема и узкого назначения постепенно складывалась многовековая лексикографическая практика» [95, с. 58]. Фундаментальные основы лексикографии закладывали так называемые академические словари. «Их главное назначение - углубленная разработка всего круга источников письменной и разговорной речи, способная дать научное представление о языке» [50, с. 6]. Первый такой словарь был создан в конце XVIII века, это Словарь Академии Российской 1789-1794 гг. (далее Словарь, или САР).

Значение Словаря для русской лексикографии очень велико. Об этом говорили современники словаря: Н.М. Карамзин писал1 «Полный словарь, изданный академиею, принадлежит к числу тех феноменов, коими Россия удивляет внимательных иноземцев.» [Цит. по 109]; «чешский славист И. Добровольский писал, что словарь - это памятник, делающий великую честь молодой Академии» [14, с. 13]; отзыв неизвестного автора: «Россия Вам обязана за словарь свой. Недостатки его исправит время, ибо труд Ваш такого рода, что через новые издания оного исправиться и достигнуть возможного совершенстватоликоудобен.» [Цит. по 14, с. 13-14].

По примеру Словаря Академии Российской были созданы другие словари XVIII-XIX века: [118, 117, 35]. Словарь Академии Российской построен по гнездовому принципу и послужил основой для создания словарей такого же типа, например: [100,102,116].

Исследованию Словаря Академии Российской и эпохе его создания посвящено множество статей и научных публикаций: [86, 112, 98, 61, 89, 9, 46, 33, 20]. Во второй половине XX века интерес к этой теме значительно возрос, и библиография более обширна: [52, 51, 64, 13, 115, 53, 108, 22, 123, 54,45, 88, 47]. В 50-60-х годах XX века «создается картотека, выписка цитат и монографическое изучение эпохи» [14, с. 31], осуществляется подготовка исторического Словаря русского языка XVIII века [15, с. 8]. Представлены также работы по сводному каталогу русской книги XVIII в.: [84, 85, 83, 106]. Все это говорит об актуальности этой темы.

Таким образом, существует задача переиздания старинных печатных книг, лексикографических источников XVIII - нач. XIX вв.

Основная проблема разработки таких переизданий - это отсутствие информационной технологии (ИТ) решения данной задачи.

Целью диссертационной работы является разработка интегрированной автоматизированной технологии современного переиздания лексикографических источников XVIII - нач. XIX вв.

Для реализации этой цели необходимо решить следующие задачи:

1. Выявление особенностей словарных изданий XVIII - нач. XIX вв. и анализ сложившейся практики печатного и электронного переиздания.

2. Исследование эффективности процессов ввода текста Словаря при подготовке его к переизданию.

3. Исследование корректурных процессов.

4. Разработка методики подготовки факсимильных компонент переиздания (изображений и шрифтов).

5. Анализ структуры и разработка формальной модели Словаря.

6. Разработка технологий переиздания Словаря Академии Российской.

7. Реализация технологий и разработка печатного и электронного издания Словаря Академии Российской.

Заключение диссертация на тему "Автоматизированная технология переиздания лексикографических источников XVIII-нач. XIX вв."

Выводы к главе 4:

1. Разработана и представлена архитектура электронного издания Словаря Академии Российской 1789-1794 гг. (ЭСАР). Она включает пять компонент: гипертекстовую информационную систему (ГТИС САР), факсимильную копию (ФК САР), лингвистическую базу данных (ЛБД САР), биобиблиографическую информационную систему «Создатели Словаря Академии Российской 1789-1794 гг.» (БИС «Создатели САР»), информационную систему «Создатели переиздания Словаря Академии Российской 1789-1794 гг.» (ИС «Создатели переиздания САР»).

2. Разработан интерфейс взаимодействия пользователя с системой ЭСАР. Описаны компоненты пользовательского интерфейса и основы работы в программе. Спроектирован граф диалога пользователя с системой.

ЗАКЛЮЧЕНИЕ

Результаты и выводы диссертационной работы:

1. Разработана автоматизированная технология современного переиздания (повторного введения в научный оборот) лексикографических источников XVIII - нач. XIX вв., обеспечивающая эффективный доступ к текстовым источникам культурного наследия и их сохранение.

2. Проведено описание и классификация крупных словарей XVIII - нач. XIX вв.; исследование шрифтовые гарнитур и установлена типовая гарнитура, названная Дашковской. Проведена оценка количества изданий, которые могут быть переизданы с использованием представленной технологии (800-1000 изданий). Проведен сравнительный анализ современных электронных изданий словарей.

3. Предложена и теоретически обоснована автоматизированная методика ввода текстов словарных источников с помощью OCR-систем, использование которой позволило увеличить точность распознавания на 13% и сократить время ввода в 3-4,5 раза. Разработана методика устранения типовых ошибок распознавания^сократившая среднее их количество на странице в 5 раз.

4. На основе проведенных частотных исследований Словаря разработаны компоненты лингвистического обеспечения автоматизированных систем переиздания текстов XVIII - нач. XIX вв.: квантитативная модель текста, словарь-спеллер - средство повышения эффективности информационного поиска и оптического распознавания.

5. Проведено исследование «традиционной» и автоматизированной методики корректуры на основе динамически-пополняемого словаря-спеллера, построены их алгоритмические модели. В результате установлено, что использование автоматизированной методики корректуры позволяет уменьшить временные затраты первичного просмотра текста до 68%. Разработана методика устранения систематических ошибок (на этапе первой корректурной читкц), использование которой при вводе текста САР сократило среднее их количество на странице до 1-2-х.

6. Разработана методика подготовки электронных факсимильных компонент издания (обработки изображений страниц) обеспечивающая сохранение исходной исторической формы издания, его палеографических элементов.

7. Разработана методика создания факсимильной шрифтовой гарнитуры для ввода текста САР, на базе которой создан электронный Дашковский шрифт, позволяющий переиздать около 1000 текстовых источников второй половины XVIII - нач. XIX вв.

8. В результате анализа структуры Словаря разработано формальное описание его модели данных: трехступенчатой иерархической гнездовой структуры, шрифтовой разметки оригинального издания, структур словарных статей. Разработана структура лингвистической базы данных Словаря и методика ее заполнения

9. Созданная автоматизированная технология применена для современного печатного и электронного переиздания Словаря Академии Российской.

Библиография Филиппович, Анна Юрьевна, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

1. Автоматизация допечатных процессов Текст. // Информационные технологии и системы управления в полиграфии и издательском деле / Под ред. В.А. Абрамова. - М.: ВНИИполиграфии, 1989.

2. Автоматизация редакционно-издательской обработки текста / В.Ф. Бахмутский, А.Г. Кан Текст. М., 1986.

3. Агеев В.Н., Узилевский, Г.Я. Человеко-компьютерное взаимодействие: подходы, концепции, модели Текст. -М., 1997.

4. Алексеев П.А. Церковный словарь, или Истолкование речений славенских древних, також иноязычных без перевода положенных в Священном Писании и других церковных книгах Текст. М.: 1773; 4-е изд. М., 1819.

5. Бабкин A.M. Толковый словарь В.И. Даля Текст. // Даль Владимир. Толковый словарь живого великорусского языка: Т. 1. -М.: Рус.яз., 1989.

6. Бабко-Малая О.Б., Шемраков В.А. Методы и системы автоматизированного обнаружения и коррекции текстовых ошибок Текст.-Л., 1987.

7. Бакаревич М.Н. Разговоры о физических и нравственных предметах Текст. М., Университетская типография у Ридигера и Клаудия, 1800.

8. Батов Ю.Ю. Редкие русские книги и летучие издания XVIII в. Текст. -М., 1905.

9. Ю.Берында Павма. Лексикон славено-росский и имен толкование Текст. -Киев, 1627; 2-е изд. Кутенн, 1653.

10. П.Бессарабова Н.В. Болтин Иван Никитич Текст. // Словарь Академии Российской 1789-1794. Т. 5. -М.: МГИ им. Е.Р. Дашковой. 2005.

11. Бессарабова Н.В. Голенищев-Кутузов Иван Логинович Текст. // Словарь Академии Российской 1789-1794. Т. 5. М.: МГИ им. Е.Р. Дашковой. 2005.

12. Биржакова Е.Э., Войнова Л.А., Кутина Л.Л. Очерки по исторической лексикологии русского языка XVIII в. Текст. Л., 1972.

13. Богатова Г.А. Е.Р. Дашкова и словарь ее эпохи. XVIII век взгляд из XX века Текст. // Словарь Академии Российской 1789-1794. Т. 1. - М.: МГИ им. Е.Р. Дашковой. 2001.

14. Богатова Г.А. Словарь Академии Российской: вторая жизнь в XXI веке Текст. // Словарь Академии Российской 1789-1794. Т. 2. М.: МГИ им. Е.Р. Дашковой. 2002.

15. Борковский А.Б. Англо-русский словарь по программированию и информатике (с толкованиями) Текст. М.: Рус. яз., 1989.

16. Букварь для употребления российского юношества Текст. М.: Университетская типография у И. Новикова, 1780.

17. Булич, С.К. Очерк истории языкознания в России Текст. СПб., 1904, т. I.

18. Ведомость имеющихся при императорской Академии наук в типографии разных сортов литер Текст. Спб. 1765.

19. Виноградов В.В. Очерки по истории русского литературного языка XVII-XIX вв. Текст.- 1934.

20. Волкова Л.А., Решетникова, Е.Р. Технология обработки текстовой информации. Часть I. Основы технологии издательских и наборных процессов. Издание второе, исправленное и дополненное: Учебное пособие Текст. М.: Изд-во МГУП, 2002.

21. Вомперский В.П. Словари XVIII века Текст. М., 1986.

22. Вопросы кибернетики. Статистика и автоматический анализ текста Текст. / Под ред. Р.Г. Пиотровского (отв. ред.), О.М. Вейнерова, И.С. Кравцовой, Е.А. Шингаревой. Вып. 41. -М.-Л., 1978.

23. Воскресенский М.И. Наборные процессы и переработка текстовой информации: Учеб. для вузов по спец. "Технология полигр. пр-ва" и "Полигр. машины и автоматизир. комплексы". / М. И. Воскресенский, А. И. Колосов. М.: Книга, 1989.

24. Всеобщая и частная естественная история графа де Бюффона Текст. -1789.

25. Вуль В.А. Электронные издания. М.: СПб.: Изд-во «Петербургский институт печати», 2001.

26. Вычислительная лингвистика. Теоретические аспекты. Вопросы автоматизации лексикографических работ: Сборник Текст. / Под ред. В.З.Демьянкова. М.: Изд-во Моск. ун-та, 1982.

27. Гасов В.М., Циганенко A.M. Информационные технологии в издательском деле и полиграфии Текст. Кн. 1,2: Учебное пособие для вузов. М.: Изд-во МГУП «Мир книги», 1998.

28. Гасов В.М., Цыганенко A.M. Методы и средства подготовки электронных издания: Учеб. Пособие М.: МГУП, 2001. - 735 е.: ил.

29. Гельтергоф. Российский целлариус Текст. СПб., 1771.

30. Горбачев, А.А. Разработка методики определения производительности систем допечатной подготовки. Диссертация на соискание ученой степени кандидата технических наук. 2006 г.

31. Григорьев Ю.А., Ревунков Г.И. Банки данных: учеб. Для вузов Текст. -М.: Изд-во МГТУ им. Н.Э. Баумана, 2002.

32. Гуковский. Русская поэзия XVIII в. Текст. 1927.

33. Гунько С.Н., Демков В.И. Словарь по полиграфии и полиграфической технологии. Понятия и определения Текст. Мн.: ООО «Космополис-Универсал», 1995.

34. Даль В.И. Толковый словарь живого великорусского языка Текст.: в 4 т. -СПб, 1863-1866.

35. Даниель Дефо. Жизнь и приключения Робинзона Круза Текст., 17621764.

36. Де(-)фис. Электронный журнал по шрифту, типографике и графическому дизайну. E-zine // РагаТуре Электронный ресурс. Режим доступа: http://www.fonts.ru/e%2Dzine/, свободный. - Яз. Рус. англ.

37. Державина Е.И. Соколов Петр Иванович Текст. // Словарь Академии Российской 1789-1794. Т. 5. М.: МГИ им. Е.Р. Дашковой. 2005.

38. Диянино древо или торжествующая любовь Текст. СПб., тип. И. Крылова, 1792.

39. Дубашов А. Е. Методы и алгоритмы извлечения данных из словарных текстов Текст. : на примере Словаря русского языка XI XVII вв.: дис. канд. техн. наук : 05.13.06 Москва, 2006

40. Из истории русской культуры Текст. Т.: 1-4. М., 2000.

41. Издания гражданской печати времени императрицы Елизаветы Петровны. 1741-1761 Текст. / под ред. П.Н.Беркова, 1935.

42. Илизаров С.С. Деятели науки и просвещения Москвы XVIII-XX вв. Московская интеллигенция XVIII века в портретах и характеристиках. -М., 1999.

43. Интеллектуальные технологии ввода и обработки информации Электронный ресурс. Сборник трудов Института системного анализа РАН, 1998 г. — Режим доступа: http://www.cognitive.ru/innovation/sbornic/index.htm

44. Информационные технологии: учебно-методические материалы для студентов вузов Текст. / Сост., ред. Ю.Н. Филиппович. М.: НЛП «Фрегат», 1997.

45. История русской лексикографии Текст. / Отв. ред. Ф.П.Сороколетов. -СПб., 1998.

46. История русской литературы Текст. / под ред. Д.Д. Благого. Т.: 1-3. М., 1960.

47. История русской литературы Текст. Т.: 1-10., 1941-1947.

48. История русской литературы Текст. Т.: 1-4. JL, 1980.

49. История русской литературы XVIII в. Текст. / под ред. Орлова. JL, 1991.

50. Караулов Ю.Н. Лингвистическое конструирование и тезаурус литературного языка Текст. -М.: Наука, 1981.

51. Карлов О.Н. Румовский Степан Яковлевич Текст. // Словарь Академии Российской 1789-1794. Т. 2. М.: МГИ им. Е.Р. Дашковой. 2002.

52. Колесов В.В. Александр Христофорович Востоков (1781-1864) Текст. // Отечественные лексикографы. XVIII-XX века / Под ред. Богатовой Г.А. -М.: Наука, 2000.

53. Коляда Г.И. Павмо Берында и его «Лексикон Славеноросский» Текст. -Сталинабад, 1953.

54. Коронация Елисаветы Текст. СПб.: Тип. Академии наук, 1744.

55. Костинский Ю.М. Владимир Иванович Даль (1801-1872) Текст. // Отечественные лексикографы. XVIII-XX века // Под ред. Богатовой Г.А. -М.: Наука, 2000.

56. Красовский А. Опыт истории Императорской Российской Академии. Первый период истории Императорской Российской Академии, написанный в 1839 году бывшим тогда Действительным Членом ее, Александром Красовским Текст. СПб., 1849.

57. Курилов А.С. Державин Гаврила Романович Текст. // Словарь Академии Российской 1789-1794. Т. 4. М.: МГИ им. Е.Р. Дашковой. 2004.

58. Курилов А.С. Фонвизин Денис Иванович Текст. // Словарь Академии Российской 1789-1794. Т. 4. М.: МГИ им. Е.Р. Дашковой. 2004.

59. Кутина JI.JI. Формирование языка русской науки Текст. M.-JI., 1964.

60. Лисовой Н.Н. «К почести вышнего звания»: Академия Российская и русская Церковь Текст. // Словарь Академии Российской 1789-1794. Т. 3. М.: МГИ им. Е.Р. Дашковой. 2002.

61. Литвак Б.Г. Экспертная информация: Методы получения и анализа Текст. М.: Радио и связь, 1982.

62. Львов Н.А. Собрание народных русских песен Текст. СПб.: Печатано в тип. Горного училища., 1790.

63. Марк Витрувий. Об архитектуре Текст. Спб.: тип. Академии наук, 1790.

64. Машинный фонд русского языка: идеи и суждения. М.: «Наука», 1986.

65. Методы и средства переработки информации в допечатных системах: Монография / О.А. Винокурова, М.В. Ефимов, Ю.Н. Самарин, М.А. Синяк Текст. М-во образования Рос. Федерации. Моск. гос. ун-т печати. М. : [МГУП], 2003.

66. Мультилекс mail.ru Электронный ресурс. / Режим доступа: http://multilex.mail.ru/ - Загл. с экрана

67. Новиков Н.И. Древняя Российская Идрография Текст., 1773. 73.0'Куин Д., Леклер М. Photoshop in a Nutshell: Пер. с англ. [Текст]. К.:

68. Образцы литер российских, французских, немецких, греческих, еврейских и арабских и прочего, находящегося в типографии Московского университета. М. 1815

69. Образцы литер, находящихся в типографии Московского университета во время содержания оной Христианом Ридегером и Христофором Клаудием. М., 179680.0бразцы церковных и гражданских гартовых азбук Московской синодальной типографии. М. 1807

70. Образцы шрифтов типографии Московского университета. М. 1826.82.0жегов, С.И. и Шведова, Н.Ю. Толковый словарь русского языка: 72500 слов и 7500 фразеол. выражений Текст. / Российская АН Ин-т рус.яз.; Российский фонд культуры. М.: Азъ Ltd., 1992.

71. Описании изданий, напечатанных при Петре I. Сводный каталог. Дополнения и приложения Текст. JL, 1972.84.0писания изданий гражданской печати 1708 январь 1725 Текст. - М.; Л., 1955.

72. Описания изданий, напечатанных кириллицей. 1689- январь 1725 г Текст.-М.; Л., 1958.

73. Отечественные лексикографы XVIII-XX вв Текст. М., 1999.

74. Пекарский П. Наука и литература при Петре Великом Текст. Т. I—II., 1862.

75. Печатные системы фирмы Heidelberg. Допечатное оборудование: Учебное пособие. / Ю.Н. Самарин, Н.П. Сапожников, М.А. Синяк Текст. М.: Изд-во МГУП, 2000.

76. Показание вновь сделанных сего 1788 года при Императорской Академии Наук и в книжной ея типографии имеющихся разных российских и иностранных письмян Текст.

77. Поликарпов-Орлов Ф.П. Лексикон треязычный, сиречь речений славенских, еллиногреческих и латинских сокровище Текст. М., 1704.

78. Привилегия и устав императорской Академии трех знатнейших художеств Текст., 1765

79. Пробная книга всем азбукам, знакам и типографским украшениям, которые при императорской типографии Академии наук находятся Текст. СПб., 1748.

80. Протченко И.Ф. Словари русского языка: краткий очерк Текст. 2-е изд., испр. и доп. М.: Изд-во РОУ, 1996.

81. Радищев А.Н. Путешествие из Петербурга в Москву Текст. СПб.: тип. А.Н. Радищева, 1790

82. Рисс О.В. Что нужно знать о корректуре. Маленькое пособие Текст. -М.: Книга, 1980.

83. Роспись российским книгам библиотеки Александра Смирдина систематическим порядком расположенная. Ч. 1-4 Текст. СПб., 1828.

84. Русские словари Электронный ресурс. / Режим доступа: http://www.slovari.ru/ - Загл. с экрана.

85. Русский словопроизводный словарь.

86. Русский язык. Энциклопедия Текст. / Гл. ред. Ю.Н. Караулов. 2-е изд., перераб. и доп. - М.: Большая Российская энциклопедия; Дрофа, 1997.

87. Русско-французский словарь Текст. СПб., 1835.

88. Рыжова JI.А. Корректура : учеб. пособие для студентов учреждений сред. проф. образования, обучающихся по специальности 0206 "Изд. дело" Текст. М.: МИПК им. И. Федорова, 2005.

89. Рынок OCR программ Электронный ресурс. / Статья. Энциклопедия персонального компьютера. KM.ru 12.2005. Режим доступа: http://www.rnegakm.ru/pc/encyclop.asp?topic=pc 364&rubr=pc 364, свободный. загл. с экрана.

90. Самарин Ю.Н. Допечатное оборудование Текст. М.: Изд-во МГУП, 2003.

91. Сводный каталог русской книги гражданской печати XVIII в. 1725— 1800 Текст. Т. I-V. М., 1962-1967.

92. Словари ABBYY Lingvo. Электронный ресурс. / Режим доступа: http://www.lingvo.ru/ - Загл. с экрана.

93. Словари и словарное дело в России XVIII в. Текст. -М.-Л., 1980.

94. Словарь Академии Российской 1789-1794 Текст. Т. 1-6. М.: МГИ им. Е.Р. Дашковой, 2001-2005.

95. Словарь Академии Российской, по азбучному порядку расположенный Текст.: в 6 ч. СПб., 1806-1822.

96. Словарь Академш Россшской. Т. 1-6 Текст. СПб., 1789-1794.

97. Словарь исторический о бывших в России писателях духовного чина Греко-Российской церкви. Сочиненное. Преосвященным Евгением, митрополитом Киевским Текст. Ч. 1-2., 1827.

98. Словарь минералогический старанием вольного экономического общества изданный Текст. СПб.: При Имп. Акад Наук., 1790 г.

99. Словарь русского языка XVIII века. Проект Текст. Л., 1977

100. Словарь современного русского литературного языка Текст. АН СССР.

101. Словарь церковно-славянского и русского языка, составленный вторым отделением императорской Академии наук: в 4 ч Текст. СПб., 1847.

102. Соколов, П.И. Общий церковно-славяно-российский словарь Текст. -М., 1834.

103. Сопиков, B.C. Опыт российской библиографии. Редакция, дополнения и указатель В. Н. Рогожина Текст. СПб., 1904-1906, ч. 1-5.

104. Справочная книга редактора и корректора Текст.: Ред.-техн. оформ. изд. / [В.А. Абрамов, JI.M. Гордон, B.C. Ершов и др.]; Сост. и общ. ред. А.Э. Мильчина. М.: Книга, 1985.

105. Справочное пособие для редакторов и корректоров Текст. / [Сост. В. Ю. Лернер, Н. А. Теплякова]. М.: Медицина, 1984.

106. Стауфер Т. Создание веб-страниц. Самоучитель Текст. СПб.: Питер 2004.

107. Сухомлинов М.И. История Российской Академии Текст. Вып. VIII. -СПб., 1888.

108. Типомания Электронный ресурс. / Слова. Шрифты. Типографика -Режим доступа: http://typo.mania.ru/, свободный. Загл. с экрана. - Яз. Рус. англ.

109. Тихонов А.Н, Первый гнездовой словарь и его роль в развитии русской лексикографии Текст. // Словарь Академии Российской 1789-1794. Т. 5. -М.: МГИ им. Е.Р. Дашковой. 2005.

110. Трубачев О.Н. Лепехин Иван Иванович Текст. // Словарь Академии Российской 1789-1794. Т. 2. М.: МГИ им. Е.Р. Дашковой. 2002.

111. Феличи Дж. Типографика: шрифт, верстка, дизайн Текст. Пер. с англ. и коммент. С.И. Пономаренко. СПб.:БХВ-Петербург, 2004.

112. Филиппович А.Ю. Автоматизированная технология корректуры переиздания Словаря Академии Российской 1789-1794 гг. на основе динамически пополняемого словаря спеллера Текст. // Вестник

113. Московского государственного университета печати, №5 май. М.: 2005. -С. 67-88.

114. Филиппович А.Ю. Исследование эффективности автоматизации корректурных процессов с помощью словаря спеллера при подготовке переиздания Словаря Академии Российской 1789-1794 гг. Текст. // Проблемы полиграфии и издательского дела. № 4. М.: 2007.

115. Филиппович А.Ю. Исследование эффективности системы оптического распознавания текстов Текст. // Интеллектуальные технологии и системы. Сборник учебно-методических работ и статей аспирантов и студентов. Выпуск 7. М. 2005. - С. 272-297.

116. Филиппович А.Ю. Особенности проектирования малых систем в Paradox Текст. // Проблемы построения и эксплуатации систем обработки информации и управления. Сборник статей. Выпуск 1. М.: 2000. - С. 144-145.

117. Филиппович А.Ю. Практические занятия по дисциплине «Мультимедиа технологии в образовании» Текст. // Вестник информационных технологий в образовании. Сборник учебно-методических и научных работ. Выпуск 1. М.: УМК по специальности НТО, 2005.-С. 168-198.

118. Филиппович А.Ю. Шрифтовое обеспечение электронной версии Словаря Академии Российской 1789-1794 гг. Текст. // Информатика и системы управления в XXI век: сборник трудов №4 молодых ученых, аспирантов и студентов-М.: 2006. С. 181-184.

119. Филиппович Ю.Н. О переиздании Словаря Академии Российской 1789-1794 Текст. // Словарь Академии Российской 1789-1794. Т. 1. М.: МГИ им. Е.Р. Дашковой. 2001.

120. Филиппович Ю.Н. Информационная технология электронного издания рукописных и первопечатных памятников древнерусской письменности Текст. // Издательское дело и редактирование. Теория. Методика.

121. Практика: Межведомственный сборник научных трудов. Вып. 6. МГУП, 2002.

122. Филиппович Ю.Н. Метафоры информационных технологий: рабочие материалы исследования. С предисловием Ю.Н. Караулова Текст. М.: МГУП, 2002.

123. Филиппович Ю.Н. Электронное издание рукописных и старопечатных древнерусских источников Текст. // Астахина Л.Ю. Слово и его источники. Русская историческая лексикография: источниковедческий аспект. С послесловием Ю.Н. Филипповича. -М.: . 2006.

124. Филиппович Ю.Н., Прохоров, А.В. Семантика информационных технологий: опыты словарно-тезаурусного описания. С предисловием А.И. Новикова Текст. -М.: МГУП, 2002.

125. Филиппович Ю.Н., Филиппович А.Ю. Электронный Указатель источников рукописной древнерусской Картотеки и Словаря русского языка XI-XVII вв. Текст. М.: МГУП, 2002.

126. Херасков М.М. Нума или процветающий Рим Текст. М.: Университетская типография, 1768.

127. Цейтлин P.M. Краткий очерк истории русской лексикографии. М., 1958.

128. Черкасова Г.А. Квантитативные исследования ассоциативных словарей // Общение. Языковое сознание. Межкультурная коммуникация. Сб. статей. Калуга, 2005. с. 227-244

129. Черкасова Г.А. Автоматизация построения баз лингвистических знаний диалоговых систем // Материалы III Всесоюзной конфе-ренции посозданию Машинного фонда русского языка. М.: Изд-во Моск. ун-та. 1990, с. 41-49.

130. Чернышева М.И. Состав и структура Словаря Академии Российской Текст. // Словарь Академии Российской 1789-1794. Т. 2. М.: МГИ им. Е.Р. Дашковой. 2002.

131. Чикунов И.М. Электронное издание древних рукописей и первопечатных книг Текст. : Дис. . канд. техн. наук : 05.13.06 Москва, 2003.

132. Шицгал А.Г. Графическая основа русского гражданского шрифта Текст.-М.-Л.,1947.

133. Шицгал А.Г. Русский гражданский шрифт 1708-1958Текст. М., 1959.

134. Шицгал А.Г. Русский типографский шрифт. Вопросы истории и практика применения Текст. -М., 1974.

135. Шицгал А.Г. Русский типографский шрифт. Вопросы истории и практика применения Текст. М.: Изд-во «Книга», 1985.

136. Шрифты. Разработка и использование. / Барышников Г.М., Бизяев А.Ю., Ефимов В.В., Моисеев А.А. Почтарь Э.И. Ярмола Ю.А. Текст. -М., 1997.

137. Энциклопедии mail.ru Электронный ресурс. / Режим доступа: http://enc.mail.ru/- Загл. с экрана

138. Collection de differents genres d'ecriture pour server de modele Текст. -M.: тип. H. Всеволожского, 1810.

139. CUNEIFORM Электронный ресурс. / Коммерческие продукты. 12.2005. Режим доступа: http://www.cuneiform.ru/products/index.html -загл. с экрана.

140. Dic.academic.ru Словари и энциклопедии Online Электронный ресурс. / - Режим доступа: http://dic.academic.ru/, свободный. - Загл. с экрана.

141. Fontz.ru Электронный ресурс. / Шрифты. Типографика. Дизайн. Верстка. Режим доступа: http://fontz.ru/, свободный. - Загл. с экрана. -Яз. Рус. англ.

142. OCR&ICR Technology White Paper, docflow.ru все о мире электронного документоборота. - Режим доступа: http://www.docflow.ru/analyticfull.asp?param=3 03 87

143. РагаТуре: коллекция кириллических и национальных шрифтов Электронный ресурс. / Режим доступа: http://fonts.ru/, свободный. - Яз. Рус. англ.

144. Rambler словари Электронный ресурс. / Режим доступа: http://www.rambler.ru/dict/. свободный. - Загл. с экрана.

145. Yandex словари Электронный ресурс. / Abby Lingvo перевод слов. -Режим доступа: http://slovari.yandex.ru/ свободный. Загл. с экрана.