автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Автоматический синтез правил коррекции текстовых документов формата LATEX
Автореферат диссертации по теме "Автоматический синтез правил коррекции текстовых документов формата LATEX"
На правах рукописи
Чувилин Кирилл Владимирович
Автоматический синтез правил коррекции текстовых документов формата ШеХ
05.13.17 - Теоретические основы информатики
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
2 Я НОЯ 2013
Москва - 2013
005540150
005540150
Работа выполнена на кафедре «Интеллектуальные системы» факультета управления и прикладной математики Федерального государственного образовательного учреждения высшего профессионального образования «Московский физико-технический институт (государственный университет)».
Научный руководитель:
доктор физико-математических наук Воронцов Константин Вячеславович.
Официальные оппоненты:
Ульянов Михаил Васильевич, доктор технических наук, профессор, Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Московский государственный университет печати имени Ивана Федорова», профессор кафедры.
Гуров Сергей Исаевич, кандидат физико-математических наук, доцент, с. н. е., Обособленное подразделение факультет вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова, доцент.
Ведущая организация: Федеральное государственное бюджетное учреждение науки Институт системного анализа Российской академии наук.
Защита состоится «12» декабря 2013 г. в 14:00 часов на заседании диссертационного совета Д 002.017.02 при Федеральном государственном бюджетном учреждении «Вычислительный центр им. А. А. Дородницына Российской академии наук», расположенном по адресу: 119333, г. Москва, ул. Вавилова, 40.
С диссертацией можно ознакомиться в библиотеке ВЦ РАН. Автореферат разослан «9» ноября 2013 г.
Ученый секретарь диссертационного совета, д. ф.-м. н.
Рязанов В. В.
Общая характеристика работы
Актуальность темы. В связи с ростом числа электронных научных изданий постоянно увеличивается число издательств, редакционно-издательских отделов вузов и научных учреждений, индивидуальных авторов, использующих систему компьютерной верстки ETjjX. KTjjX является стандартом де-факто для научного общения и публикаций. Постоянно растет доля электронных изданий, к которым предъявляются повышенные требования оперативности публикаций.
При этом уровень подготовки пользователей в области компьютерной верстки, знания типографических правил и традиций остается невысоким. К таким правилам относятся оформление заголовков, списков, таблиц, библиографии, формул, чисел, и многое другое. Ошибки, связанные с несоблюдением этих правил, называются типографическими. При текущем уровне технологий исправление таких ошибок производится корректорами вручную, что требует значительных затрат времени. Большинство ошибок являются типовыми, что создает предпосылки для автоматизации процесса корректуры.
Автоматизация стадии корректуры при подготовке научных изданий позволила бы существенно сократить затраты и сроки и повысить качество верстки. В данной работе эта задача ставится как задача автоматической обработки текста и решается методами машинного обучения. Такой подход к проблеме автоматизации корректуры до сих пор не применялся.
Степень разработанности темы. Существуют инструменты для облегчения процесса ручной корректуры (André, Richy, 1999), но, тем не менее, обработка одной страницы занимает до двух часов. Вообще говоря, идея автоматизации коррекции текстов не нова (Большаков, 1988), и на данный момент существуют качественные инструменты для автоматического поиска и исправления орфографических ошибок1, использующие словари и морфологический анализ словоформ текста. Кроме того, схожая проблема возникает для интеллектуальной коррекции ошибок в запросах поиска (Панина и др., 2013), с помощью лексических и статистических признаков. Но подобные подходы не применимы для исправления типографических ошибок, рассматриваемых в данной работе, которые связаны не только с текстовым содержанием документа, но и разметкой форматирования, и зачастую для описания ошибки не достаточно локальной информации в тексте, но также требуется знание контекста, дополнительной информации о позиции в структуре документа.
С другой стороны, существует область исследований, посвященная улучшению характе-
1 http://ext ens ions . services, openoff ice.org/project/lightproof
ристик исходного кода программ (вероятности возникновения ошибок в отдельных модулях, степени связности модулей и др.). Известны методы (Williams, Hollingsworth, 2005; Князев, 2007), позволяющие оценивать характеристики, основываясь на анализе истории изменений репозиториев, и использовать их для поиска ошибок в коде. Они позволяют создавать рекомендательные системы (Madou et al., 2011) для улучшения качества кода программы при редактировании. Документы в формате ШеХ можно рассматривать как исходный код, который используется компилятором Т^Х, но в издательской практике не распространено использование репозиториев, пригодных для последующего анализа, нет единых стандартов, и, кроме того, текстовое содержимое документов не может быть подвержено подобной обработке.
Таким образом, возникает необходимость нового исследования, направленного непосредственно на автоматизацию процесса исправления типографических ошибок.
Цели и задачи исследования. Объектом исследования являются хорошо структурированные текстовые документы, которые могут быть описаны с помощью синтаксического дерева. Предмет исследования — алгоритмы автоматического синтеза правил коррекции структурированных тестовых документов по выборке пар «черновик-чистовик».
Целью диссертационного исследования является разработка методов, алгоритмов и технологий для создания автоматизированной системы, позволяющей многократно повысить эффективность труда корректоров при работе с текстовыми документами формата Щ^Х.
Для достижения цели исследования в диссертации решаются следующие задачи.
1. Разработка эффективных алгоритмов для представления и сравнения файлов в формате КЩХ как древовидных структур данных.
2. Формализация описания правил коррекции типографических ошибок и разработка эффективных алгоритмов поиска мест ошибок в документах и синтеза правил для их исправления. Множество проблем вызваны тем, что при ручной обработке документов корректоры придерживаются недостаточно формализованных рекомендаций. И составление вручную достаточно полного описания набора правил для автоматического использования трудно реализуемо. Некоторые из используемых рекомендаций довольно сложны и сильно зависят от контекста, что требует сложных моделей для описания правил коррекции.
3. Задача автоматического синтеза правил коррекции текстовых документов формата ИГеХ заключается в построении совокупности формальных инструкций, которые могут быть
использованы в алгоритмах локализации ошибок (определение фрагментов текста, содержащих ошибки) и исправления ошибки (построение ранжированного списка вариантов замены фрагмента текста, содержащего ошибку).
4. Разработка методики оценивания синтезированных правил коррекции для последующего ранжирования. Это необходимо при выборе наиболее подходящих вариантов найденной ошибки для предоставления их пользователю.
5. Экспериментальное исследование полноты и точности разработанных алгоритмов сравнения документов и построения правил коррекции с использованием корпуса реальных статей.
Научная новизна. В работе впервые предложен подход к синтезу правил коррекции текстовых документов по обучающей выборке, составленной из пар документов «черновик-чистовик». Задача автоматизации корректуры текстовых документов никогда ранее не ставилась как задача синтеза правил коррекции методами машинного обучения.
В работе предложен новый гибридный алгоритм для выявления различий между структурированными (обладающими синтаксическим деревом) текстовыми документами, который корректно учитывает логическую структуру текстов, но при этом, как минимум, в три раза быстрее алгоритма, основанного на сравнении только синтаксических деревьев.
Теоретическая и практическая значимость. Теоретическая ценность работы заключается в том, что предложены подход для синтеза правил автоматической коррекции по обучающей выборке, составленной из пар документов «черновик-чистовик», и методика оценки качества таких правил. Кроме того, разработан эффективный алгоритм сравнения синтаксических деревьев документов в формате ЕТеХ.
Практическая ценность результатов диссертации заключается в том, что разработанные методы, алгоритмы и технологии позволяют реализовать систему автоматизации корректуры, в несколько раз сокращающую трудозатраты при коррекции текстовых документов формата КТЕХ. При этом автоматизируются процессы поиска различий между структурированными документами, поиска возможных типографических ошибок, синтеза правил коррекции, формирования наборов вариантов исправления.
Предлагаемый подход. В данной работе предлагается формально описывать правила автоматической коррекции. Для этого каждый документ в формате ЬЯ^Х отождествляется с синтаксическим деревом, для которого и формулируются правила [1].
Обучающая выборка составляется из пар документов: черновик (документ, не прошедший обработку профессиональным корректором) и чистовик (документ, содержащий корректорские правки). Для сравнения синтаксических деревьев используется гибридный алгоритм, который учитывает и текстовую природу документов ЬЯеХ, и их древовидную структуру [2]. В результате работы алгоритма строится отображение вершин синтаксического дерева черновика в вершины дерева чистовика.
Построенное отображение используется для синтеза правил, из которых каждое характеризуется шаблоном (линейным или древовидным), применяющимся к вершинам синтаксического дерева. На основе предварительных оценок точности строятся групповые правила [6].
Для оптимизации построенного набора правил коррекции и последующего их ранжирования строятся оценки качества на основе статистики применимости правил к документам обучающей выборки [4].
Результаты, выносимые на защиту.
1. Алгоритм сравнения структурированных текстов, использующий их представление в виде синтаксических деревьев (на примере текстов формата ИГеХ).
2. Алгоритмы построения линейных, древовидных и групповых правил коррекции документов по обучающей выборке пар документов «черновик-чистовик», позволившие достичь точности 76% и полноты 69% на коллекции из 85 пар документов.
3. Программа для построения набора правил коррекции документов и эмпирического оценивания полноты и точности построенного набора.
Достоверность результатов. Обоснованность и достоверность результатов и выводов подтверждена:
• сравнением реализованных алгоритмов и подходов с аналогами;
• опытом практического применения результатов исследования на реальных коллекциях текстовых документов;
• обсуждением результатов исследования на российских и международных научных конференциях;
• публикациями результатов исследования в рецензируемых научных изданиях, в том числе рекомендованных ВАК РФ.
Апробация результатов исследования. Основные результаты диссертационного исследования докладывались на следующих конференциях:
• 54-я научная конференция Московского физико-технического института (Долгопрудный,
2011 г.),
• Международная научная конференция студентов, аспирантов и молодых учёных «Ломо-носов-2012» (Москва, 2012 г.),
• Вторая научная конференция молодых ученых «Теория и практика системного анализа» ТПСА-2012 (Рыбинск, 2012 г.),
• Девятая международная конференция «Интеллектуализация обработки информации» ИОИ-2012 (Черногория, Будва, 2012 г.),
• 55-я научная конференция Московского физико-технического института (Долгопрудный,
2012 г.),
• 16-я всероссийская конференция с международным участием «Математические методы распознавания образов —2013» ММРО-16 (Казань, 2013 г.).
В рамках работы над диссертацией был реализован прототип системы полуавтоматической коррекции типографических ошибок. Проект «Самообучающаяся система для автоматизации коррекции документов в формате СТрХ» прошел отборочные этапы программы «Участник молодежного научно-инновационного конкурса» («У.М.Н.И.К.») и вошел в число победителей конкурса в 2012 году2.
Основные результаты работы опубликованы в [3-6], в том числе в изданиях [1, 2], входящих в список ВАК.
Структура и объем диссертации. Диссертация состоит из введения, 4 глав основного содержания, заключения, библиографии и 4 приложений. Работа содержит 127 страниц основного текста, включая 24 иллюстрации. Перечень библиографических источников включает 70 наименований.
2 http://mipt iс. ru/UHNIK/a_51ekjо. html
Содержание работы
Во Введении обоснована актуальность темы диссертационной работы, сформулирована цель и аргументирована научная новизна исследования, показана практическая значимость полученных результатов, представлены выносимые на защиту научные положения.
В первой главе приводится постановка задачи, обзор литературы по тематике задачи и структура предлагаемого в диссертации подхода.
В разделе 1.1 на примерах дается представление о типографических ошибках, которые встречаются в документах формата ВТ£Х.
Рассматривается постановка задачи автоматического синтеза правил коррекции текстовых документов формата ЕТ^Х как задачи обучения по прецедентам.
Под правилом коррекции подразумевается формально описанная инструкция, которая может быть использована алгоритмом для:
• локализации ошибки в документе формата 1$ГЕХ(определение фрагмента исходного текста, содержащего ошибку),
• предложения варианта исправления (построения текста для замены фрагмента с ошибкой).
Пусть X — множество пар документов: черновик (документ, не прошедший обработку профессиональным корректором) и чистовик (документ, содержащий корректорские правки). Я — множество правил коррекции документов. Дана обучающая выборка Хт = {х[,..., хт} из т пар документов. Требуется построить набор правил
Я"(Хт) = {гь...,г„} С Д х ... х Я
коррекции документов, который бы обладал наилучшими оценками полноты и точности.
В разделе 1.2 дается обзор методов и решений в областях исследований, смежных с рассматриваемой в диссертации задачей:
• автоматизация коррекции текстов,
• автоматический поиск и исправление орфографических ошибок,
• интеллектуальная коррекция ошибок в запросах поиска,
• улучшение характеристик исходного кода программ (вероятности возникновения ошибок в отдельных модулях, степени связности модулей и др.).
В разделе 1.3 приводится структура предлагаемого в диссертации подхода к решению задачи синтеза правил коррекции. Она состоит из четырех этапов.
На первом этапе строится синтаксическое дерево для каждого используемого документа формата КТ£Х. В дальнейшем синтезируемые правила формулируются именно для деревьев.
На втором этапе выделяются различия между синтаксическими деревьями документов в каждой паре «черновик-чистовик» и строится отображение вершин первого дерева во второе.
На третьем этапе синтезируются правила коррекции, каждое из которых изменяет одну из вершин синтаксического дерева.
На четвертом этапе происходит построение групповых правил коррекции, которые образуются из построенных на предыдущем этапе правил и способны изменять несколько вершин синтаксического дерева.
Детально каждый из этапов описан в последующих главах диссертации.
Вторая глава посвящена формальному описанию структуры документов формата ЕТ^Х.
В разделе 2.1 дается представление о Т^Х и fiT^X.
ТЕХ представляет собой систему правил разметки текста и одновременно их обработчик — компилятор. Он был разработан американским математиком и программистом Дональдом Кнутом для верстки текстов с формулами. Он позволяет разделить физическое и логическое форматирование. ВДЕХявляется наиболее распространенным раширением TjrXa.
В разделе 2.2 описываются элементы разметки форматирования документа формата ШЕХ.
Каждый документ ИГеХ должен начинаться с команды, в которой указывается используемый класс —шаблон оформления:
\documentclass[<необязательные параметры;»] {<имя класса>}
Далее могут идти команды для подключения дополнительных файлов со стилями, выбора настроек и т. п. Но весь текст документа с разметкой форматирования заключен в окружение document:
\begin{document} \end{document}
В данной диссертации исследуется содержимое именно этого окружения и только его.
Каждая позиция в тексте документа может определяться набором состояний, в работе выделяются следующие: математическая формула (в противном случае — обычный текст), список, изображение, таблица, вертикальный режим (в противном случае — горизонтальный).
Весь исходный текст документа формата ИГбХ состоит из элементов трех типов: символ, команда, окружение.
Символы являются минимальными элементами конструкции документа формата ЕТ^Х. Каждый символ описывается шаблоном — фрагментом текста, который соответствует символу в коде документа. Некоторые символы могут обладать меткой конца, в этом случае считается, что символ ограничивает (или «включает в себя») другой код документа.
Команды представляют собой еще одни элементы конструкции документов ETjjX, которые могут использовать аргументы. Каждая команда определяется именем и шаблоном параметров. Имя команды состоит из знака \, непрерывной конечной последовательности латинских букв и может заканчиваться символом *. Шаблон параметров описывает сигнатуру размещения аргументов команды в исходном коде, которые всегда указываются сразу после имени.
Каждое окружение описывается именем, которое состоит из непрерывной конечной последовательности латинских букв и может заканчиваться символом *. В исходном коде окружения описываются с помощью вспомогательных команд \begin (начало окружения) и \end (конец окружения).
Каждый элемент исходного текста документа формата ЕТрХ обладает типом лексемы — логическим и функциональным значением. Один и тот же элемент может обладать разными типами лексем для различных состояний обработчика TgX. Также типом лексемы могут обладать параметры команд. Выделяются следующие типы: binaryOperator (бинарный математический оператор), brackets (скобки), cellbreak (конец ячейки), char (символ), command (команда), digit (цифра), equation (формула), floatingBox (плавающий бокс), hskip (горизонтальный отступ), image (изображение), index (верхний или нижний индекс), item (элемент списка), label (метка), length (линейное измерение), letter (буква слова), linebreak (обрыв строки), list (список), par (новый абзац), path (путь к файлу или папке), postOperator (математический постоператор), preOperator (математический преоператор), raw (необрабатываемые данные), space (пробел), table (таблица), tableParams (параметры таблицы), tag (тэг), vskip (вертикальный отступ), wrapper (обертка).
В разделе 2.3 описывается рассматриваемая в диссертации древовидная структура до-
кументов формата Щ;Х. Файлы формата СТрХ, используемые при подготовке научных издательств (книг и сборников трудов), как правило, обладают естественной древовидной структурой (синтаксическим деревом), исследуя которую, можно получить всю необходимую информацию для описания корректорской правки. Узлы этой структуры будем называть токенами. Корнем является окружение document. Выделяются следующие типы токенов: тело окружения Ш"еХ, команда ИТ^Х, окружение ВТ^Х, метка, линейный размер, число, разделитель абзацев, путь к файлу, пробел, символ, параметры таблицы, слово, не распознаваемая последовательность символов (например, для окружения verbatim). Синтаксическое дерево взаимно однозначно определяет документ ШеХ.
Третья глава посвящена эффективному алгоритму сравнения текстовых документов, представимых в виде синтаксического дерева.
В работе [3] для построения различий между синтаксическими деревьями используется алгоритм, основанный на алгоритме Zhang-Shasha. Однако практический опыт позволил выявить следующие недостатки его применения. Во-первых, возникают проблемы, связанные с эффективностью: сложность алгоритма пропорциональна произведению числа ключевых корней для чернового и чистового деревьев. Это приводит к тому, что сравнение двух документов типичной длины занимает до трех минут, и становится невозможным использовать его для редактирования в режиме «онлайн». Во-вторых, существуют проблемы, связанные с потреблением памяти. Для работы алгоритма требуется хранить попарные расстояния между всеми поддеревьями чернового и чистового деревьев и соответствующими лесами. Это делает невозможным использование алгоритма для сравнения больших документов, соответствующих, например, главам книг.
С другой стороны, существуют алгоритмы сравнения текстовых файлов, избавленные от подобных недостатков. Но в этом случае возникают проблемы с качеством: полученное различие не учитывает структуру документов, и, в итоге, не соответствует логике корректора и не позволяет выявлять верные закономерности.
Поэтому предлагается гибридный алгоритм сравнения документов в формате MjjX, использующий достоинства алгоритмов сравнения неформатированных текстов и синтаксических деревьев, и позволяющий сравнительно быстро выявлять различия, учитывающие логическую структуру, даже для больших документов.
В разделе 3.1 описываются алгоритмы построения редактирующего расстояния и отображений для линейных последовательностей элементов.
Мера различия (редактирующее расстояние) между линейными конечными последовательностями элементов, включая последовательности символов, которыми являются тексты, основано на расстоянии Левенштейна.
Определение 1 (Расстояние Левенштейна). Пусть для изменения последовательности элементов разрешается применять операции трех типов: удаление элемента, вставка элемента, изменение элемента. Тогда расстоянием Левенштейна между двумя последовательностями называется минимальное количество таких операций.
Расстояние Левенштейна выражается следующими рекуррентными соотношениями:
5ь(а1.. .а„ап+1, .. .Ьт6т-ц) = тт <
5/.(а! ...ап,Ь 1 . ..ЬтпЬт+1) + <5(ап+ь 0) ¿¿(аг.. .а„а„+1,Ь1 ...Ьт) + <5(0, &т+1) ¿¿(а!... а„, ... Ьт) + <5(ап+1, Ьш+1)
где в классическом случае 5(ап+1,0) (цена удаления элемента а„+1), 5(0, Ьт+]) (цена вставки элемента Ьт+1) и <5(ап+1,Ьт+1) (цена изменения элемента а„+1 на Ьт+1 при ап+1 ф Ьт+1) приравниваются к 1. Но, вообще говоря, это могут быть другие неотрицательные числа, описывающие степень близости элементов.
Кроме того, в диссертации используется относительное расстояние Левенштейна — классическое расстояние Левенштейна, нормированное на длину наибольшей последовательности:
, , , , ч 5ь(а.\ .. .а„, .. .Ът)
0ць\а1 ■ ■ ■ а-п, Ь\ ■. ■ от) =---г-,
тах(п, ш)
которое, очевидно, может принимать значения от 0 до 1.
Алгоритмы, которые строят отображение, основанное на расстоянии Левенштейна, используют обратное отслеживание рекуррентных формул, описанных выше. Наиболее эффективным, с точки зрения количества потребляемой памяти, является алгоритм Хиршберга.
Документы в формате ИГ^Х обычно рассматриваются как текстовые файлы, поэтому возможно использование алгоритма Хиршберга, применимое к сравнению произвольных текстов. Естественно представлять текст как линейную последовательность символов и использовать алгоритм для сравнения таких последовательностей. Но часто оказывается (и это применимо к КТр:Х-документам), что тексты содержат очень большое количество символов, и последовательности получаются чрезмерное длинными, что приводит к завышенному расходу памяти и низкой эффективности. Поэтому на практике сравниваемые тексты разбиваются
на неделимые фрагменты, обычно в местах переноса строк, и строится отображение последовательностей таких фрагментов.
В разделе 3.2 описывается алгоритм гЬа^-БЬазЬа построения редактирующего расстояния и отображений для деревьев.
Рассматриваются деревья, обладающие следующими свойствами: каждая вершина содержит ключ (элемент из заранее определенного набора), выбрана вершина, которая является корнем дерева, вершины, имеющие общего родителя, упорядочены. К дереву разрешается последовательно применять следующие операции: удаление вершины (все ее потомки переходят родителю), вставка новой вершины в произвольное место, изменение ключа вершины.
Определение 2 (Редактирующее расстояние). Редактирующим расстоянием между двумя деревьями называется минимальное количество операций удаления вершины, вставки вершины и изменения ключа, позволяющих получить из первого дерева второе.
Алгоритм Zhang-Shasha алгоритм позволяет вычислять редактирующее расстояние между двумя деревьями и, кроме того, определять, какую операцию нужно применить к каждой вершине для реализации такого расстояния.
Определение 3 (Отображение деревьев). Пусть заданы два дерева. Отображением первого дерева во второе называется правило, которое некоторым вершинам первого дерева взаимно однозначно сопоставляет некоторые вершины второго дерева так, чтобы порядок следования вершин сохранялся. Такие отображения принято записывать с помощью набора пар номеров вершин (прообраз, образ). Пусть отображение содержит пары (а, 6) и (с, <Г). Тогда требуемые условия запишутся следующим образом:
а = с Ь = й, а < с Ь < в..
Каждое такое отображение соответствует набору операций, используемых для построения редактирующего расстояния:
• если вершина первого дерева не имеет образа, то ее нужно удалить;
• если вершина второго дерева не имеет прообраза, то ее нужно вставить;
• если вершине первого дерева соответствует вершина второго с другим ключом, то нужно изменить ключ.
Таким образом, отображение, соответствующее минимальному количеству операций, реализует редактирующее расстояние.
Токену каждого типа синтаксического дерева Ш5Х можно сопоставить ключ так, чтобы синтаксические деревья полностью удовлетворяли условиям применимости алгоритма Zhang-Shasha. Следующие особенности алгоритма 2Ьап£-5ЬазЬа мешают эффективно применять его для таких деревьев:
• две матрицы расстояний для каждой пары вершин — не достаточно объема оперативной памяти персональных компьютеров для сравнения, например, глав книг;
• двойной цикл по ключевым корням — синтаксические деревья документов в формате ШбХ имеют тысячи ключевых корней, поэтому скорость алгоритма невысокая.
В разделе 3.3 для решения этих проблем предлагается гибридный алгоритм. Идея заключается в том, чтобы найти как можно больше совпадений и различий синтаксических деревьев, используя сравнение документов КТеХ, как текстов, а оставшиеся токены сравнить с помощью алгоритма ХЬаг^-ЯЬазЬа.
В первую очередь строятся последовательности фрагментов текста сравниваемых документов. Каждому токену синтаксического дерева соответствует набор последовательных символов в тексте документа. Поэтому можно говорить о границах токена: позициях начала (перед первым из этих символов) и конца (после последнего из символов). Эти позиции удобно использовать в качестве разделителей текста документа на фрагменты, поскольку они отражают логику структуры элементов ЖрХ.
Затем находится отображение фрагментов текста с помощью алгоритма Хиршберга. Учитывается, что некоторые пары фрагментов могут иметь меньше различий, чем другие: в качестве цены изменения одного фрагмента текста на другой используется относительное расстояние Левенштейна для последовательностей символов, образующих эти фрагменты.
После построения отображения для каждого фрагмента текста сравниваемых документов возможны следующие случаи. Если фрагмент принадлежит первому документу и в качестве образа имеет пустое множество, то будем считать, что все его символы удаляются. Если фрагмент текста принадлежит второму документу и в качестве прообраза имеет пустое множество, то будем считать, что все его символы добавляются. Все остальные фрагменты разбиваются на пары: прообраз и образ. Если прообраз и образ совпадают, то будем считать, что каждый их символ не изменяется. Для не совпадающих образа и прообраза построим отображение символов с помощью алгоритма Хиршберга, рассматривая два этих фрагмента текста как две линейные последовательности символов.
Все символы текста разбиваются на классы (некоторые могут быть пусты), взаимно однозначно соответствующие токенам. Считается, что токен первого дерева удаляется, если удаляются все символы текста первого документа, которые ему соответствуют. Считается, что токен второго дерева добавляется, если добавляются все символы текста второго документа, которые ему соответствуют. Считается, что токен первого или второго дерева не изменяется, если не изменяются все символы текста документа, которые ему соответствуют. Если из синтаксических деревьев сравниваемых документов убрать все удаляемые, добавляемые и неизменяемые токены, останутся два дерева, состоящие из остальных токенов. Для постоения отображения этих токенов используется алгоритм Zhang-Shasha.
Четвертая глава посвящена синтезу, использованию и оценке качества правил коррекции документов формата ЩеХ.
В разделе 4.1 Рассматриваются правила с линейным шаблоном. Каждое построенное правило характеризуется шаблоном (последовательностью соседних токенов с общим родителем), локализатором (токеном, к потомкам которого применяется шаблон) и действием (операцией, направленной на изменение синтаксического дерева).
Определение 4. Левая (правая) шаблонная цепочка радиуса г — это последовательность соседних токенов с общим родителем, длиной не больше г. Началом цепочки считается самый правый (левый) ее токен.
Пусть токен х чернового дерева удален или изменен на токен у. Тогда локализатор — родительский токен х, шаблон составляется из левой и правой шаблонных цепочек, наиболее близких к х и самого токена х. В таких случаях токен х будем называть целевым токеном правила. Действие правила заключается в удалении целевого токена или изменении его на токен у, в зависимости от типа правила.
Пусть в чистовое дерево добавлен токен у. Тогда локализатор — прообраз родительского токена у, если он существует; шаблон составляется из левой шаблонной цепочки, начинающейся в прообразе левого соседа у, если он существует, и аналогичной правой. Действие правила заключается в добавлении токена у между левой и правой шаблонными цепочками.
Считается, что токен I дерева соответствует локализатору правила, если выполняется совпадение типов токенов и типов их лексем.
Среди потомков I ищется непрерывная последовательность, совпадающая с шаблоном по следующим правилам:
• для всех токенов шаблонных цепочек должно выполняться совпадение типов и лексем
с соответствующими потомками I,
• для целевого токена должно выполняться полное совпадение с соответствующим потомком I.
Определение 5. Позиция правила в синтаксическом дереве документа КТ£Х — это совокупность токена, соответствующего локализатору правила, и набора токенов, соответствующих шаблону. Порождающая позиция правила — позиция, которая соответствует элементу отображения синтаксических деревьев, из которого было синтезировано правило. Множество позиций или позиции правила на множестве документов —совокупность всех позиций в синтаксических деревьях этих документов, удовлетворяющих правилу.
Для предварительной оценки качества каждого правила вычисляются данные по обучающей выборке [5]. Обозначим: — количество позиций правила на множестве черновиков, с( — количество позиций правила на множестве чистовиков.
Определение 6 (Предварительная точность правила). Предварительная (на обучающей выборке) точность правила — это отношение количества позиций, которые соответствуют только черновикам, к общему числу найденных позиций:
Это соответствует тому, что «идеальное» правило, обладающее точностью 1, применимо только к черновикам и не имеет позиций на чистовиках.
Набор токенов, образующих шаблон правила, можно задавать по-разному. Из результатов экспериментов [4] можно сделать вывод, что шаблоны максимальной длины не всегда дают лучший результат. В данной работе оптимальный шаблон выбирается по следующим критериям:
1. предварительная точность правила не должна быть меньше 0.9,
2. выбирается наименьший размер шаблона, позволяющий построить правило с допустимой точностью,
3. выбирается правило с наибольшей точностью из всех, обладающих шаблонами выбранного размера.
Но, как оказалось, правки, совершаемые корректорами, не всегда могут быть заданы тремя вышеописанными действиями. Например, при замене фрагмента |$(к-1)/(8Ь"2) на |$(к-1)/(81.~2)$~7| должно произойти перемещение токена, соответствующего запятой, что вызовет нарушение порядка: токен, образованный запятой, является потомком токена
формулы (имеет меньший номер, чем номер токена формулы), а должен стать его правым соседом (иметь номер на 1 больше, чем токен формулы).
Для выделения подобных перемещений набор операций над деревьями был расширен операциями поднятия и опускания. В предположении, что найдено отображение некоторого дерева на другое, введены обозначения: £> — множество удаленных вершин, / — множество добавленных вершин, р(х) —родитель вершины х, /(х) — образ вершины х (при этом УгеО /(х) = 0), к(х) — ключ вершины х.
Определение 7. Поднятыми вершинами называются вершины ... чернового дерева такие, что для г = 1,..., к выполняется:
• XI = х1 + г — 1 (последовательные),
• р(х{) = Хк 4- 1 (являются последними потомками общего родителя).
При этом существуют вершины У\, ■. ■ ,Ук чистового дерева такие, что для г = 1,..., к выполняется:
• № = ?/1 + I — 1 (последовательные),
• = к(х^) (ключи соответствуют удаленным вершинам),
• = р{У\) (имеют общего родителя),
• У\ = /(р{х 1)) + 1 (следуют за образом родителя 11,..., хк).
Определение 8. Опущенными вершинами называются вершины х\,..., х^ чернового дерева такие, что для г = 1,..., к выполняется:
• = XI + г — 1 (последовательные),
• р(х{) = р(х1) (имеют общего родителя).
При этом существуют вершины уь ..., ук чистового дерева такие, что для г = 1,..., к выполняется:
• Уг — У\ + 2 ~ 1 (последовательные),
• к(Уг) = к(х{) (ключи соответствуют удаленным вершинам),
• р{уд — 1(х 1 ~ 1) (имеют общего родителя, являющегося образом вершины, предшествующей XI, .. ., х^)-
Для всех поднятых и опущенных вершин отображение деревьев дополняется парами (хг = 1,..., к.
В диссертации доказано следующее утверждение.
Теорема 1. Пусть есть два дерева и Т2> причем Т2 получено из Тг с помощью операций вставки, удаления, изменения ключа, поднятия и опускания. Если ¡р1,... ^„ — последовательность операций с вершинами, реализующими какое-то отображение в Тг, то можно построить набор операций ¡р[,. .., (р'гп, реализующий выбранное отображение, такой, что то ^ га, и все операции поднятия и опускания выполняются после операций вставки, удаления и изменения ключа.
Смысл теоремы заключается в том, что для построения отображения деревьев, используя все пять операций, можно сначала воспользоваться алгоритмом для построения редактирующего расстояния, использующего операции вставки, удаления и изменения ключа, затем поднятые и опущенные вершины нужно искать среди удаленных (множество £>), а их образы — среди добавленных (множество I).
Тем не менее, в дальнейшем были предложены более универсальные групповые правила, которые охватывают этот подход, а поиск их происходит эффективнее.
Для оценки качества набора правил был проведен эксперимент, в котором использовалось 85 пар черновых и чистовых статей конференции ИОИ-8. Моделировалось адаптивное обучение набора правил. Для этого обучающее множество пар документов, используемое для построения правил, постепенно увеличивалось: 2, 3, 4, 6, 9, 13, 19, 28, 42, 63. Обозначим через 51 С ... С 510 полученные десять обучающих множеств пар документов, 5ц — множество всех пар документов. На каждом шаге контрольное множество формировалось из пар документов, которые добавлялись к обучающему множеству на следующем шаге: \ 5;, г = 1,... ,10.
Вычислялись оценки качества для синтезированных правил и наборов правил [5]. Последовательности множеств строились 50 раз, данные по всем построениям были усреднены.
Обозначим: ^ — количество позиций правила на множестве черновиков, с( — количество позиций правила на множестве чистовиков.
Определение 9. Пусть Р{А1),..., Р(Лк) — предварительные точности правил ..., Ак соответственно, а их позиции правил таковы, что соответствуют изменению одного и того же токена. Весом правила Л; называется IV (Д) = .
Определение 10. Пусть Е{А¿) — число, равное 0, если правило А, соответствует верной
0,40 0,38 0,36 0,34 0,32 0,30
® Предварительная точность набора правил Контрольная точность набора правил
* Предварительная полнота набора правил
* Контрольная полнота набора правил
Рис. 1. Оценки точности и полноты набора правил с простой структурой, правке, и 1 в противном случае. Тогда выражение
и Е
задает среднюю ошибку набора правил на выбранном токене.
Обозначим: Е1 и Ес — суммы средних ошибок набора правил на всех токенах черновых деревьев обучающей и контрольной выборок соответственно, Nt и — количества различных позиций всех правил набора на множествах черновиков обучающей и контрольной выборок соответственно, и £>с — суммы редактирующих расстояний для всех пар черновых и чистовых деревьев обучающей и контрольной выборок соответственно.
Поскольку правила синтезируются только при добавлении, удалении или изменении то-кена, а сумма таких операций для двух деревьев равна редактирующему расстоянию, будут корректны следующие определения [5].
Определение 11. -^^ — предварительная (на обучающей выборке) точность набора правил. JVeЛ^'E', — контрольная (на контрольной выборке) точность набора правил.
Определение 12. Д| — предварительная (на обучающей выборке) полнота набора правил. —контрольная (на контрольной выборке) полнота набора правил.
Результаты проведенных расчетов для наборов правил с простой структурой представлены на рисунке 1. Кривые, соответствующие предварительным и контрольным оценкам точности и полноты набора правил, расположены довольно близко друг другу. Это означает, что синтезированные предложенным способом правила обладают неплохой обобщающей способностью.
С другой стороны, и точность, и полнота наборов правил не превосходят 50%. Для точ-
_________ __________-.....и
----------- ф..... ...... *
Щ
..... ....................V
5 10 15 20 25 30 35 40 количество пар статей
ности это означает, что существуют различные правила со схожими шаблонами. Недостаток полноты можно объяснить тем, что рассмотренных типов правил недостаточно для описания действий корректора.
В разделе 4.2 вводится понятие групповых правил. На практике встречаются случаи, когда корректор изменяет, удаляет или добавляет более одного токена. Например, перенос одного токена на другую позицию представляет собой совокупность удаления и добавления токена. Для увеличения спектра обрабатываемых правок корректора мы будем использовать группировку правил.
Пусть для двух правил существуют позиции такие, что:
• токены, соответствующие локализаторам, совпадают;
• наборы токенов, соответствующих шаблонам, имеют общие элементы.
Тогда построим новое групповое правило, локализатор которого совпадает с локализатором рассматриваемых правил, а шаблон образуется объединением их шаблонов. Построенное правило добавляется в набор, если его предварительная точность выше, чем предварительная точность каждого из рассматриваемых правил.
0,60 0,55 0,50 0,45
@ Предварительная точность набора правил о Контрольная точность набора правил * Предварительная полнота набора правил ^ Контрольная полнота набора правил
Рис. 2. Оценки точности и полноты набора правил с учетом группировки.
На рисунке 2 показаны оценки качества набора правил с учетом групповых правил, построенные в соответствии с экспериментом, описанным выше. Можно видеть, что такой подход позволил получить точность заметно больше половины, но полнота все еще находится на уровне 50%.
В разделе 4.3 описываются правила с древовидной структурой шаблона. Шаблон правила с простой структурой позволяет использовать только соседние токены для определения
... .................
ж'- " _____....... .....о ___——А
4
5 10 15 20 25 30 35 40 количество пар статей
позиции, что, вообще говоря, не означает использование всего текста, соответствующего этим токенам, поскольку не учитываются структура и содержимое поддеревьев, корни которых образуют шаблон.
Шаблон двевовидного правила будем строить из двух шаблонных деревьев: левого и правого. В этом случае длина шаблона — количество токенов в этих деревьях.
Шаблонные деревья и все их поддеревья проверяются на применимость с помощью проверки на каждом уровне, начиная с потомков токена I, условий:
• совпадение самых правых (для левых поддеревьев) или левых (для правых поддеревьев) токенов-потомков с токенами шаблона,
• применимость соответствующего поддерева для каждого токена-потомка.
0,80 0,75 0,70 0,65 0,60
ш Предварительная точность набора правил о- Контрольная точность набора правил а Предварительная полнота набора правил ? Контрольная полнота набора правил
Рис. 3. Оценки точности и полноты набора правил с учетом группировки.
На рисунке 3 показаны оценки качества набора правил с учетом синтеза древовидных правил, построенные в соответствии с экспериментом, описанным выше. Можно видеть, что подобный подход позволил значительно увеличить точность синтезированного набора правил. В Заключении перечислены основные результаты работы:
1. Впервые задача автоматической коррекции документов формата ИГеХ формулируется как задача обучения по прецедентам, в которой обучающая выборка составляется из пар документов «черновик-чистовик».
2. Предложен алгоритм сравнения структурированных текстовых документов (на примере файлов формата KTgX), использующий их представление в виде синтаксических деревьев. Алгоритм основан на выделении удаленных, добавленных и не измененных вершин деревьев с помощью сопоставления текстовых представлений документов.
3. Предложен алгоритм автоматического построения правил удаления, вставки или изменения отдельных вершин деревьев, обладающих линейными и древовидными шаблонами. Показано, что в некоторых случаях требуются правила, которые изменяют несколько вершин одновременно, и предложен алгоритм построения групповых правил.
4. Предложена методика построения оценок полноты и точности синтезированного набора правил и точности отдельных правил.
В Приложении А приведен список символов Ш^Х, применяющихся для анализа используемых в данной работе документов.
В Приложении Б приведен список команд ИТеХ, применяющихся для анализа используемых в данной работе документов.
В Приложении В приведен список окружений ШеХ, применяющихся для анализа используемых в данной работе документов.
В Приложении Г приведены примеры построенных правил коррекции документов.
Список публикаций
Статьи в изданиях, входящих в перечень ВАК:
1. Чувилин, К. В. Использование синтаксических деревьев для автоматизации коррекции документов в формате ИТ^Х / К. В. Чувилин // Компьютерные исследования и моделирование,- 2012,- Т. 4, № 4,- С. 871-883.
2. Чувилин, К. В. Гибридный алгоритм сравнения документов в формате ИГ^Х / К. В. Чувилин // Прикладная информатика. — 2013. — № 4 (46). — С. 56-64.
Публикации в других изданиях:
3. Чувилин, К. В. Синтез правил коррекции документов в формате ЕТеХ с помощью сопоставления синтаксических деревьев / К. В. Чувилин // Труды 15-й всероссийской конференции «Математические методы распознавания образов».— Москва: МАКС Пресс, 2011.-С. 597-600.
4. Чувилин, К. В. Автоматический синтез правил коррекции документов в формате ШеХ и их улучшение на основе статистической оценки качества / К. В. Чувилин // Труды II Все-
российской научной конференции молодых ученых с международным участием «Теория и практика системного анализа», — 2012.— С. 17-25.
5. Чувилин, К. В. Адаптивное обучение правил коррекции документов в формате Щ.Х / К. В. Чувилин // Труды 9-й международной конференции «Интеллектуализация обработки информации». — Москва: МАКС Пресс, 2012,— С. 652-655.
6. Чувилин, К. В. Использование правил со сложной структурой для коррекции документов в формате ШбХ / К. В. Чувилин // Машинное обучение и анализ данных. — 2013.— Т. 1, №5,-С. 632-640.
Чувилин Кирилл Владимирович
АВТОМАТИЧЕСКИЙ СИНТЕЗ ПРАВИЛ КОРРЕКЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ ФОРМАТА LATEX
АВТОРЕФЕРАТ
Подписано в печать 08.11.2013. Формат 60 х 84'/„,. Усл. печ. л. 1,0. Тираж 100 экз. Заказ № 337.
Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Московский физико-технический институт (государственный университет)»
Отдел оперативной полиграфин «Физтех-полиграф» 141700, Московская обл., г. Долгопрудный, Институтский пер.,
Текст работы Чувилин, Кирилл Владимирович, диссертация по теме Теоретические основы информатики
Московский физико-технический институт (государственный университет) Факультет Управления и Прикладной Математики Кафедра «Интеллектуальных систем»
На правах рукописи
04201451920
Чувилин Кирилл Владимирович
Автоматический синтез правил коррекции текстовых документов формата Ш^Х
05.13.17 - Теоретические основы информатики
ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук
Научный руководитель д. ф.-м. н.
Воронцов Константин Вячеславович
Москва - 2013
Содержание
Введение........................................................................5
Глава 1. Постановка задачи. Обзор существующих методов.
Предлагаемый подход....................................................13
1.1. Постановка задачи синтеза правил коррекции типографических ошибок..........................................................17
1.2. Обзор существующих методов ....................................18
1.2.1. Автоматизация обработки текстов........................18
1.2.2. Интеллектуальная коррекция ошибок в поисковых запросах ......................................................21
1.2.3. Обработка исходного кода программ....................23
1.3. Предлагаемый подход..............................................24
1.3.1. Анализ структуры документов формата Ш^Х..........25
1.3.2. Выделение различий, вносимых корректорами в документы ........................................................25
1.3.3. Синтез правил коррекции..................................26
1.4. Выводы главы 1......................................................26
Глава 2. Структура документов формата Ш^Х........................29
2.1. Система компьютерной верстки ВТ^Х............................29
2.1.1. Кратко о Т]чХе..............................................29
2.1.2. Кратко о М^Хе ...................... 30
2.2. Структура разметки документа формата ЕТ^Х....................31
2.2.1. Состояния..................................................32
2.2.2. Типы элементов...................... 33
2.2.3. Типы лексем........................ 35
2.2.4. Действия и операнды......................................37
2.3. Синтаксическое дерево документа М^Х..........................38
2.3.1. Элементы синтаксического дерева........................38
2.4. Выводы главы 2......................................................41
Глава 3. Алгоритмы сравнения документов формата Ш^Х..........44
3.1. Выделение различий между конечными последовательностями 45
3.1.1. Построение отображения..................................46
3.1.2. Применение для документов формата Ж^Х............50
3.2. Построение различий между деревьями..........................52
3.2.1. Алгоритм 2Ьап§-811а811а....................................52
3.2.2. Применение для синтаксических деревьев ЩцХ .... 58
3.3. Гибридный алгоритм................................................60
3.3.1. Разбиение текста............................................61
3.3.2. Отображение фрагментов текста..........................61
3.3.3. Отображение символов....................................62
3.3.4. Отображение токенов......................................62
3.3.5. Структура алгоритма......................................63
3.3.6. Эксперимент................................................64
3.4. Выводы главы 3......................................................65
Глава 4. Правила коррекции..............................................67
4.1. Правила коррекции с простой структурой........................67
4.1.1. Синтез правил с линейным шаблоном....................68
4.1.2. Поиск соответствий правилам............................71
4.1.3. Предварительная оценка правила........................72
4.1.4. Выбор оптимальных шаблонов ..........................72
4.1.5. Редукция набора правил..................................73
4.1.6. Операции поднятия и опускания..........................73
4.1.7. Оценки качества набора правил..........................77
4.1.8. Эксперимент................................................79
4.2. Групповые правила..................................................81
4.2.1. Построение групповых правил............................83
4.2.2. Применение групповых правил..........................84
4.2.3. Эксперимент................................................84
4.3. Правила с древовидными шаблонами..............................85
4.3.1. Построение древовидных правил........................85
4.3.2. Применение древовидных правил........................86
4.3.3. Эксперимент................................................88
4.4. Выводы главы 4......................................................89
Заключение....................................................................91
Литература ....................................................................93
Приложение А. Символы ИГ^Х ..........................................101
Приложение Б. Команды МГ^Х............................................105
Приложение В. Окружения ИГ^Х........................................124
Приложение Г. Примеры синтезированных правил коррекции 126
Введение
Актуальность темы. В связи с ростом числа электронных научных изданий постоянно увеличивается число издательств, редакционно-издательских отделов вузов и научных учреждений, индивидуальных авторов, использующих систему компьютерной верстки ИГ^Х. Ш^Х является стандартом де-факто для научного общения и публикаций. Постоянно растет доля электронных изданий, к которым предъявляются повышенные требования оперативности публикаций.
При этом уровень подготовки пользователей в области компьютерной верстки, знания типографических правил и традиций остается невысоким. К таким правилам относятся оформление заголовков, списков, таблиц, библиографии, формул, чисел, и многое другое. Ошибки, связанные с несоблюдением этих правил, называются типографическими. При текущем уровне технологий исправление таких ошибок производится корректорами вручную, что требует значительных затрат времени. Большинство ошибок являются типовыми, что создает предпосылки для автоматизации процесса корректуры.
Автоматизация стадии корректуры при подготовке научных изданий позволила бы существенно сократить затраты и сроки и повысить качество верстки. В данной работе эта задача ставится как задача автоматической обработки текста и решается методами машинного обучения. Такой подход к проблеме автоматизации корректуры до сих пор не применялся.
Степень разработанности темы. Существуют инструменты для облегчения процесса ручной корректуры [7], но, тем не менее, обработка одной страницы занимает до двух часов времени. Вообще говоря, идея автоматизации коррекции текстов не нова [8], и на данный момент существуют качественные инструменты для автоматического поиска и исправления орфографических ошибок [9], использующие словари и морфологический анализ
словоформ текста. Кроме того, схожая проблема возникает для интеллектуальной коррекции ошибок в запросах поиска [10], с помощью лексических и статистических признаков. Но подобные подходы не применимы для исправления типографических ошибок, рассматриваемых в данной работе, которые связаны не только с текстовым содержанием документа, но и разметкой форматирования, и зачастую для описания ошибки не достаточно локальной информации в тексте, но также требуется знание контекста, дополнительной информации о позиции в структуре документа.
С другой стороны, существует область исследований, посвященная улучшению характеристик исходного кода программ (вероятности возникновения ошибок в отдельных модулях, степени связности модулей и др.). Известны методы [11, 12], позволяющие оценивать характеристики, основываясь на анализе истории изменений репозиториев, и использовать их для поиска ошибок в коде. Они позволяют создавать рекомендательные системы [13] для улучшения качества кода программы при редактировании. Документы в формате М^Х можно рассматривать как исходный код, который используется компилятором Т^Х, но в издательской практике не распространено использование репозиториев, пригодных для последующего анализа, нет единых стандартов, и, кроме того, текстовое содержимое документов не может быть подвержено подобной обработке.
Таким образом, возникает необходимость нового исследования, направленного непосредственно на автоматизацию процесса исправления типографических ошибок.
Цели и задачи исследования. Объектом исследования являются хорошо структурированные текстовые документы, которые могут быть описаны с помощью синтаксического дерева. Предмет исследования — алгоритмы автоматического синтеза правил коррекции структурированных тестовых документов по выборке пар «черновик-чистовик».
Целью диссертационного исследования является разработка методов, алгоритмов и технологий для создания автоматизированной системы, позволяющей многократно повысить эффективность труда корректоров при работе с текстовыми документами формата ЕТ^Х.
Для достижения цели исследования в диссертации решаются следующие задачи.
1. Разработка эффективных алгоритмов для представления и сравнения файлов в формате ЕТ^Х как древовидных структур данных.
2. Формализация описания правил коррекции типографических ошибок и разработка эффективных алгоритмов поиска мест ошибок в документах и синтеза правил для их исправления. Множество проблем вызваны тем, что при ручной обработке документов корректоры придерживаются недостаточно формализованных рекомендаций. И составление вручную достаточно полного описания набора правил для автоматического использования трудно реализуемо. Некоторые из используемых рекомендаций довольно сложны и сильно зависят от контекста, что требует сложных моделей для описания правил коррекции.
3. Задача автоматического синтеза правил коррекции текстовых документов формата ЕТ^Х заключается в построении совокупности формальных инструкций, которые могут быть использованы в алгоритмах локализации ошибок (определение фрагментов текста, содержащих ошибки) и исправления ошибки (построение ранжированного списка вариантов замены фрагмента текста, содержащего ошибку).
4. Разработка методики оценивания синтезированных правил коррекции для последующего ранжирования. Это необходимо при выборе наиболее подходящих вариантов найденной ошибки для предоставления их
пользователю.
5. Экспериментальное исследование полноты и точности разработанных алгоритмов сравнения документов и построения правил коррекции с использованием корпуса реальных статей.
Научная новизна. В работе впервые предложен подход к синтезу правил коррекции структурированных (обладающими синтаксическим деревом) текстовых документов по обучающей выборке, составленной из пар документов «черновик-чистовик». Задача автоматизации корректуры структурированных текстовых документов никогда ранее не ставилась как задача синтеза правил коррекции методами машинного обучения.
В работе предложен новый гибридный алгоритм для выявления различий между структурированными (обладающими синтаксическим деревом) текстовыми документами, который корректно учитывает логическую структуру текстов, но при этом, как минимум, в три раза быстрее алгоритма, основанного на сравнении только синтаксических деревьев.
Теоретическая и практическая значимость. Теоретическая ценность работы заключается в том, что предложены подход для синтеза правил автоматической коррекции структурированных текстов по обучающей выборке, составленной из пар документов «черновик-чистовик», и методика оценки качества таких правил. Кроме того, разработан эффективный алгоритм сравнения синтаксических деревьев документов в формате Ш^Х.
Практическая ценность результатов диссертации заключается в том, что разработанные методы, алгоритмы и технологии позволяют реализовать систему автоматизации корректуры, в несколько раз сокращающую трудозатраты при коррекции текстовых документов формата ИГ]нХ. При этом автоматизируются процессы поиска различий между структурированными документами, поиска возможных типографических ошибок, синтеза правил коррекции, фор-
мирования наборов вариантов исправления.
Предлагаемый подход. В данной работе предлагается формально описывать правила автоматической коррекции. Для этого каждый документ в формате ЕТ^Х отождествляется с синтаксическим деревом, для которого и формулируются правила [4].
Обучающая выборка составляется из пар документов: черновик (документ, не прошедший обработку профессиональным корректором) и чистовик (документ, содержащий корректорские правки). Для сравнения синтаксических деревьев используется гибридный алгоритм, который учитывает и текстовую природу документов ИГ^Х, и их древовидную структуру [5]. В результате работы алгоритма строится отображение вершин синтаксического дерева черновика в вершины дерева чистовика.
Построенное отображение используется для синтеза правил, из которых каждое характеризуется шаблоном (линейным или древовидным), применяющимся к вершинам синтаксического дерева. На основе предварительных оценок точности строятся групповые правила [6].
Для оптимизации построенного набора правил коррекции и последующего их ранжирования строятся оценки качества на основе статистики применимости правил к документам обучающей выборки [2].
Результаты, выносимые на защиту.
1. Алгоритм сравнения структурированных текстов, использующий их представление в виде синтаксических деревьев (на примере текстов формата ШЕХ).
2. Алгоритмы построения линейных, древовидных и групповых правил коррекции документов по обучающей выборке пар документов «черновик-чистовик», позволившие достичь точности 76% и полноты 69% на коллекции из 85 пар документов.
3. Программа для построения набора правил коррекции документов и эмпирического оценивания полноты и точности построенного набора.
Достоверность результатов. Обоснованность и достоверность результатов и выводов подтверждена:
• сравнением реализованных алгоритмов и подходов с аналогами;
• опытом практического применения результатов исследования на реальных коллекциях текстовых документов;
• обсуждением результатов исследования на российских и международных научных конференциях;
• публикациями результатов исследования в рецензируемых научных изданиях, в том числе рекомендованных ВАК РФ.
Апробация результатов исследования. Основные результаты диссертационного исследования докладывались на следующих конференциях:
• 54-я научная конференция Московского физико-технического института (Долгопрудный, 2011 г.),
• Международная научная конференция студентов, аспирантов и молодых учёных «Ломоносов-2012» (Москва, 2012 г.),
• Вторая научная конференция молодых ученых «Теория и практика системного анализа» ТПСА-2012 (Рыбинск, 2012 г.),
• Девятая международная конференция «Интеллектуализация обработки информации» ИОИ-2012 (Черногория, Будва, 2012 г.),
• 55-я научная конференция Московского физико-технического института (Долгопрудный, 2012 г.),
• 16-я всероссийская конференция с международным участием «Математические методы распознавания образов —2013» ММРО-16 (Казань, 2013 г.).
В рамках работы над диссертацией был реализован прототип системы полуавтоматической коррекции типографических ошибок. Проект «Самообучающаяся система для автоматизации коррекции документов в формате Щ^Х» прошел отборочные этапы программы «Участник молодежного научно-инновационного конкурса» («У.М.Н.И.К.») и вошел в число победителей конкурса в 2012 году1.
Основные результаты работы опубликованы в [1-3, 6], в том числе в изданиях [4, 5], входящих в список ВАК.
Обоснование специальности. Данная работа по своей тематике и направленности полученных результатов соответствует следующим пунктам паспорта специальности 05.13.17 — «Теоретические основы информатики»:
1. Исследование, в том числе с помощью средств вычислительной техники, информационных процессов, информационных потребностей коллективных и индивидуальных пользователей.
2. Исследование информационных структур, разработка и анализ моделей информационных процессов и структур.
3. Исследование методов и разработка средств кодирования информации в виде данных. Принципы создания языков описания данных, языков манипулирования данными, языков запросов. Разработка и исследование моделей данных и новых принципов их проектирования.
5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях разработка и
1 http://miptic.ru/ÜMNIK/a_51ekj о.html
исследование методов и алгоритмов анализа текста, устной речи и изображений.
7. Разработка методов распознавания образов, фильтрации, распознавания и синтеза изображений, решающих правил. Моделирование формирования эмпирического знания.
Структура и объем диссертации. Диссертация состоит из введения, 4 глав основного содержания, заключения, библиографии и 4 приложений. Работа содержит 127 страниц основного текста, включая 24 иллюстрации. Перечень библиографических источников включает 70 наименований.
Глава 1
Постановка задачи. Обзор существующих методов.
Предлагаемый подход
Многие научные издательства и конференции работают с издательской системой ИГ]йХ [14]. И в каждом издательстве есть определенные традиции и требования к оформлению публикуемого материала [15-18]. К ним относятся оформление заголовков, списков, таблиц, библиографии, формул, чисел, и многое другое. Ошибки, связанные с несоблюдением этих правил, называются типографическими. Как правило, рукописи в формате Ж^Х, присылаемые авторами для публикации, содержат большое число таких ошибок.
Пример 1. Ниже приведены собранные вместе фрагменты исходных текстов статей сборника конференции ИОИ-8 [19], содержащие типовые типографические ошибки (места ошибок выделены красным цветом).
\be
-
Похожие работы
- Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов
- Система поиска текстовых документов на основе автоматически формируемого электронного каталога
- Методы кодирования текстовой информации для построения нейросетевых классификаторов документов
- Анализ слабо структурированных текстовых данных
- Разработка и исследование метода классификации библиографической текстовой информации
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность