Методы и алгоритмы извлечения данных из словарных текстов

Дубашов, Алексей Евгеньевич

Автоматизация и управление технологическими процессами и производствами (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Методы и алгоритмы извлечения данных из словарных текстов

кандидата технических наук: Дубашов, Алексей Евгеньевич
город: Москва
год: 2006
специальность ВАК РФ: 05.13.06

Диссертация по информатике, вычислительной технике и управлению на тему «Методы и алгоритмы извлечения данных из словарных текстов»

Автореферат диссертации по теме "Методы и алгоритмы извлечения данных из словарных текстов"

На правах рукописи

Дубашов Алексей Евгеньевич

МЕТОДЫ И АЛГОРИТМЫ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ СЛОВАРНЫХ ТЕКСТОВ (НА ПРИМЕРЕ СЛОВАРЯ РУССКОГО ЯЗЫКА Х1-ХУП ВВ.)

05.13.06 - Автоматизация и управление технологическими процессами и

производствами

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва - 2006

Работа выполнена

на кафедре ИУ-5 «Системы обработки информации и управления» в Московском Государственном Техническом Университете им. Н.Э. Баумана.

Научный руководитель: кандидат технических наук, доцент

Филиппович Юрий Николаевич

Официальные оппоненты: доктор технических наук, профессор

Шемякин Юрий Иванович

кандидат технических наук, доцент Поляков Владимир Николаевич

Ведущая организация: Институт проблем информатики РАН

Л УУ

Защита состоится _" 1 1_2006 г. в_часов на заседании

диссертационного совета _ Московского Государственного

Университета Печати по адресу: 127550, Москва, ул. Прянишникова, д. 2а.

С диссертацией можно ознакомиться в библиотеке МГУП.

Автореферат разослан __2006 г.

Ученый секретарь

Диссертационного совета п

д.т.н., профессор В.Н. Агеев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Одним из направлений научных исследований в области автоматизации и управления технологическими процессами и производствами является «теоретические основы, методы и алгоритмы интеллектуализации решения прикладных задач при построении АСУ широкого назначения». В данной работе предлагаются методы интеллектуализации решения задачи подготовки цитатных материалов для издания в печати очередных томов Словаря русского языка XI-XVII вв.

Институт русского языка им. В.В. Виноградова РАН с 1975 года издает Словарь русского языка (СЛРЯ) XI-XVII вв., в настоящее время создано 27 томов на буквы А — С. СЛРЯ XI-XVII вв. - это уникальный исторический словарь, наиболее полно иллюстрирующий лексику древнерусского языка. Словарь используется в первую очередь учеными-филологами, изучающими историю русского языка по древним памятникам письменности, этимологами, специалистами по истории культуры» нуждающимися в профессиональном справочнике, а также многими другими, кто интересуется историей слова. На материале Словаря проводится множество научных исследований.

Значительную ценность Словаря представляет используемый в нем цитатный материал, он берется из древних рукописей, рукописных и первопечатных книг. Для создания словаря лексикографу необходимо выполнить трудоемкую работу: провести отбор источников, анализ текстов, составление словников и словоуказателей, анализ словоупотреблений и т. д.

Работа над Словарем началась с создания "Картотеки древнерусского словаря" (Картотеки ДРС) - двухмиллионного архива рукописных карточек, содержащих выписки из памятников письменности русского языка XI-XVII вв. Временем зарождения Картотеки и Словаря считается 1925 год. Первый выпуск Словаря (буквы "А" и "Б") появился в 1975 году. В 2005 году подготовлен к печати 27-й выпуск (буква "С").

Основная проблема состоит в том, что использование традиционных методов сложившейся лексикографической технологии подготовки очередных томов Словаря, при существующих ограничениях материальных средств, кадров и др. ресурсов, ставит под сомнение возможность выпуска оставшихся томов или отодвигает срок их издания на несколько десятилетий. Поэтому разработка новых методов и средств автоматизации лексикографической технологии создания очередных томов СЛРЯ XI-XVII вв. сейчас является актуальным.

Существующие разработки (УНИЛЕКС, Dialex, Interlex, LemmaLex, FIESTA и др.), направленные на автоматизацию лексикографической деятельности, не рассчитаны на работу с древнерусским языком и не предназначены для работы со словарными текстами.

В представленной диссертационной работе реализована идея сокращения времени подготовки цитатных материалов для будущих томов СЛРЯ XI-

XVII вв. за счет использования в качестве их источника его томов, изданных ранее.

В диссертации предлагаются и обосновываются автоматизированные методы извлечения данных из словарных текстов: структуризации словарных статей, извлечения из словарных статей изданных томов словаря цитатных материалов и составления на их основе электронного конкорданса (картотеки).

Цель работы. Целью диссертационной работы является разработка методов и алгоритмов получения машинной версии будущих томов Словаря русского языка Х1-ХУ11 вв. на основе словарных материалов существующих печатных изданий его томов.

Задачи. Для достижения поставленной цели решаются следующие задачи:

1. Анализ существующих методов извлечения данных из текста (Глава 1).

2. Исследование количественных и частотных характеристик текста существующих томов СЛРЯ Х1-ХУН вв. (Глава 2).

3. Исследование динамики появления новых слов в тексте существующих томов словаря и прогнозирование получаемого словарного объема в машинной версии его будущих томов (Глава 2).

4. Разработка автоматизированной методики декомпозиции текста словарных статей (Глава 3).

5. Разработка метода получения машинной версии будущих томов СЛРЯ Х1-ХУ11 вв. (Глава 3).

6. Разработка критериев качества словаря и использование их для оценки машинной версии будущих томов СЛРЯ Х1-ХУП вв. (Глава 3).

7. Реализация комплекса программных средств для получения машинной версии будущих томов СЛРЯ Х1-ХУП вв. (Глава 4).

8. Программная реализация декомпозиции словарных статей СЛРЯ XI-XVII вв. (Глава 4).

9. Реализация программных средств для проведения исследований словарных текстов (Глава 4).

Методы исследования. При проведении исследований использовались методы исторической лексикологии и лексикографии, компьютерной лексикографии, дискретной математики, информационного моделирования и программирования; теории вероятностей и математической статистики, частот слов, формальных языков и грамматик.

Объект исследования. Объектом исследования является словарный текст, в частности структура словарной статьи, а также методы обработки словарных текстов с целью извлечения из них данных. Конкретным объектом исследования является текст Словаря русского языка Х1-ХУН вв. в объеме 24 выпусков (томов) и структура его словарных статей.

Научная новизна. В работе получены следующие новые научные результаты:

1. Впервые проведено статистическое исследование текста уникального лексикографического объекта Словаря русского языка Х1-ХУП вв. в объеме 2-4 выпусков, что составляет 8109 словарных статей, или 1011 страниц печатного издания. Определены параметры и характеристики функции распределения частот слов иллюстративного материала словарных статей и вероятности появления в них новых слов.

2. Предложена формула для прогноза роста словарного запаса текста СЛРЯ ХХ-ХУП вв. и оценена ее точность.

3. Разработан магазинный автомат для декомпозиции словарной статьи СЛРЯ Х1-ХУИ вв.

4. Разработана вероятностная марковская модель для распознавания полей, варианты значений которых известны, при декомпозиции словарных статей и алгоритм ее реализации.

5. Предложено формальное описание и алгоритм автоматизированной реализации эмпирического метода «флотации» при формировании словарных статей картотечной лексикографической технологии.

Практическая ценность. В работе был разработан программный комплекс, производящий декомпозицию словарных статей, занесение их в базу данных, осуществляющий пополнение цитатного материала методом «флотации», а также реализующий наиболее общие лексикографические функции. Программный комплекс используется в научных исследованиях и в учебных целях в МГТУ им. Н.Э. Баумана на кафедре «Системы обработки информации и управления» (ИУ5) в рамках специальных дисциплин «Семиотика информационных технологий» и «Лингвистическое обеспечение АСОИУ».

Публикации и апробация. По материалам работы опубликовано 5 печатных работ.

Объем работы. Диссертационная работа содержит 164 страницы, 55 рисунков и таблиц, 144 источника и 22 страницы приложений.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы, формулируется цель работы, состав решаемых задач, приводится перечень основных результатов и излагается краткое содержание глав диссертации. .

В главе 1 «Анализ методов и систем лексикографической обработки текста» анализируются существующие методы извлечения данных из текста, рассматриваются известные методы обработки текстов на естественном языке, предлагается информационная технология обработки СЛРЯ XI-XVII вв.

Технология обработки словаря для получения недостающих томов включает следующие основные процедуры и операции:

1. Сканирование и распознавание текста , изданных томов СлРЯ

2. Подготовка текстов к извлечению словарных статей

3. Разметка и занесение полей словарных статей в базу данных

- разбиение текста на словарные статьи ;

- разбиение словарных статей на блоки ;

- занесение блоков словарных статей в БД .

4. Получение материала для недостающих томов словаря ("флотация"):

- поиск потенциальных вокабул;

- леммаггизация слов для получения вокабул;

- формирование результата.

5. Построение недостающих томов словаря на основе подготовленных материалов (осуществляется лексикографом):

- верификация словарного материала ;

- отбор наилучшего словарного материала .

Первый и второй этапы обработки словаря осуществляются с помощью сканера и текстового редактора. Для осуществления третьего и четвертого этапов обработки словаря требуется разработать технологию извлечения структурированных словарных статей из словарных текстов и программное обеспечение для получения словарного материала по недостающим томам словаря. На пятом этапе лексикограф выверяет словарный материал и проводит отсев лишнего цитатного материала.

Рассмотрены следующие методы извлечения данных из текста:

• метод разбора текста по жестко заданному алгоритму;

• эмпирический метод поиска известных атрибутов;

• метод разбора статьи с использованием регулярных или контекстно-свободных грамматик;

• метод марковских моделей;

• комбинированные методы.

Во втором параграфе первой главы представлен анализ существующих систем и способов лексикографической обработки текстов применительно к задаче разметки текста словарной статьи, в числе которых: «ручной» метод; система «УНИЛЕКС», разработанная в МГУ им. М.В. Ломоносова; система «Alpha», разработанная в МГТУ им. Н. Э. Баумана на кафедре ИУ-5.

Проводится анализ структуры словарной статьи СЛРЯ XI-XV1I вв., выявляется, что структура статьи является контекстно-свободной, описывается ее грамматика.

Формулируется задача разработки программного средства разметки словарных статей для занесения их в БД, удовлетворяющая следующим требованиям к методам разбора словарных текстов:

1. Поддержка распознавания вложенности структур.

2. Возможность настройки структуры словарной статьи.

3. Возможность автоматизированного или автоматического выбора из альтернативных вариантов или возможность использования алгоритмов подавления неоднозначностей. Здесь могут быть использованы параметры веса для определенных атрибутов, что позволит рассчитывать вероятность того или иного альтернативного варианта разбора. Внешние алгоритмы, позволяющие определять поля с высокой точностью, также уменьшат вероятность возникновения неоднозначных ситуаций.

4. Устойчивость к ошибкам в тексте. Под устойчивостью к ошибкам понимаются следующие реакции на потенциальные ошибки:

а) исправление ошибки;

б) переход из автоматического в автоматизированный режим (извещение пользователя о потенциально возможной ошибке или фиксация проблемных статей и обработка их потом отдельно в диалоговом режиме).

Для осуществления четвертого этапа ставится задача разработки программного обеспечения с целью получения материала для будущих томов словаря. При этом на входе у программного комплекса имеется таблица базы данных тома Словаря, на выходе - таблица базы данных с цитатным материалом будущих томов Словаря.

В главе 2 «Исследование частотных и динамических характеристик словарных текстов» проводится частотный анализ текста словаря, основные результаты которого приведены ниже:

12000 _ 10000 8000

н о

6000

Й 4000

« ¡Г

2000

Ранг-частота

7(г) = —:—= Рг , где

к = 256 536 - размер выборки;

р, Ь - коэффициенты; Кк>г) . частота встречаемости слова с рангом г из выборки к.

Ь = -0,9494

0 ЬипIичи1и,птт<7гпггтт1гтпгм|(»г»птгптптттттптичптгтпгиIим';IГм!11и;пгаппп(гтгтлг<пч^■l■¡гт'пни;IIIIЛ

ранг (г)

Рис Л График ступенчатой функции распределения частот слов третьего тома

СЛРЯ Х1-ХУП вв. (буква «В»),

Логарифмическое распределение частот слов

Рис,2 Логарифмическая функция распределения частот слов третьего тома

СЛРЯ Х1-ХУП вв. (буква «В»).

Проведено исследование динамики появления новых слов в тексте Словаря, основные результаты которого представлены на рис. 3. Из графика видно, что распределение появления новых слов происходит по кривой, которую можно аппроксимировать законом распределения частот слов Ман-дельброта, т.е. появление новых слов происходит тоже по этому закону.

Распределение появления новых слов

3,2 3,1 3 2,9

I" 2,8

га

~ 2,7 2,6 2,5 2,4

1вд10(ВЗ

Рис.3 График функции распределения появления новых слов в логарифмиче' ской шкале второго и четвертого томов СЛРЯ Х1-ХУ11 вв.

500 450 400

£зоо |250

5200 §¡150 100 50 0

1 10 19 28 37 46 55 64 73 82 91 100 109 118 127 136 14£

ранг(г)

Рис. 4. График распределения использования источников в цитатном материале СЛРЯ (ранг-частота)

у = -0,2583х + 3,1059

0 0.5 1 1,5 2 2.5

Частотное распределение использования источников

-......Том 2 — Том 4 —Том 3

....................................................................................................................................

Проведенный частотный анализ использования источников (см. рис. 4.), выявил, что основу каждого тома составляет стабильное ядро источников, которое покрывает свыше 70% цитатного материала. Помимо этого,

число источников использованных в каждом томе СЛРЯ составляет 55 - 80% от общего числа источников, это означает, что после обработки небольшого числа томов новые источники практически прекратят использоваться. Исследование показало, набор источников томов СЛРЯ подобен и не создает сильных изменений закона появления новых слов в тексте.

На примере второго и третьего тома СЛРЯ рассчитывается ошибка, которую можно ожидать от неоднородности текста СЛРЯ. Во втором томе суммарный словарный запас равен 63216 словоформ (Яшах) на 222734 словоупотреблений, а в третьем 65423 словоформ на 256 536.

Вычислим соотношение числа неповторяющихся словоформ к числу словоупотреблений (/).

Это означает, что во втором томе на 100 словоупотреблений встречается в среднем 28 новых (не повторяющихся) словоформ, а в третьем 25. Во втором томе на 100 словоупотреблений появляется в среднем на 2,9 словоформ больше. Т.е. текст второго тома богаче третьего на 2,9 %.

Для возможности предсказания словарного запаса текста это означает, что при предположении о равномерности текста ошибка прогноза может составить около 2,9%.

Однако предсказание словарного запаса производится с учетом пройденных томов (учитываются слова, которых нет в предыдущем томе). Если по одному тому словаря предсказывается словарный запас двух томов, то второй рассматриваемый том привносит не более 30% новых слов. Тогда ошибка предсказания станет уже 0,9 %. Для всех последующих томов она будет еще меньше. Особенность этой ошибки еще и в том, что она не постоянна и может менять свой знак от тома к тому. Точность предсказания обычно исчисляется процентами, что значительно ниже, чем ошибки неоднородности текста. Поэтому в настоящей диссертационной работе неоднородность текста не учитывается.

Предложены формулы для расчета параметров закона Ципфа и предсказания словарного запаса текста:

1) Методом математического ожидания (ММО):

» _ ^тах

63216

- 0,284

2 ~

222734 65423 256536

= 0,255

М - математическое ожидание рангов слов, которое для дискретных величин (для экспериментальных данных) рассчитывается следующим образом:

, где X и р(Х) - случайная величина и ее вероятность, соответствующие рангу г vif(r) соответственно.

Примем, что rmax — Гшахэксп.

^гпахэкеп. " 'швхтесл i/lr »•!

Тогда: £ г'Ш

О о *

Для расчета словарного запаса нужно вычислить интеграл функции появления новых слов на интересуемом текстовом объеме (который обычно измеряется в словах, страницах, предложениях, цитатах и т.п.).

Так как известно, что появление новых слов происходит по закону Ципфа, то:

'maxsKcnl „ \—Ь

пшх ЭКСП\ __^

, где

чпахэксп1 „

S = kx= JkoPor-bdr = k0p0 -«и*

S - словарный запас;

Гтзхжсп\ — текстовый обьем (размер оцениваемой текстовой выборки).

Подставив коэффициенты b и р, получим формулу для вычисления словарного запаса:

/- \ Мд_ 'max жсп. О

S — Aj — Icq

'max жсп Л

ч'шахэк'си.О ;

Формула позволяет предсказывать словарный запас как «вперед» по тексту, так и «назад».

2) Методом наименьших квадратов (МНК):

¡(к, г) _ь

/О) = , ^ рг

* , где --N-

^__ " жсп

1 жсп

р = е

эксп

, где

= 1п(——!-);

Х( = 1пг, (где

х, и -данные, полученные с помощью эксперимента (логарифмированные значения функции распределения частот слов или функции появления новых слов), а 1 — порядковый номер измерения в выборке.

^эксп ~ общее количество выборок одинакового размера в эксперименте.

Подставив коэффициенты Ь кр в формулу (1), вычисляется словарный запас методом МНК.

Произведено сравнение характеристик предложенных методов предсказания словарного запаса друг с другом и с методом последовательных приближений (МПП), предложенным Ю.К. Орловым:

Таблица 1. Сравнение результатов методов предсказания объема словаря

Метод МНК Метод ММО Метод МПП

Точность при предсказании на 1 том вперед* 99,4% 98,27% 98,244%

* - словарный объем двух томов предсказывался на основе одного, причем размер второго тома Словаря в полтора раза больше размера первого (в страницах).

Из результатов предсказания видно, что метод МНК обладает высокой точностью при предсказании, превосходящей точность метода МПП и метода ММО. Поскольку, метод МНК производит аппроксимирование законом Ципфа, то это подтверждает гипотезу о том, что появление новых слов в тексте происходит по гиперболическому закону Ципфа-Мандельброта.

По результатам выполнен расчет количества заголовочных слов (вокабул) на букву «У», которое можно получить из 24 томов. Два метода дали результат 1494 (метод МНК) и 215б(метод ММО) слов, что составляет соответственно 75% и 105% от числа известных слов на букву «У», зафиксированных в картотеке ДРС (-2000 слов).

В главе 3: «Технология получения словарных материалов недостающих томов словаря» разработан магазинный автомат для распознавания структуры словарной статьи СЛРЯ XI—XVII вв.

Для построения распознавателя структуры на основе контекстно-свободной грамматики словарной статьи строится магазинный автомат. В

описании символов грамматики используются сокращения следующих слов и словосочетаний: вокабула, другая вокабула, часть речи, смотрите, в значении, семантика 0-го уровня, семантика 1-го уровня, семантика 2-го уровня, толкование, эксцерпция, уточнение к источнику, указатель источника, пагинация, дата в скобках, уточненная дата, сравните, выход (конец статьи).

Грамматика словарной статьи словаря РЯ XI-XVII вв.:

G = ({рыж, Рдр-вок, Рч.р.» Ррод, Рчисло» Реи, Рк..., Рв знач., РсемО, РссмЬ Рссм1, Ртолк, Рэксц, Ругочн. к ист., Рук,ист,» Рпаг, Рдата, Рдата в скоб., Рут.дэта, Рср, Рвых}, {S, S1, ..., S7, 5эксц, S эксц, 32эксц, SyT.K ист., Бм.п., 5ч.р., Sk.,., Sb знач., Бдр., S\ap., Scm, Бдата, Бут.дата, Sep, S]cp }, Р, S) 0. Р: S -> рмк Эдр. S1 рвых

1. Здр.-> Т Рдрво^'др- 'Г Is

2. $!др.-> рдрвок sVp. | е

3. S1-»- рсм Scm | Smji, S2 Sep

4. Scm-»","pcmScm|8

5. Sep—» pCp S'cp | e

6. S1cp-> Vp^cple

7. Зм.П.-» Рчисло Sk...|

Ррод Sk,..| рч.р, S4.p. sk...j 8

8. S4.p.->'V'i4p.|s

9. Sk... ^-pt... Звзнач. | e

10. Sb знач.-» "( в знач" рв знач. ")" | е

11. S2-» БтолкБк... 5эксц|роемо БтолкSk... S4 S3

12. S3—^ ресмо StotikSk... S4 S3 | s

13. S4-> Бэксц 1 реем» Stohk Sk... S6 S5

14. S5-» реем! Stxmik Sk... S6 S5 ! e

15. 36—> Бэксц | рсем2 Stojik Sk... Бэксц S7

16. S7-> рсемз Stcwik Sk... 5эксц S7 j e

17. вдата—>• p^a Syr. дата | руг.дэт*

18. ЗуТ.ДЗТа-» руг.дата |е

19. Ээксц-» 52эксц SSkcu

20. в'эксц-» Э2эксц ЗЬксц |

Ропенок Ртопк Sk... S эксц S эксц [ е

21. Б2эксц-> ржец SyT.K ист. Рпаг Sдата I

'( Рдата В скоб. О Рэксц SyT.k ист. ршг

22. SyT.k ист. —» (" Ругочн. кист. О Рукист. | Рук.ист.

23. БТОЛК—> Рголк. | Рсемош. Ртолк. I ртолк. Рэксц.ош.

Состояние магазинного распознавателя состоит из четверки ($, 1, а, Ь),

где:

• б — состояние алгоритма (нормальная деятельность, состояние возврата, заключительное состояние);

• i - позиция входного указателя;

• а - магазин, содержащий левовыводимую цепочку на данный момент;

• b - магазин, содержащий историю вывода (в нашем случае также и позиции считывающей головки, чтобы возвращаться на нужное число символов назад).

Распознаватель осуществляет вывод цепочки, но как только происходит ошибка, распознаватель переходит в состояние возврата и возвращается, используя историю, хранящуюся в магазине Ь, до того момента, когда можно выбрать другую альтернативу. После чего опять переходит в состояние нормальной деятельности и продолжает вывод. И так до того, пока не будет разобрана вся статья или не будут перебраны все варианты, что будет обозначать ошибку.

Во втором параграфе третьей главы рассмотрен метод распознавания последовательностей на основе марковских моделей, для распознавания полей словарной статьи, значения которых можно перечислить:

S = {Q¡,..., Qs) - множество состояний модели.

С = {С},..., См} - множество символов алфавита (наблюдаемые объекты).

Каждое Si-e состояние марковской модели здесь будет соответствовать намерению написать символ Q, однако намерение может не осуществиться, а вместо этого может произойти описка: опечатка в тексте Словаря, или ошибка графического распознавателя, распознавшего данный текст из напечатанного тома Словаря. Вероятность b¡j - вероятность того, что в состоянии i будет наблюдаться символ Cj . Вероятность ожидаемого в состоянии символа выше, чем вероятность ошибки. Определим вероятность рож - вероятность появления ожидаемого символа, а рош - вероятность появления ошибки. Тогда:

Cj = Cumg{Q1 ) Cj ф Cjvne(Q¡)

При этом вероятности должны быть заданы таким образом, чтобы сумма bij для всех букв равнялась 1: м

У, Ьд " 1, где М - число букв в алфавите.

Матрица B=(bij) - матрица эмиссии.

Положим, что из i-го состояния автомат переходит в j-e состояние с вероятностью a¡j, ни от чего, кроме i и j, не зависящее. Квадратная матрица A=(a,j) называется матрицей переходов.

IX ~ 1, где N - число состояний.

J' О

Рож Рош.

Ь,=

Роме Рот

Введем в модель такие состояния, как «слово и место в нем», т.е. пары вида где . последовательность из Ь символов

из алфавита С. Они будут определять слова, которые могут встречаться в разбираемой последовательности. Под словом здесь можно понимать не только отдельное слово, но и его часть или последовательность слов. Состояние соответствует намерению написать символ и далее писать последовательность притом, что последовательность \У[1,к_1] только что написана (возможно, с описками). Отсюда становится ясно, какой символ ожидается в данном состоянии. Для таких состояний вероятности матрицы эмиссии можно записать следующим образом:

Матрицей моделируется вероятность написания того или иного символа в зависимости от контекста.

Если модель должна учитывать не только известные последовательности, но и другой текст, в котором эти последовательности встречаются, то в модель стоит добавить такие состояния, как «символ», т.е. С^Шь Об этих состояниях заранее ничего не известно, их суть состоит в том, чтобы пропускать неизвестный текст, который под предыдущие состояния не подходит. Для него:

Далее следует описать матрицу переходов. Из состояния (У^1Д],к) при к < Ь можно перейти только в состояние (^1,ц,к+1) (и этот переход имеет вероятность 1), а из состояния (и^^Ь) - только в состояние вида ^'рхчД)- В этом случае будут допускаться описки, заменяющие букву на букву. Можно разрешить из состояния ОУщ^Дс) маловероятные переходы обратно в него же, тогда будут дозволяться вставки лишних букв. А если еще допустить маловероятный переход в (\У[1.ц,к+2), то модель будет учитывать уже и потерю нужных букв. Такая модель будет соответствовать возможности описок общего вида: замены буквы на букву, появления лишних букв или потери нужных. Определим эти переходы и их вероятности:

к = Ь:

1. 0^[1д,],к) —* (\У [1д/],1) - переход на новое слово. Вероятность этого перехода, если не учитывать словосочетания, будет равной для всех слов. Для словосочетаний вероятность должна быть выше.

к <Ь:

1- 0^[1д,],к) —► (\У[1д,],к+1) - переход на следующую букву этого же слова. Также может моделировать описку заменой буквы на бук-

ву. Этот переход наиболее естественен внутри слова, и его вероятность должна быть выше, чем последующие.

2. (\У[1д.],к) - переход на ту же самую букву. Также может моделировать описку с появлением лишней буквы;

3. (\У[1д,],к) —> 0^[1£],к+2) - пропуск буквы.

. Определим вероятности этих переходов;

Релед-вероятность перехода 0Лг[1>Ц)к) (\У[и],к+1).

Рвстав вероятность перехода (\У[и.],к) —► (Wfl>L],k).

Рщ>ш - вероятность перехода (ЛУ^^к) —► (\¥[щ,к+2).

Если разбираемое поле не может разрываться неизвестным текстом, то переходы из состояний типа «слово и буква в нем» в состояния типа «символ» не допускаются. Это увеличит вероятность распознавания шаблонов путем досрочного отсева ненужных вариантов.

Вероятность переходов из состояний типа «символ» равны:

Л». - £ - вероятность перехода из состояв типа «символ» в любое состояние.

Осталось определить вероятности начальных состояний. Если текст заранее не известен, то вероятности для односимвольных состояний и состояний первых букв слов одинаковы и в сумме равны 1:

я, =

2>,-1

П — ) _ вектор столбец начальных состояний.

Модель Л —< А,В,П > описана.

Предложен двухуровневый распознаватель разметки словарных статей СЛРЯ, на верхнем уровне которого имеется распознаватель грамматики словарный статьи, а на нижнем - распознаватель полей словарных статей, возможные варианты значений которых известны.

В третьем параграфе третьей главы рассмотрен метод формирования словарных статей для получения словарного материала недостающих томов словаря на основе эмпирического метода «флотации».

Машинная версия словаря Б - словарно-ориентированная автоматизированная лексикографическая система, состоящая из массива словарных статей и комплекса обслуживающих программ, ориентированных на структурные особенности обрабатываемого текста.

5 = <Т, К(1)> „где

5 - машинная версия словаря

К(Т) - комплекс обслуживающих программ,

Т = {tj, t2, ..., tu ...} - машинный массив словарных статей, '/ = (fh fit -- fk, •••} - словарная статья, представленная в машинном виде,

/к = wiä}Wid2... w„d„- поле словарной статьи. Примем, что fj- поле вокабулы, а /г- поле цитаты. w„eA+~ словоформа, А - алфавит,

dn - знак препинания или пробел, разделяющий слова. Проекция словаря Р(Т, I)- это машинный массив словарных статей, полученный из словаря, в котором вокабулы (заголовочные слова) - это слова, встречающиеся в цитатах, удовлетворяющие условию 1. Под условием 1, как правило, подразумевают, что вокабулы начинаются на определенную букву или основу. Иными словами, проекция словаря на какую-либо букву — это конкорданс, построенный для слов на эту букву, где контекстами являются цитаты.

Т' = Р(Т, I);

Г » (Си П t\ ...Л / i = ffiifi, 0>Л ->fk}

l) -tem(w (l)), w ef2 , где l - условие проекции (первая буква слова или начало слова), w (I) — словоформа, удовлетворяющая условию проекции L lern - функция лемматизации (приведения к начальной форме) словоформы,

Т' - результат (проекция словаря на 1).

Рассмотрим пример построения проекции на букву «у».

_Исходная словарная статья:_

ВОЛОСТКА, ж., уменыи. к волость (в знач. 3). И всЬхъ деревень за Ссн-кою зъ братьею въ ссй волосткЪ по новому писму 17. Кн. пер. Шелон, пят. I, 155, 1498 г. Въ Кольскомъ уЬздЬ, Керсцкая волостка... отъ жилыхъ

м'Ьстъ отдалила. АИIV, 365. 1667 г.__

В цитате имеется одно слово на букву «у» - это «уЬздЪ».

_Результат (проекция словарной статьи на букву «у»):_

УЬЗД, Въ Кольскомъ уЬздЬ, Керецкая волостка... отъ жилыхъ мЬсть от-

дал-Кла. АИ IV, 365. 1667 г._

Флотация F(T, 1) - это пополнение недостающего цитатного материала за счет материала, уже использованного другими заголовочными словами. Под цитатным материалом подразумевается сама цитата (эксцерпция) и ее параметры, такие, как шифр источника, дата источника, уточненная дата, пагинация и параметры цитаты в картотеке. F(TJ) = P(TJ)

Для получения словарного материала недостающих томов СлРЯ XI-XVII вв. предлагается использовать цитатный материал изданных томов Словаря.

СЛРЯ Х1-ХУН вв. охватывает большой период времени (более семи веков). В грамматике русского языка за это время происходили значительные изменения. В связи с этим эффективность подхода к построению лемматиза-тора, на основе заранее заданной грамматики языка, будет невысока, кроме того, разработка такого лемматизатора для древнерусского языка представляется самостоятельной научной задачей. Был разработан эвристический лемматизатор, базирующийся на словаре заголовочных слов и словаре приставок.

Для оценки адекватности получаемого результата были предложены критерии оценки качества словаря, основными из которых являются - критерий определяемости и полноты. На основе их проведена оценка качества получаемого словаря.

Количество определяемых словарем слов можно сравнить с потенциально возможным числом слов (существуют словники известных слов). Для этого введен критерий определяемое™, показывающий соотношение числа определяемых слов к числу известных.

Введем понятие оптимального объема текста.

^оптим- такой объем текста, дальнейшее увеличение которого не привносит новых слов, т.е. вероятность появления нового слова в определенной выборке стремится к нулю или потраченные на поиск ресурсы не оправдывают затрачиваемые на них средства, ^оптим позволяет установить, какое количество заголовочных слов в словаре является приемлемым при определенных трудозатратах. Этот параметр рассчитывается на основе закона появления новых слов.

оптим

г+1

\Кг,к)аг<кпорог

(Л

оптим

Оптим

1-ъ (}-Ь)Ыпорог , где кр

порог

- количество слов в единице интервала (может быть меньше 1). Этот коэффициент определяет максимальные трудозатраты.

Пример расчета ^оптим, где появление одного слова требует обработки текста объема Ь:

.. Я________ =

Г+1

|/(г,*Уг< 1 г

• => {Ко»тим+1)Х~Ь ~ *

оптим

1-й 1-6

*Р

Также предложен критерий оценки полноты словаря. Критерий полноты словаря показывает, насколько полно словарь охватывает язык, который использует. В соответствии с законом распределения появления новых слов,

полученном на этапе анализа словаря, рассчитывается количественная характеристика полноты словаря. Она представляется в виде соотношения количества используемых слов к потенциально возможному при определенных затратах количеству слов.

К — использ

потещ ^оптим

Котещ = ¡Кг,к)Ф ^ где 1

/(г, к) - функция распределения появления новых слов в тексте словаря.

Рассчитаем объем текста, для которого появление 30 слов на букву «У» потребует обработки одного тома словаря:

^оптим

г+1

¡¡{гук)аг <30

кр {(п + Т V"6 Р 1~ь) ™

\\1%-оптим ^^/ Я-оптим /

,где

Ь - объем одного тома словаря.

Ь=70 - средний объем 1 тома (число отрывков по 100 цитат). Возьмем число томов равное 19. Тогда

~ ((70*19+70)'^-(70*1) ^ 30,8 1—О.Зо

Возьмем ЛГ=20. Тогда

480*0.06

((70*20+70)1"Ь-(70*20)1-г') * 29,9

1-0.58

=> Nоптим — 20. При этом будет найдено 29 новых слов. Если брать большее число томов, то число новых слов в каждом последующем томе будет еще меньше.

Расчет показал, что после 20-го тома мы достигнем того, что в одном томе Словаря будет появляться меньше 30 новых слов. При этом критерий полноты покажет 100%, а критерий определяемо сто покажет 70%.

В главе 4 «Использование разработанного средства для получения словарных материалов недостающих томов словаря» дано подробное описание разработанного программного обеспечения, описывается процесс формирования словарных статей методом «флотации» и приводится фрагмент результата построения словарных материалов для тома Словаря на букву «У».

Система разметки словарных текстов предназначена для осуществления разметки исторических словарных текстов с целью занесения их в структуры базы данных для последующей их обработки.

Система обладает следующими характеристиками:

• возможность настройки под структуру статьи;

• возможность реакции на ошибки;

• возможность распознавания вложенности структур;

• поддержка форматирования текста.

Формирование новых статей на основе словарных статей существующих томов Словаря, построение проекции словаря на определенную букву производятся с помощью программы «Флотация».

В качестве примера осуществлено построение проекции словаря на части третьего тома словаря (володЬнъе - вящыпина), в которой содержится 1372 словарных статей и 2706 цитат. Это составляет в среднем половину тома. Найдено 232 вокабулы на букву «У».

Ниже представленный пример имеет следующую структуру:.

• Вокабула результата,

• Вокабула источника, в котором было найдено слово,

• Текст цитаты,

• Источник,

• Пагинация,

• Дата источника,

• Уточненная дата источника (если присутствует).

УБЫТОК ВОЛОКИТА

А кто по кого пошлет пристава в чем, и что ему в том убытка станет в волоките... и правому то все взяти на виноватомь.

Суд. Ив. III, 23. 1497 г.

УКАЗАНИЕ ВОЛОКИТНО

А что указанъ твой искъ править па ЯковЬ КафтыревЬ, и о томъ печалиться нечего хотя и волокитно будетъ, что вскоре не доправятъ, а и ему стоять годъ и два м4юяца въ томъ иску.

Переп. Хован. 450. XVII в.

УДЕЛЬНЫЙ ВОЛОСТЕЛЬ

А взыщет москвитип какова дела на селских волостелех, которые селца московские за уделными князьми, ино судити царю и великому князю; а не отвечает волостель сслецкой, и царю и великому князю его обинити. -.

Суд!. Ив, IV, 176. 1550 г.

ЗАКЛЮЧЕНИЕ

Основные выводы и результаты работы:

1. В рамках диссертационной работы проведен анализ методов и систем обработки словарных текстов и выявлены наиболее эффективные методы, соответствующие задаче структуры Словаря русского языка ХГ-ХУП вв.

2. Проведено исследование динамики пополнения словарного запаса текста Словаря русского языка ХГ-ХУН вв. и выявлены характеристики закона появления новых слов. Предложена формула для прогноза словарного запаса текста и оценена ее точность.

3. Произведен прогноз словарного запаса по всем буквам двух томов Словаря на основе одного тома. Проведен расчет характеристик получаемого словаря, в частности количества заголовочных слов, которое можно получить из 24 томов Словаря по букве «У».

4. Предложена информационная технология обработки словаря для получения словарных материалов томов СЛРЯ Х1-ХУН вв., в рамках которой:

• Разработан магазинный автомат, распознающий структуру словарной статьи СЛРЯ Х1-ХУИ вв.

• Разработана вероятностная марковская модель для распознавания полей при декомпозиции словарных статей и алгоритм ее реализации.

• Предложено формальное описание и автоматизированная реализация метода «флотации» для формирования словарных материалов.

5. Разработаны программные комплексы, реализующие следующие функции:

• декомпозиция словарных статей и занесение их в структуры базы

данных;

• получение словарного материала недостающих томов СЛРЯ методом «флотации» в форме, пригодной для дальнейшего его использования;

• лексикографическое исследование словарных и обычных текстов;

• создание и ведение лексикографических картотек.

По теме диссертации опубликованы следующие работы:

1. Дубашов А.Е. Библиотека лексикографической обработки текста. // Интеллектуальные технологии и системы. Сборник статей аспирантов и студентов / Сост. и ред. Ю.Н. Филиппович. - М.: Изд-во МГУП, 2002. - Вып. 4.-С. 165-171 (0,23 пл.).

2. Дубашов А.Е. Информационная технология и программный комплекс \Уи^а1ех для автоматизированного построения словника и словоуказателя Словаря русского языка Х1-ХУП вв. // Отечественная лексикография. Русская историческая лексикография на современном этапе / Отв. ред. Чернышева М.И. -М.: ИРЯ РАН, 2000. - Вып. 4. - С. 117 - 120 (0,15 п.л.).

3. Дубашов А.Е. Исследование динамики появления новых слов в тексте Словаря русского языка Х1-ХУ11 вв. // Интеллектуальные технологии и системы. Сборник статей аспирантов и студентов / Сост. и ред. Ю.Н. Филиппович. - М.: Изд-во ООО «Эклис+», 2004. - Вып. 6. - С. 128 - 142 (0,5 п.л.).

4. Дубашов А.Е. Распознавание полей Словаря русского языка Х1-ХУ11 вв. методом Марковских моделей Н Интеллектуальные технологии и системы. Сборник учебно-методических работ и статей аспирантов и студентов / Сост. и ред. Ю.Н. Филиппович. - М.: Изд-во ООО «Эклис+», 2005. -Вып. 7. - С. 74 - 82 (0,3 п.л.).

5. Дубашов А.Е. Разметка словарных статей печатных словарей. Проблемы полиграфии и издательского дела. - М.: Изд-во МГУП, 2006 - № 4. - С. 123-130. (0,35 пл.)

Принято к исполнению 23/10/2006 Исполнено 24/10/2006

Заказ № 783 Тираж: ЮОэкз.

Типография «11-й ФОРМАТ» ИНН 7726330900 Москва. Варшавское ш.5 36 (495) 975-78-56 www, autoreferat.ru

Оглавление автор диссертации — кандидата технических наук Дубашов, Алексей Евгеньевич

Введение.

Глава 1. Анализ методов и систем лексикографической обработки текста.

1.1 Создание словаря.

1.2 Анализ методов лексикографической обработки текстов.

1.3 Анализ существующих систем лексикографической обработки текста.

1.4 Постановка задачи.

Выводы по первой главе.

Глава 2. Исследование частотных и динамических характеристик словарных текстов

2.1 Анализ использования источников.

2.2 Частотный анализ текста Словаря РЯ Х1-ХУП вв.

2.3 Получение статистического закона распределения слов в законе Ципфа и предсказание объема словаря.

2.4 Исследование динамики появления новых слов в тексте Словаря русского языка Х1-ХУП вв.

Выводы по второй главе.

Глава 3. Технология получения словарных материалов недостающих томов словаря

3.1 Магазинный автомат, распознающий структуру словарной статьи класса исторических словарей.

3.2 Разметка словарных текстов.

3.3 Формирование словарных статей.

Выводы по третьей главе.

Глава 4. Использование разработанного средства для получения электронной версии недостающих томов словаря

4.1 Система разметки словарных текстов и занесения их в структуры БД.

4.2 Система создания и ведения лексикографических картотек WinDialex.

4.3 Формирование словарных статей. Флотация.

4.4 Лексикографическая библиотека.

Выводы по четвертой главе.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Дубашов, Алексей Евгеньевич

Повсеместное использование информационных технологий привело к возникновению задач, при решении которых необходима обработка больших массивов информации, приведение ее к единой структуре, извлечение необходимых данных, автоматизация процессов формирования каталогов и архивов. Этот класс задач в целом называют извлечением данных [40] (в иностранной литературе[40] data mining). Лексикография не является исключением, поскольку занимается обработкой больших массивов текстов, их структуризацией, а также извлечением из них информации.

Институт русского языка им. В.В. Виноградова РАН с 1975 года издает Словарь русского языка (СлРЯ) XI - XVII вв., который на сегодняшний момент состоит из 27 томов. По своему типу это исторический словарь, цель которого состоит в том, чтобы наиболее полно представить лексику соответствующего временного периода.

В настоящее время это наиболее полный исторический словарь русского языка. Он используется в первую очередь учеными - филологами, изучающими историю русского языка по древним памятникам письменности, этимологами, специалистами по истории культуры, нуждающимися в профессиональном справочнике, и многими, кто интересуется историей употребления слов. Материалы СлРЯ легли в основу многих научных исследований [107,39].

Основную ценность, и сложность создания СлРЯ представляет цитатный материал, поскольку берется из древних источников, рукописей. Для получения цитатных материалов словаря лексикографу необходимо провести отбор источников, анализ текстов и отдельных словоупотреблений, составление словников и словоуказателей и т. д., что требует значительных затрат времени и труда: «Каждый памятник, изучаемый по рукописи, требует всестороннего исследования. Даже на этапе словоделения необходимо учитывать особенности графической системы рукописи, фонетические и морфологические явления, современные памятнику и более древние, которые могли сохраниться от протографа. Поскольку переписывание рукописей было многократным, графико-орфографическая система древнерусских рукописей не бывает простой и однозначной» [13, стр. 141]. Более детально о проблемах исследования текстов допечатной эпохи см. [2].

Работа над СлРЯ началась с создания "Картотеки древнерусского словаря" (Картотеки ДРС) [23] - огромного архива, где на рукописных карточках находятся выписки из памятников письменности русского языка XI-XVII вв. Временем зарождения Картотеки и СлРЯ считается 1925 год. А первый выпуск СлРЯ (буквы "А" и "Б") появился лишь через 50 лет в 1975 году. В 2005 году передан в печать 27-й выпуск (буква "С").

Таким образом, тома СлРЯ, к настоящему времени включают слова, начинающиеся с букв «А» - «С». Тома, включающие слова, начинающиеся с буквы «Т», отсутствуют. Основная проблема состоит в том, что цитатный материал на недостающие буквы словаря, имеющийся в картотеке, не обработан из-за недостаточности необходимых для этого ресурсов (материальных средств, кадров и др.). Работы по созданию томов, начинающихся с буквы «У», не производятся классическим путем уже с середины 80-х годов из-за недостатка ресурсов, идут поиски альтернативных путей получения словарных материалов этих томов. Поэтому создание новой технологии для получения материалов недостающих томов СлРЯ, является актуальной - это позволит продолжить издание неоценимого по своей значимости источника знаний о слове.

В настоящей диссертационной работе в качестве источника словарных материалов используются цитатные материалы изданных томов СлРЯ. Так как качество получаемого результата является первоочередным критерием, то словарный материал необходимо преобразовать в структурированный формат на машинном носителе, потому что работа напрямую с неструктурированным текстом СлРЯ увеличивает количество ошибок.

Существующие разработки, направленные на автоматизацию лексикографической деятельности (Dialex[47], Interlexfl 15], LemmaLex, MultiCon-cord, Фиеста (FIESTA - Fast Interactive Editor of Scripture and Text Analysis) Летнего института лингвистики, WordCruncher фирмы ETC ~ Electronic Text Corporation) предназначены, для автоматизации создания словарей из текстов цитатных источников (в качестве источника данных они используют текст). Другие системы, такие, как «УНИЛЕКС» [61], тоже предназначены для-создания словарей из источников, хотя имеют возможность импорта готового словаря. Однако эта задача является не основной, таким образом, качество выполнения разметки словарных статей и занесения в базу данных (далее БД) не устраивает.

Целью настоящей диссертационной работы является разработка методов и алгоритмов получения машинной версии будущих томов Словаря русского языка XI-XVII вв. на основе словарных материалов существующих печатных изданий его томов.

Для достижения поставленной цели в диссертации решаются следующие задачи:

1. Анализ существующих методов и систем лексикографической обработки текста в части извлечения информации из текста (Глава 1).

2. Анализ текста существующих томов словаря РЯ XI-XVII вв. с целью получения его количественных и частотных характеристик (Глава 2).

3. Исследование динамики появления новых слов в тексте словаря и прогноз получаемого словарного объема машинной версии словаря (Глава 2).

4. Разработка методики разметки словарных текстов для занесения полей словарных статей в структуры БД с целью ее последующей обработки (Глава 3).

5. Разработка метода получения машинной версии недостающих томов словаря (Глава 3).

6. Реализация распознавателя словаря в виде программного комплекса (Глава 4).

7. Реализация программного средства получения машинной версии словаря (Глава 4).

8. Реализация программного средства для проведения анализа текста словаря (Глава 4).

9. Разработка критериев оценки качества словаря и оценка получаемого словаря (Глава 3).

В работе был разработан программный комплекс, производящий разметку словарных статей и занесение их в базу данных, осуществляющий пополнение цитатного материала методом «флотации», а также реализующий наиболее общие лексикографические функции. Данный программный комплекс используется в Институте русского языка им. В.В. Виноградова РАН, а также в учебных целях в МГТУ им. Н.Э. Баумана на кафедре ИУ5.

В главе 1 «Анализ методов и систем лексикографической обработки текста» анализируются существующие методы извлечения информации из текста, рассматриваются известные методы обработки естественно языковых текстов, проводится анализ структуры словарной статьи, предлагается технология обработки СлРЯ для получения словарных материалов недостающих томов, проводится анализ существующих систем лексикографической обработки текстов применительно к задаче разметки текста словарной статьи, ставится задача для разработки технологии получения словарных материалов недостающих томов.

В главе 2 «Исследование частотных и динамических характеристик словарных текстов» представлены результаты частотного анализа текста СлРЯ Х1-ХУП вв. Проведен анализ динамики появления новых слов в тексте СлРЯ. Была предложена формула для расчета параметров закона Ципфа и оценена ее точность на эксперименте. Также были предложены формулы для прогноза словарного запаса текста и оценена их точность и произведено сравнение характеристик предложенных методов друг с другом и с методом, предложенным Ю.К. Орловым [86]. Произведен расчет количества заголовочных слов на букву «У», которое можно получить из 24 томов.

В главе 3 «Технология получения словарных материалов недостающих томов словаря» представлен результат разработки магазинного автомата для распознавания структуры словарной статьи класса исторических словарей. Описан метод распознавания последовательностей для распознавания полей словарной статьи, которые можно представить в виде словаря возможных вариантов. Представлена методика разметки словарных статей СлРЯ Х1-ХУП вв. Введено и обосновано понятие «флотации». Предложен метод формирования словарных статей для получения словарного материала недостающих томов словаря, предложен метод осуществления лемматизации (т.е. приведение к начальной форме) древнерусских слов, предложены критерии оценки качества словаря и проведена оценка качества получаемого словаря.

В главе 4 «Использование разработанного средства для получения словарных материалов недостающих томов словаря» дано описание разработанного программного обеспечения, рассмотрен процесс формирования словарных статей методом «флотации». Приводится описание реализации компонент программного комплекса.

В приложении приводится отрывок результата построения словарных материалов для тома СлРЯ на букву «У».

Алгоритмы извлечения данных из лексикографических текстов используют методы дискретной математики [26] (теорию формальных языков и грамматик), теорию реляционной алгебры, теорию вероятностей и математической статистики.

Заключение диссертация на тему "Методы и алгоритмы извлечения данных из словарных текстов"

Основные выводы и результаты работы:

1. В рамках диссертационной работы проведен анализ методов и систем обработки словарных текстов и выявлены наиболее эффективные методы соответствующие задачи разбора структуры СлРЯ XI-XVII вв.

2. Проведено исследование динамики пополнения словарного запаса текста СлРЯ Х1-ХУП вв. и выявлены характеристики закона появления новых слов. Предложены формулы для прогноза словарного запаса текста и оценена их точность.

3. Дан прогноз словарного запаса по всем буквам двух томов СлРЯ на основе одного тома. Произведен расчет количества заголовочных слов на букву «У», которое можно получить из 24 томов СлРЯ.

4. Предложена технология обработки словаря для получения словарных материалов томов СлРЯ Х1-ХУП вв., в рамках которой:

• Разработан магазинный автомат, распознающий структуру словарной статьи СЛРЯ Х1-ХУП вв.

• Представлена вероятностная марковская модель для распознавания полей при декомпозиции словарных статей и алгоритм ее реализации.

5. Предложено формальное описание и алгоритм автоматизированной реализации метода «флотации» для формирования словарных материалов.

6. Разработаны программные комплексы, реализующие следующие функции:

• извлечение структурированных словарных статей из предназначенных для человека словарных текстов и занесение их в структуры баз данных;

• получение словарного материала недостающих томов словаря методом «флотации» в форме, пригодной для дальнейшего его использования;

• лексикографическое исследование словарных и обычных текстов;

• создание и ведение лексикографических картотек.

Разработанный программный комплекс используется в научных исследованиях и в учебных целях в МГТУ им. Н.Э. Баумана на кафедре «Системы обработки информации и управления» (ИУ5) в рамках специальных дисциплин «Семиотика информационных технологий» и «Лингвистическое обеспечение АСОИУ».

Выводы и заключение

Разработаны автоматизированные методы разметки словарных статей, извлечения из словарных статей изданных томов словаря цитатных материалов и составления на их основе электронного конкорданса (картотеки), позволяющие значительно сократить время и трудозатраты на получение словарных материалов будущих томов СлРЯ, почти полностью освобождающие лексикографа от работы по поиску, обработке и подбору цитатного материала.

Библиография Дубашов, Алексей Евгеньевич, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

1. Александров A.B. Технология автоматизированного создания базы данных Словаря русского языка X1.XVII вв. // Русская историческая лексикография на современном этапе. Отечественная лексикография / Под ред. Чернышевой. - М.: ИРЯ РАН, 2000. - С. 112 - 117.

2. Алексеев A.A. Кузнецова E.JI. ЭВМ и проблемы текстологии древнесла-вянских текстов // Лингвистические задачи и обработка данных на ЭВМ. -М.: ИРЯ АН СССР, 1987. С. 111-120.

3. Алексеев П.М. О нелинейных формулировках закона Ципфа // Вопросы кибернетики. Статистика речи и автоматический анализ текста / Под ред. Р.Г. Пиотровского (Москва-Ленинград). 1978. - Вып. 41 - С. 53-65.

4. Анализ метаязыка словаря с помощью ЭВМ / Ю. Н. Караулов, В. А. Молчанов, В. А. Афанасьев, Н. В. Михалев М., 1982. - 94 с.

5. Андрющенко В.М. Автоматизированная лексикографическая система UNILEX (основные проектные решения) // Вычислительная лингвистика. -М.: Изд-во МГУ, 1981. С 104-119.

6. Астахина Л.Ю. Картотека ДРС как база для лингвистических исследований // Историко-культурный аспект лексикографического описания русского языка. М.: ИРЯ РАН, Институт лингвистических исследований, 1995.-С. 21-45.

7. Ахо А., Сети Р., Ульман Д. Компиляторы. Принципы, технологии, инструменты. М.: Вильяме, 2001. - 767 с.

8. Ахо А., Хопкрофт Д., Ульман Д. Структура данных и алгоритмы. М.: Вильяме, 2000.-382 с.

9. Ахо А., Хопкрофт Д., Ульман Д. Построение и анализ вычислительных алгоритмов. М.: Мир, 1979. - 536 с.

10. А.Ахо, Дж.Ульман. Теория синтаксического анализа, перевода и компиляции.-Т. 1. -М.: Мир, 1978.-612 с.

11. A.Axo, Дж.Ульман. Теория синтаксического анализа, перевода и компиляции. Т. 2. - М.: Мир, 1978. - 487 с.

12. Базы и банки данных и знаний: Учеб. для вузов по спец. «Автоматизирован. системы обраб. информ. и упр.» / Г.И. Ревунков, Э.Н. Самохвалов,

13. B.В. Чистов / Под ред. В.Н. Четверикова. М.: Высшая школа, 1992. -367 с.

14. Бахтурина Р.В., Мошкович Ж.Г. Использование ЭВМ для исследования и подготовки к изданию древнерусских памятников // Лингвистические задачи и обработка данных на ЭВМ. М.: ИРЯ АН СССР, 1987. - С. 141 -156.

15. Бек Л. Введение в системное программирование. М.: Мир, 1988. - 448 с.

16. Белоногов Г.Г., Фролов Г.Д. Эмпирические данные о распределении букв в русской письменной речи // Проблемы кибернетики (М.). 1963. - Вып. 9.-С. 287-305.

17. Белоусов А.И., Ткачев С.Б. Дискретная математика: Учеб. для ВУЗов / Под ред. B.C. Зарубина, А.П. Крищенко. М.: Изд-во МГТУ им. Н.Э. Баумана, 2002.-744 с.

18. Богатова Г.А. Диахронический словарь в системе словарей исторического цикла // Теория и практика русской исторической лексикографии. Академия наук СССР Институт русского языка. М.: Изд-во Наука. 1984. - С. 37-47.

19. Богатова Г.А. Словарь русского языка XI-XVII вв. // Историко-культурный аспект лексикографического описания русского языка. М.: ИРЯ РАН, Институт лингвистических исследований, 1995. - С. 11-21.

20. Богатова Г.А. Словарь русского языка XI-XVII вв. к 25-летию издания // Русская историческая лексикография на современном этапе. Серия: Отечественная лексикография / Под ред. Чернышевой (М.). 2000. - Вып. 4.1. C. 15-20.

21. Братчиков И.Л. Синтаксис языков программирования. М.: Наука, 1975. -232 с.

22. Вайнгартен Ф. Трансляция языков программирования. -М.: Мир, 1977. -190 с.

23. Волкова JI.A., Решетникова Е.Р. Технология обработки текстовой информации: Учебное пособие. М.: Изд-во МГУП, 2002. - 306 с.

24. Восточнославянская историческая лексикография на современном этапе. К 75-летию Древнерусской рукописной картотеки XI-XVII вв. Серия Отечественная лексикография / Под ред. Астахиной Л.Ю. (М.). 2002. - Вып. 5.-255 с.

25. Гинзбург С. Математическая теория контекстно-свободных языков. М.: Мир, 1970.-328 с.

26. Гладкий A.B., Мельчук И.А. Элементы математической лингвистики. -М.: Изд-во Наука, 1969.- 192 с.

27. Горбатов В.А. Фундаментальные основы дискретной математики. Информационная математика. М.: Физматлит, 2000. - 544 с.

28. Горина Н.Л., Келер С.Н., Ткачева Т.В. Создание компьютерной формы древнеславянских рукописей // Материалы III всесоюзной конференции по созданию машинного фонда русского языка / Под ред. С.Ф. Гилязова, Ю.Н. Караулова-М.: ИРЯ АН СССР, 1990.-С. 89-95.

29. Григорьев Ю.А. Ревунков Г.И. Банки данных: Учебник для вузов. М.: Изд-во МГТУ им. Н.Э. Баумана, 2002. - 320 с.

30. Грис. Д. Конструирование компиляторов для цифровых вычислительных машин. М.: Мир, 1975. - 544 с.

31. Дейт К. Введение в системы баз данных. К., М., СПб.: Изд. дом Вильяме, 2000.- 1072 с.

32. Денисов П.Н. Практика, история и теория лексикографии в их единстве и взаимообусловленности. Проблемы учебной лексикографии и обучения лексике. Русский язык. М., 1978. - С. 25.

33. Дубашов А.Е. Библиотека лексикографической обработки текста. // Интеллектуальные технологии и системы. Сборник статей аспирантов и студентов / Сост. и ред. Ю.Н. Филиппович. М.: Изд-во МГУП, 2002. - Вып. 4.-С. 165-171.

34. Дубашов А.Е. Комплекс программных средств создания и ведения лексикографических картотек / Выпускная работа. МГТУ им. Н.Э. Баумана, каф. АСОИУ. Рук. Ю.Н.Филиппович. М., 1999. - 89 с.

35. Дубашов А.Е. Разметка словарных статей печатных словарей. Проблемы полиграфии и издательского дела. М.: Изд-во МГУП, 2006 - № 4. - С. 123 - 130.

36. Дюк В., Самойленко A. Data Mining : учебный курс. СПб: Питер, 2001. -368 с.

37. Ивченко Г.И., Медведев Ю.И. Математическая статистика. М.: Высшая школа, 1992. -248 с.

38. Инструкция для составителей Словаря Русского Языка XI-XVII вв. М.: ИРЯ АН СССР, 1988.-80 с.

39. Исаев И.А. Опыт автоматизации лексикографических исследований. Система DIALEX. Слово Достоевского. М., 1996. - С. 304.

40. Историко-культурный аспект лексикографического описания русского языка / Под ред. Богатовой Г.А. М.: Институт русского языка РАН, 1995. -248 с.

41. Историко-культурный аспект лексико-логического описания русского языка. Часть 1. -М.: ИРЯ АН СССР, 1991. 156 с.

42. Кадакин М.Ю. Определение угла наклона строк при распознавании текста. // Интеллектуальные технологии и системы. Сборник статей аспирантов и студентов / Под ред. Ю.Н. Филипповича (М.). 2005. - Вып. 5. - С. 239 - 249.

43. Калинина Е.А. Изучение лексико-статистических закономерностей на основе вероятностной модели // Статистика речи. Л., 1968, - С. 64-107.

44. Калинин В.М. Некоторые статистические законы математической лингвистики // Проблемы кибернетики (М.). 1964. - Вып. II. - С. 23 - 34.

45. Калинин В.М. Функционалы, связанные с распределением Пуассона и статистическая структура текста // Труды математического института им. Стеклова (М, Л.). 1965. - № ЪХХ1Х. - С. 74 - 81.

46. Караулов Ю.Н. Ассоциативная грамматика русского языка. М., 1993. -245 с.

47. Караулов Ю.Н. Лингвистическое конструирование и тезаурус литературного языка. М.: Наука, 1981. - 368 с.

48. Кнут Д. Искусство программирования. Основные алгоритмы. 3-е изд. (М.). 2000. - Том 1,- 720 с.

49. Кнут Д. Искусство программирования. Сортировка и поиск. 2-е изд. (М.). 2000,-Том 3.- 832 с.

50. Кобрин Р.Ю. Языковая система и типы источников машинного фонда русского языка // Вторая всесоюзная конференция по созданию машинного фонда русского языка (материалы конференции). М.: ИРЯ АН СССР, 1988.-С. 4-30.

51. Козлов А.Д., Крищенко В.А. Автоматическое извлечение информации из Интернет метапоисковым агентом // Новые электронные технологии: Материалы четвертого научно-практического семинара с участием стран СНГ.-М., 2001.-С. 201 -207.

52. Колобкова О.В. Частотные исследования Словаря русского языка Х1-ХУП вв. // Интеллектуальные технологии и системы / Под ред. Ю.Н. Филипповича (М.). 2004. - Вып. 6. - С. 143-150.

53. Колодяжная Л.И. Автоматизированная лексикографическая система УНИЛЕКС. Словарно-ориентированная подсистема / Под редакцией Н.В. Павлович. М.: Изд-во МГУ, 1987. - 116 с.

54. Колодяжная Л.И. Опыт создания машинной версии фрагмента словаря русского языка //Вторая всесоюзная конференция по созданию машинного фонда русского языка (материалы конференции). М.: ИР Я АН СССР, 1988.-С. 88-98.

55. Колодяжная Л.И. Принципы создания филологического словаря на персональном компьютере // Матер. III всес. конф. по созданию машинного фонда русского языка. М., 1990. - С. 17-29.

56. Крищенко В.А. Использование ЬЯ таблиц для разбора естественного языка // Исследовано в России: Электронный журнал. 2000. - Т. 67. -С. 948 - 945. - http://zhurnal.ape.relarn.ru/articles/2000/067.pdf

57. Крищенко В.А. Программное обеспечение для метапоиска информации в гипертекстовой среде. Автореф. дис.к-та техн. наук. М., 2002. - 20 с.

58. Крутикова О.Ф. Некоторые статистические оценки низкочастотных слов // Исследования по информации. М., 1968.

59. Лавошникова Э.К. Классификация ошибок при вводе словарей и текстов в ЭВМ и их предупреждение// Матер. III всес. конф. по созданию машинного фонда русского языка. М., 1990. - С. 67-75.

60. Лидовский В. Первичная машинная обработка текста: методика и проблематика. М: ИНИОН РАН, 1998.- 100 с.

61. Льюис Ф., Розенкранц Д., Стирнз Р. Теоретические основы проектирования компиляторов. М.: Мир, 1979. - 654 с.

62. Лютров К.Б. Применение баз данных с нечеткой структурой для построения словарей // Интеллектуальные технологии и системы. Сборник статейаспирантов и студентов /Под ред. Ю.Н. Филипповича (М.). 2001. - Вып. З.-С. 261-262.

63. Мандельброт Б. Теория информации и психолингвистика: теория частот слов // Математические методы в социальных науках. М., 1973. - С. 315 - 336. - Пер. ст.

64. Мандельброт Б. О рекуррентном кодировании, ограничивающем влияние помех // Теория передачи сообщений. М., 1957. - Пер. ст.

65. Марков А.А. Об одном применении статистического метода // Известия Имп. Акад. наук, серия VI. 1916. - Т. X, N4. - С. 239 - 242.

66. Марков А.А. Пример статистического исследования над текстом "Евгения Онегина" иллюстрирующий связь испытаний в цепь // Известия Имп. Акад. наук, серия VI. 1913. - Т. X, N3. - С. 153-162.

67. Мартыненко Б.К. Языки и трансляции. СПб.: Изд-во С.-Петербургского университета, 2004. - 229 с.

68. Мельчук И.А. Опыт разработки фрагмента системы понятий и терминов для морфологии (к формализации языка лингвистики) // Семиотика и информатика (М.). 1997. - Вып. 35. - С. 15 - 58.

69. Мерков А.Б. Основные методы, применяемые для распознавания рукописного текста. -http://www.recognition.mccme.ru/pub/RecognitionLab.html/methods.html

70. Милейковская Г.М. Рец. на Словарь русского языка Х1-ХУП вв. // 81ау1а Опе^аИв. 1985.- № 1-2.-С. 168-170.

71. Мошкович Ж.Г. Автоматизированная лексикографическая система Уни-лекс-2 / Под ред. Колодяжной Л.И. М.: Изд-во МГУ, 1989. - 107 с.

72. Мошкович Ж.Г. Проблема лемматизации при автоматизированной подготовке словарей и текстов // Матер. III всес. конф. по созданию машинного фонда русского языка. -М., 1990. С. 4-16.

73. Орлов Ю.К. Динамика ранговых распределений и проблемы статистики большого числа редких событий. Ценологические исследования / Ред. и сост. Б.И.Кудрин. Абакан: Центр системных исследований, 1996. - С. 79 -93.

74. Орлов Ю.К. Статистическое моделирование речевых потоков // Серия: Вопросы кибернетики. Статистика речи и автоматический анализ текста / Под ред. Р.Г. Пиотровского (Москва-Ленинград). 1978. - Вып. 41. - С. 66-99.

75. Остапенко В.Е. Распределение частот лексических единиц в тексте // Вопросы кибернетики. Статистика речи и автоматический анализ текста / Под ред. Р. Г. Пиотровского, О.М. Вейнерова, И.С. Кравцовой, Е.А. Шин-гаревой. М., Л.: 1978. - С. 45-52.

76. Пиотровский Р.Г. Статистика речи и автоматический анализ текста. Л.: Наука, 1980.-223 с.

77. Пиотровский Р.Г. Математическая лингвистика. М.: Высш. школа, 1977. -383 с.

78. Пиотровский Р.Г. Информационные измерения языка. JL: Наука, 1968. -116 с.

79. Пиотровский Р.Г. Эвристические возможности квантитативных методов при построении лингвистического автомата // Эвристические возможности квантитативных методов исследования языка. Смоленск: СГПИ, 1991.-С. 3-4.

80. Поликарпов A.A. Проблемы и перспективы автоматизации лексикологического и лексикографического анализа с помощью ЭВМ. // Использование ЭВМ в лингвистических исследованиях. Киев, 1989. - С. 167-186.

81. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982. -360 с.

82. Протченко И.Ф. Словари русского языка // Университет российской академии. М.: Издательство РОУ, 1996. - 34 с.

83. Роджерсон Д. Основы СОМ (2-е издание). М.: Изд-во Русская редакция, 2000.-400 с.

84. Рыжиков О.Г. Автоматизация разработки электронных версий словарей // Русская историческая лексикография на современном этапе. Серия Отечественная лексикография / Под ред. Чернышевой (М.). 2000. - Вып. 4. -С 120-126.

85. Сидоров Г.О. Лемматизация в автоматизированной системе построения словарей языка писателей // Слово Достоевского. Сборник статей / Под ред. Ю.Н.Караулова. М.: ИРЯ РАН, 1996. - С. 266-300.

86. Скрытые марковские модели http://leader.cs.msu.su/4ukyHMMrus.html

87. Словарь Русского Языка XI-XVII вв. (М.). 1976. - Вып. 3 (володонье - вящышша). - 288 с.

88. Солтон Г. Динамические библиотечные информационные системы. -М.: Наука, 1979.-С. 187-188.

89. Страуструп Б. Язык программирования С++. М., СПб.: Изд-во Невский диалект, 2001. - 1098 с.

90. Теория и практика русской исторической лексикографии. Академия наук СССР Институт русского языка. М.: Изд-во Наука, 1984. - 268 с.

91. Фостер Дж. Автоматический синтаксический анализ // Математическое обеспечение ЭВМ. -М.: Мир, 1975. 72 с.

92. Филиппович А.Ю. Информационно-поисковая система "Указатель источников" // Интеллектуальные технологии и системы. Сборник статей / Сост. и ред. Ю.Н.Филиппович (М.). 1999. - Вып. 2. - С. 230-240.

93. Филиппович А.Ю. Лингвистический редактор Andrew Tools 2000 // Scripta linguisticae applicatae. Проблемы прикладной лингвистики. Сборник статей. -М.: Азбуковник, 2001. С. 305-310.

94. Филиппович А.Ю. Практические занятия по курсам «Компьютерная лингвистика» и «Семиотика информационных технологий». // Интеллектуальные технологии и системы / Сост. и ред. Ю.Н.Филиппович (М.). -2004.-Вып. 6.-С. 281-311.

95. Филиппович Ю.Н., Прохоров А. Семантика информационных технологий: опыты словарно-тезаурусного описания // Серия: Компьютерная лингвистика. М.: МГУП, 2002. С. 36-41, 52, 117-237.

96. Филиппович Ю.Н., Филиппович А.Ю. Электронный указатель источников рукописной древнерусской картотеки Словаря русского языка XI-XVII вв. // Серия: Компьютерная лингвистика. М., 2002. С. 423.

97. Филиппович Ю.Н., Чернышева М.И. Историческая компьютерная лексикография terra incognita в компьютерном мире. Компьютера- 1999. -№ 45 - 7 с. - http://www.computerra.ru/offline/1999/323/3379/

98. Фомичев B.C. Формальные языки, грамматики и автоматы. -http://www.eltech.ru/misc/edu/sectionl/

99. Хант Дж. Вычислительная лингвистика в Летнем Институте Лингвистики // Вопросы языкознания. 1993. - № 6.

100. Хопкрофт Д., Мотвани Р., Ульман Д. Введение в теорию автоматов, языков и вычислений. М.: Вильяме, 2002. - 527 с.

101. Чернышева М.И. К вопросу о греческих и латинских оригиналах источников Словаря русского языка XI-XVII вв. // Историко-культурный аспект лексикографического описания русского языка. М.: ИРЯ РАН, Институт лингвистических исследований, 1995. - С.123-131.

102. Шаломова А.Н. Словарь русского языка XI-XVII вв.: проблемы и результаты. Автореф.дис.к-та фил. наук. М., 1996. - 30 с.

103. Шемакин Ю.И. Начала компьютерной лингвистики. М.: Изд.-во МГОУ АО Роснаука, 1992. - 113 с.

104. Щерба Л.В. Опыт общей теории лексикографии // Изв. АН СССР. Отд. лит. и яз. 1940. - № 3. - С.117.

105. Эллис М., Страуструп Б. Справочное руководство по языку программирования С++ с комментариями. М.: Мир, 1992. - 445 с.

106. Baum L.E. An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes // Inequalities. -1972.-Vol.3.-P. 1-8.

107. Bengio Y. Markovian Models for Sequential Data // Neural Computing Surveys. 1999. - No. 2. http://www.recognition.mccme.ru/pub/papers/HMM/VOL25ps.PS

108. Freitag D. and McCallum A.L. Information extraction using HMMs and shrinkage // Proceedings of the AAAI-99 Workshop on Machine Learning for1.formatino Extraction. 1999. - P. 1 - 6. -http://citeseer.ist.psu.edu/freitag99infonnation.html

109. Grimes R. Professional ATL COM Programming. Birmingham: Wrox Press Ltd., 1998.-703 p.

110. Herdan G. The Advanced Theory of Language as Choice of Chance. -Berlin : Springer-Verlag, 1966. 459 p.

111. Huang X. D., Ariki Y., Jack M. A. Hidden Markov Models for Speech Recognition. Edinburgh University Press, 1990. - 275 p.

112. ISO/EEC 15445:2000(E). International standard for HTML 4.0, which is a refinement of W3C's HTML 4.0 standard. https://www.cs.tcd.ie/15445/15445.HTML

113. Juell P., Marsh R. A hierarchical neural network for human face detection // Pattern Recognition. 1996. - Vol. 29. - P. 781-787.

114. Lin S.H., Kung S.-Y., Lin L.J. Face recognition/detection by probabilistic decision-based neural network // IEEE Transactions on Neural Networks. -1997.-Vol. 8.-P. 114-132.

115. Manning C. D., Schutze H. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press, 1999. - 680 p.

116. Muller Ch. Some Resent Contributions to Statistical Linguistics // Statistical Methods in Linguistics. Skriptor, Stockholm, 1976.

117. Rabiner L., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proceedings of IEEE. 1989. - Vol.77, No.2. - P. 257-286. - http://wvvw.recognition.mccme.ru/pub/papers/HMM/rabiner.pdf

118. Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Prentice Hall, 1995.- 507 p.

119. Rich Text Format (RTF) Specification, version 1.6 http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dnrtfspec/html/rtfspec.asp

Похожие работы

Информатика, вычислительная техника и управление
05.13.00