автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математические модели, методы и алгоритмы построения размеченных корпусов текстов
Автореферат диссертации по теме "Математические модели, методы и алгоритмы построения размеченных корпусов текстов"
На правах рукописи
Седов Алексей Владимирович
Математические модели, методы и алгоритмы построения размеченных корпусов текстов
05.13.18 — математическое моделирование, численные методы и комплексы программ
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
5 ДЕК 2013
Петрозаводск — 2013 г. 005543124
Работа выполнена на кафедре теории вероятностей и анализа данных ФГБОУ ВПО "Петрозаводский государственный университет"
Научный руководитель:
Официальные оппоненты:
Рогов Александр Александрович
доктор технических наук, профессор
Кулешов Сергей Викторович
доктор технических наук,
ФГБУН Санкт-Петербургский институт информатики и автоматизации РАН, ведущий научный сотрудник лаборатории автоматизации научных исследований
Москин Николай Дмитриевич
кандидат технических наук, доцент, ФГБОУ ВПО «Петрозаводский государственный университет», доцент кафедры информатики и математического обеспечения
Ведущая организация:
ФГБОУ ВПО «Санкт-Петербургский государственный университет»
Защита состоится «26» декабря 2013 г. в 14:00 на заседании диссертационного совета Д 212.190.03 на базе ФГБОУ ВПО «Петрозаводский государственный университет», расположенного по адресу: 185910, г. Петрозаводск, пр. Ленина, 33.
С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета.
Автореферат разослан «¿2» ноября 2013
Ученый секретарь ..
диссертационного совета ' 1
Общая характеристика работы
Актуальность темы. Комплексный анализ текстов необходим для решения различных задач семантического анализа. При этом возникает необходимость обработки огромного массива информации. Частично решению данной задачи служат активно создаваемые в настоящее время размеченные корпуса текстов, создание которых стало возможным благодаря современным информационным технологиям и методам математического моделирования.
Существующие корпуса текстов позволяют производить всесторонние исследования не только в рамках развития языка в определённых временных масштабах (год, век, эпоха), но также отображать внешние факторы, такие как эмоциональная окраска использованных языковых структур, языковые элементы, показывающие отношение к окружающему миру и т. п. Корпуса текстов являются богатым источником для лексикографии. С применением современных компьютерных технологий словари могут составляться и пересматриваться гораздо быстрее, чем раньше, фиксируя текущее состояние языка. На основании корпусов создаются практически все современные системы информационного поиска. С их помощью может быть решено множество прикладных задач, таких как: статистическая обработка специальных текстов, создание систем извлечения текстовой информации, извлечение знаний из больших массивов информации, задачи интеллектуального поиска, задачи установления авторства и др.
В настоящее время созданием корпусов занимается большое количество исследователей. В качестве примера можно привести Национальный корпус русского языка (НКРЯ), Хельсинкский аннотированный корпус (ХАНКО), Корпус шведского языка, Корпус итальянского языка, Британский национальный корпус, Банк английского языка и другие. Отличительной особенностью данных корпусов является то, что для их создания привлекается большое количество специалистов, которые зачастую вручную решают задачи разбора и снятия омонимии.
При построении корпусов текстов малой размерности, создаваемых для решения специализированных задач, штат сотрудников может быть сильно ограничен и даже состоять лишь из одного исследователя. При этом решения, используемые для создания больших корпусов текстов, становятся практически неприменимыми. Для таких корпусов требуется создание компьютерной программы, которая частично автоматизировала бы процесс разбора и при этом не была бы ориентирована на конкретный язык и тип разметки.
После создания размеченного корпуса текстов возникает необходимость предоставления специалистам инструмента, позволяющего производить лингвистические исследования. В частности, этот инструмент должен позволять стро-
ить частотный словарь для определённого набора текстов, находить частоты встречаемости словоформ, биграмм, триграмм, осуществлять поиск однокорен-ных слов, неоднородных включений, цитат.
Таким образом, существующие корпуса удовлетворяют не всем современным запросам специалистов, а значит, разработка инструментов для создания новых корпусов и поиска статистических закономерностей текстов является актуальной исследовательской задачей.
Степень разработанности. Имеющиеся корпуса опираются в основном на современный язык и разметку. В настоящем диссертационном исследовании разработана программная среда, которая позволяет создавать мультиязычные размеченные корпуса текстов, сохраняя оригинальное написание слов. Используемые для ее создания математические модели и алгоритмы существенно отличаются от применяемых в ранее созданных корпусах. В настоящее время практически отсутствуют специализированные инструменты глубокого статистического анализа текстов.
Цель диссертационной работы — построение и разработка моделей и методов создания размеченных корпусов текстов и нахождения статистических параметров, присущих как отдельным словам, предложениям, текстам и их частям, так и всему корпусу в целом.
Для достижения поставленной цели необходимо решить следующие задачи:
1. разработать структуры баз данных, необходимые для хранения грамматической и синтаксической разметок;
2. создать компьютерные системы поддержки грамматического и синтаксического разборов;
3. разработать компьютерную систему доступа к разобранным текстам, хранящимся в базах данных;
4. провести анализ методов разбиения текста/текстов на фрагменты однородности.
Объект исследования — системы создания корпусов текстов, методы извлечения информации из текстов.
Методология и методы исследований. Для решения поставленных задач использовались методы прикладной и математической статистики, методы управления базами данных, а также методы человеко-машинного взаимодействия.
Научная новизна работы заключается в предложенных и исследованных в диссертации структурных моделях текста и анализе методов выявления неоднородных фрагментов текста.
Теоретическая и практическая значимость. Предложенные модели, методы и алгоритмы могут использоваться при создании разнообразных корпусов текстов, а также проведении исследований по анализу структуры языка, извлечению информации из текстов, выделению однородных фрагментов.
Положения, выносимые на защиту:
1. Предложенные структурные и графовые модели позволяют создавать муль-тиязычные корпуса текстов, а также проводить различные исследования, направленные на выявление особенностей текста.
2. Разработанные численные методы автоматизируют определения структурных особенностей единиц текста (морфологического и синтаксического разбора).
3. Разработанные численные методы позволяют определить вид данных в объединённом хранилище, который обеспечивает минимальное время доступа в зависимости от вида требуемой информации.
4. Разработанные численные методы позволяют на основании статистических характеристик выявлять фрагменты неоднородности. Полученные фрагменты могут быть полезны для решения задач поиска плагиата, задач атрибуции и распознавания.
5. Разработанный программный комплекс, реализованный в ИС СМАЛТ, содержит предложенные модели и численные методы и предназначен для создания информационных корпусов, предоставления статистической информации о них, а также проведения исследований по анализу однородности как корпуса в целом, так и отдельных его фрагментов.
Степень достоверности. Степень достоверности результатов выполненных исследований подтверждается на примере проведения анализа однородностей в текстах XIX века, текстах Ф. М. Достоевского и В. И. Даля.
Апробация работы. Результаты работы были представлены и обсуждались на следующих конференциях:
1. VI Международной научно-практической конференции «Информационная среда вуза XXI века»,
26-30 сентября 2012 г., Финляндия, Куопио;
2. Международной конференции «Компьютерные технологии и математические методы в исторических исследованиях»,
11-16 июля 2011 г., Петрозаводск;
3. XI Всероссийской научной конференции «Электронные библиотеки: Перспективные методы и технологии, электронные коллекции»,
17-21 сентября 2009 г., Петрозаводск;
4. XL международной научной конференции аспирантов и студентов «Процессы управления и устойчивость» Control Processes and Stability (CPS'09), 6-9 апреля 2009 г., Санкт-Петербург.
Разработанный программный комплекс был апробирован при создании корпуса русских публицистических текстов второй половины XIX века и корпуса финноязычных газетных статей «Карьялан Саномат». Проект был поддержан грантами российского гуманитарного научного фонда № 05-04-12418в «Исследовательские базы данных «Грамматический словарь русского языка XIX века» (рук. Рогов А. А.), № 08-04-12105в «Синтаксически размеченный корпус текстов XIX века» (рук. Рогов А. А.).
Публикации. По материалам диссертации опубликовано 10 работ [1-10], в том числе 2 статьи в изданиях, рекомендованных ВАК [1,2].
Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Подготовка к публикации полученных результатов проводилась совместно с соавторами, причем вклад диссертанта был значительным. Все представленные в диссертации результаты получены лично автором.
Структура и объём диссертации. Диссертация состоит из введения, четырёх глав, заключения, библиографического списка использованной литературы (100 наименований), имеет объём 110 страниц машинописного текста, включая 3 страницы приложений, содержит 22 рисунка и 6 таблиц.
Содержание работы
Во введении приводится обоснование актуальности темы диссертации, формулируется цель диссертационного исследования, представляются основные результаты, научная новизна, практическая значимость работы, а также описывается композиционное построение диссертации.
В первой главе проводится анализ существующих электронных словарей и текстовых корпусов. Рассматриваются принципы их построения и возникающие проблемы. Одной из основных проблем при создании корпусов является вопрос автоматизации разбора, определение грамматических и синтаксических характеристик предложений и слов.
Существующие программные решения для создания корпусов ориентируются на конкретные виды грамматических и синтаксических разборов, на заранее
заданный язык. В данном диссертационном исследовании моделируются структуры данных, которые могут использоваться для создания мультиязычных корпусов, исследователю лишь необходимо будет задать грамматические и синтаксические параметры (рис. 1).
Рис. 1 : Модель корпуса
Корпус (Corpus) представляет собой собрание текстов Тг. Под текстом понимается упорядоченный набор разобранных слов Wij, разделённых знаками препинания, пробелами, переводами строк рц..
Corpus = {ТЬТ2, ...,Тп}, Ti = {■Wij} U {pik}.
Каждому слову ставится в соответствие его оригинальное написание, положение (2) в тексте (номер главы, параграфа, абзаца, и т. п.) и соответствующие морфологические (3) и синтаксические параметры.
Disposition : w —S- positions 6 Positions, Positions = (PoSl, P0S2, • • ■ , PoSq),
Morphology : w —> intParams G Nm, intParams = (Param1, Param.2,..., Paramm),
где m - количество грамматических признаков слова.
Взаимосвязь грамматических признаков можно изобразить в виде двудольного графа:
MorfAttr = (W,E),
где W = MofrParam U Могf Items,
MorfParam, Могf Items ^ 0,
MorfParam П M or f Items = 0, (4)
E = Ei U E2,
Ei = (u, v) : и € MorfParam, v e Мог f Items, E2 = (v,u) : v £ Мог f Items, и e MorfParam,
здесь MorfParam — это множество различных морфологических параметров, а Могf Items — множество морфологических значений. Ребро соединяет вершину из множества значений с вершиной из множества параметров в случае, если от значения зависит наличие параметра.
В качестве примера можно привести часть грамматического разбора из корпуса русских публицистических текстов второй половины XIX века (рис. 2).
Для каждого корпуса строится индивидуальный граф морфологического разбора. Более того, для некоторого набора текстов мы можем иметь несколько вариантов морфологических разборов.
Кроме морфологических параметров для каждого слова были введены дополнительные строковые параметры. Примерами таких параметров в корпусе русских публицистических текстов второй половины XIX века являются: начальная форма, современное написание. Для корпуса финноязычных газетных статей «Карьялан Саномат» это перевод.
Таким образом, каждому слову ставилась в соответствие следующая структура:
w —>< Spelling, Disposition, intParams, sParams >, (5)
где sParams — дополнительные строковые параметры.
Способы синтаксической разметки настолько сильно отличаются друг от друга, что невозможно предложить некоторую универсальную модель. В отличие от грамматического разбора, минимальной структурной единицей текста, в зависимости от выбранного подхода к синтаксической разметке, являются не только слова, но также части предложений и предложения целиком. В диссертационном исследовании корпус представляет собой набор текстов:
Corpus = {Ti,T2,...,Tn}. (6)
Рис. 2: Часть морфологического разбора из корпусов
В качестве структурных единиц рассматриваются клаузы — элементарные предложения в составе сложных, вершиной которых является глагол либо, в случае отсутствия глагола, связка или элемент, играющий её роль. Формально понятие клаузы можно определить следующим образом: предложение S разбивается на части и представляется как множество:
S = {Parti, Part2, • • •, Partp}. (7)
Тогда в качестве клаузы выбирается некоторое подмножество из частей предложения. СЦ = {Partii, Parti2, ■■■, Partit} С S, причем UjClj = S и, вообще говоря, пересечение клауз может быть непустым. Резюмируя это, отметим два основных момента:
1. Каждая клауза может быть разбита на несколько частей внутри одного предложения;
2. Некоторые части предложения могут входить сразу в несколько клауз.
В качестве примера приведём предложение из корпуса русских публицистических текстов XIX века, разбитое на части (заключены в фигурные скобки):
{Впрочемъ и на словахъ}, {какъ мы сказали}, {противочеловЬчность сгинула только почти}, {потому что есть еще даже у насъ въ литературЬ... Хотя впрочемъ тамъ, гдЬ—то, на заднемъ ея фасЬ, но все-таки есть еще углы}, {гдЬ она зас%ла} {и по временамъ вырывается на свЬтъ, во всей своей безобразной дикости}. В данном предложении каждая часть является отдельной клаузой, за исключением клаузы: Впрочемъ и на словахъ противочеловЬчность сгинула только почти, которая разделена на две части клаузой какъ мы сказали.
Во второй главе описываются процессы автоматизации грамматического и синтаксического разборов. Процесс грамматического разбора (рис. 3) текста был разделён на 2 этапа: этап преформатирования и этап разметки.
Проверка разметки
Рис. 3: Схема рабочего процесса
На этапе преформатирования (рис. 4) на вход программы подается текстовый файл. Он содержит текст, который необходимо разметить. Программа автоматически разбивает текст на структурные компоненты: главы, абзацы и предложения.
Признаком новой главы является знак параграфа, расположенный первым на строке, признаком нового абзаца является табуляция. Символами конца предложения являются точка, восклицательный, вопросительный знаки и др. Разбиение на слова происходит при помощи аппарата регулярных выражений.
«вТя Встаека «оркгт Опо
•Г ПрС(]>Орь««*ирО«4»не
СрОМВ 01 ЛИ! И ДЬЙСТЫЯН» АЛ Щ ОСТр0вСГ»ТО 1
НТМЬ ПреДСЮИТЬ ТруДНВЯ ааДВчВ 1 Г>реДЬ НВМИ ЯррйТОеДвие ПиСаТеЯ*. КОТОРЫЙ бРЛЬО ВСЧЪ ДруГНТТ. нВШИ"* ССврОК
и теперь еще еотбуждветь о свбь самые противорЬчиеые толпт 1 Су!щамте а немь странны уже по смей трайней прошву еще оранье, есптт обратить ениманЮ на тр. что иеюдять мтъ еднвго л тосо-тле лагеря ^ Нисеопьто не Оыоо-Сыудив раееодклнеь вь миьклть. иэпрямьрь славянофилы сь тэпаднитгамн 1 (Тауь-гауь >'и странны* протеище дмить-лорь етг наш*А жн>ни. те мы л натыевемь и>ь и<ь сввствемнымн именами Зго бы еще ничего и» чемь согласны снн ял»»яу сов мнгнтя рвъ едиомь м темь же писатель вь одному и тоыь уе стань, вь одномь л томь же гру.гл наттритяьрь у тапудьлю цввно ли нашем/ драматургу вь одно ерем* дзевпи прствищв гостинвдворсмтр коцейу. а въ другое рррвотгпливли ею о ВОСянщалмсь нмь та это?! Еще недаено еднэ изиЗопЬе-чнгзеная идостеточио-тапэднвя у наст» (»тете сь иенарвченнсо гапанть — чуть пи еще не еь ныелоромъ — автору «гроты» 1 Еще на дня**, ярутой. весьма-уважаемый читающею пувп» поднниаль на ату «Гречу» щпуо буро, между-тьмь гать друПв тоже очень тапядмые органы оттывапись о ней не беть вс ^ Одни еь этой ** пиесь ияибопМ у еъ т.^ Острове тому Поэтю, друПе поричвють его нетопьто та итпмттнйо еЬрнО! цинитмъ а одиимь сповсмь. рытодить пр*мипый сонцерть и првнатноательный для будущею историка НЛием современн этрть крнцертъ уже чьегопып льть сряду и ничего еъ немь не лоннмаетъ 1 одимь г 1 остре-есой его не сстттраеть и идет дорогой 1 и пре*рвсне1 дьпаетт» 1
Рис. 4: Этап преформатирования
Несмотря на кажущуюся простоту данного процесса, на данном этапе возникло множество проблем с корректным разбиением. Рассмотрим часть проблем, решённых в диссертационном исследовании:
1. Существуют сложные знаки препинания, сигнализирующие о конце предложения: «...», «?..», «!..», «?!», «!!!» и пр. Изначально программа ставила символы конца предложения внутри этих знаков. Эта проблема была решена путем введения специальных дополнительных шаблонов для проверки, соответствующих подобным сложным знакам препинания.
2. Точка не всегда свидетельствует о завершении предложения. Зачастую точка является признаком сокращения («... г. Волошин... »). Помимо этого, названные знаки препинания ставятся внутри прямой речи, не являясь при этом сигналом завершения предложения. В результате чего предложения разделялись на несколько. Поэтому приходилось перепроверять тексты и склеивать предложения. Эта проблема решалась путем анализа следующего слова и подсчёта открывающихся и закрывающихся скобок. Правда в случае, когда следующее слово начинается с заглавной буквы, это не гарантирует, что знак стоит в конце предложения.
3. Стандартным признаком конца абзаца является наличие символов перевода строки. Однако перевод строки может использоваться и внутри текста, например в стихотворных отрывках. Поэтому была добавлена дополнительная проверка на символ конца предложения прямо перед переводом строки.
4. Составные словоформы, в общем случае, должны быть представимы набором слов, причем не обязательно подряд стоящими (союзы «если ... то»). Поэтому была добавлена возможность объединения нескольких текстоформ в одну словоформу.
Для грамматического разбора была реализована система автоматической разметки. Её работа заключается в том, что грамматический анализатор ищет те-
ется уже двойка слов, для которой приводятся аналогичные результаты. В том случае если не встречалась и двойка - в качестве разбора аг слова щ принимается
n(ahVi)
arg тахР(а,) = , - , (10)
г
то есть самый часто встречаемый в корпусе разбор слова Vj.
Процесс синтаксического разбора во многом сходен с грамматическим разбором. Он также делится на два этапа: преформатирование и разметка. Этап преформатирования практически аналогичен этапу преформатирования грамматического разбора. Основное различие состоит в ином разбиении теста на структурные компоненты: главы, абзацы, сложные предложения и клаузы. Дальнейшее разбиение на слова при помощи регулярных выражений тоже присутствует, но используется оно в неявном виде. Отметим также, что разбиение предложения на части и объединение частей в клаузы для удобства пользователей проводится на этапе разметки.
На этапе синтаксической разметки (рис. 6) пользователь сопоставляет каждой клаузе текста одну из синтаксических схем путем выбора одной из них из списка.
rvt-f.ca СО'мгхти №ci«a»'« У ли»!*»« Ом}
•Г Синючнчссяин (чибор: Ч ВСГк »1, Авми'З.Пр»АНОМИИ» #Э.Ч4Ы» врвЛЮМ! Uli шт
Г ЕП&ЕТС-ЪС -
13 J СГИОО Ш/ТЬ 00 ОС «ГОЛ порядочной Д)ЧА 10ТЧ*СЪ про4/-»д „,ь преде г .jiv'ump ни «HM «го.: урод пи» wo Ч«лемчм ск lt<umtM\. и гс«4игом^. сь
«ртц*к~»м< гп.иил, cw t,(«i«"»i и тЬуие^лши с л ею пК'рой ид*«д». <о»д 1НИИО ДЛ» гингавк »1 >»;.»»« 1 ».о ВО М нЬ сл»о шугь пробуждмМк
1д» npMCrjiJUxie щл;й »шин. et «я гроюс и tiuiuu. CV »я </*|м»и, лрлчуад лил: i noav cmiOMw. л сь «и шобнкгик . сы| ,i<«V. |4М4СОфОМнныМк чисюо
■к £п.>сыщео с пеню.; и годь ной песгро* едеждой, у irof< ч»здв|.чи с v вЬчн:>-< МЩХфйСЯ ра.'л^й, КЛчКЪ mhV Гф*Д< mr 1ЛВГСЯ С<-рАч». Ш>-Ч4« COpSH».
1 • дц». «OTCfce ио дмп. утоордигься et. ront-il *со ии ади ал ммспм. грмвивкжа» Uk raplrtMV И1к-М И0ря_| ПОТОМ/ЧТО и* МОХ eiv (ыворсая миспк.
■¿»(ilMia« tt A'ifoil. ПОД1Ц ui МГ+ СОЧНС'Й «1 С«1"»иЙ.| rj»-t Д01рИи.1Й ППЗДк, тол»* о что сылии^йс * сь А«Р«».; ч « fri.ni л Ч/ЖС* АШН жить у млгвря. у
JfoU CUÜfllb Д»1«1» миою.;* к «го И«ПО ЛОС»ГЬ Ч И -■*►'» *СПМ оно Oy дин -гул* Таиъ.; ю воет» «/дсгъ я »го.; потсиуло гжгдий ИЛЧ будг cm cwriorv огпширо вопгое-i в Г^ГппшГ '"
L »WH С ПОЕВ ШУМ > hg ппдпг Ftoior I 1 ,-иь >Ь ИИНЬ ОНИ но i'nuif "мио ».ишь um»
ti-lü ('IbH'iB МКЙ TU ни НИ ИННОЙ ИМЫЛ» И МП' UjXt U.-/TV. 1»«ни Ч4ыу*4а*л * •Лвдмь к> р»ц|рся* lix.-n. '¿V
i- но bpi-ai» no'Uuiöuv«:* рь |царк »"у 4M!i. tlu: к. ЧГО ЛлИлМЬ v^crn lUQ&tMyО ДОЧк ИО. «(0 »ДвнОвйни:« со»
lov io {moo«o. uoryrv спмоЛмо и вмвло hikäIti ok rr ммиг/та и см1*1»ся н; »ого ар»-*.ий вы*од»и. ПОДО){4В4Я. . что яд), «огорий «яспачпк ab >гу
iyiу uk шутовс«оиъ сврдщ.. «вагнпо tu дпя гаг о. чюби итрвкп» Wik mV. ОС: г»«« w«v с«рдч» кньпи хоть cwyo дошо чукилт^ьности. спря!»»~:и >к
Jn.jCp«''jU.>"»WH. -Ш1ИМ i»ic - " -ли,, ... .
MI«V> Г Ш*иг. (ААг) Г VUs Г H2»li»ojV«s
NI»(cop)'«l г Ml'W <~ vrjpt H2)N«'(M0) Proeo (роя) г N1quanf^dvquonqN2
N1 «Ai!| ' Ml*(cort'P>a«l г N1 r««vtj» Г Proed (fiart) W
Г Ш-РаЛ Ы*Р|М<ХроЛ) Г N2 Г РгопглдИ
Г w.(cop).H1 г UW* i N2twr Г Hot fC
г W.V13» f Adj ft кр01к Г M3«V«I Vt3sN2
Г jrj« Plön под г м r H3'Pie*ö г Vt3sim
г w«w С Proed(p«$ ' 112 < |.И.ОГО/И1«ОГО Г; Н1»л«И**4вго N2
• Г Отзови»» г HHN2
Рис. 6: Программа синтаксического разбора
Система автоматизированной синтаксической разметки опиралась на следующие эмпирические подходы:
1. Простейший статистический метод. Синтаксическая схема по умолчанию выбирается как наиболее часто используемая конструкция.
2. Анализ разбора клаузы, предшествующей текущей.
3. Анализ разбора двух предшествующих клауз.
В качестве схемы для клаузы выбиралась та, для которой величина:
Р(а1а2а3) = аР(а3)Р(а2|аз)-Р(а1|а2аз) + (1 - а)Р(а1)Р(а2\а1)Р(аз\а1а2)
(Н)
была максимальной. Здесь а^, аз — схемы, соответствующие текущей и двум предыдущим клаузам, а а — настроечный коэффициент.
При анализе частоты появления схем в корпусе русских публицистических текстов второй половины XIX века было получено, что схема вида Л^ + V/ встречалась более чем в 58,5% от общего числа клауз (сейчас их число равно 36224). Поэтому было решено использовать её как «схему по умолчанию» для новых клауз.
В третьей главе описывается выбор структур данных для хранения разборов и предоставления искомой информации пользователям.
В процессе проведения исследований возникли сложности, связанные с длительным временем получения результатов (от 5 секунд до нескольких минут на один запрос), а также с достаточно большим размером базы данных. На этом основании было решено произвести анализ различных структур базы данных с целью выявления «лучшей» согласно критерию средней скорости предоставления информации.
Для исследования оптимальной структуры БД, предназначенной для поиска информации о словах и текстах, использовались следующие виды поисковых запросов:
1. по слову;
2. по грамматическим признакам;
3. по синтаксическим признакам;
4. по начальной форме;
5. по слову и грамматическим признакам;
6. по слову и синтаксическим признакам;
7. по грамматическим признакам и синтаксическим параметрам;
8. по грамматическим признакам, синтаксическим параметрам, слову (словоформе, либо начальной форме);
9. выбор слов по частоте встречаемости;
10. выбор слов по частоте обращений, запросов.
О' +О' -Ь +0 •
Для анализа рассматривалась величина: Ьц = ——-- — среднее время
выполнения ¿-го поиска в г-ой базе данных, где (¡^ — время /с-го выполнения _/-го поиска в г-ой базе.
Тогда среднее время р-го варианта поиска в г-ой базе данных:
_ Ьц + + ... + Щр - ^ •
На основании полученных величин рассматривалось взвешенное время поиска:
£г = + а2«г 2 + • • • + ацвйО, (13)
где г — номер базы данных, а а] — частота использования поискового запроса вида ].
Для каждого вида поиска была проведена серия испытаний: три раза в день (утром, днём и вечером) на протяжении недели в течении получаса на сервер поступали поисковые запросы (случайным образом выбранные слова, грамматические и синтаксические признаки). На основании проведённых опытов было замечено, что скорость поиска практически не зависела от частоты встречаемости слова или признака. При этом скорость поиска зависела от длины искомого слова и числа введённых параметров.
Результаты некоторых экспериментов приведены в таблице:
Таблица 1: Время поиска па различных базах данных
Вид поиска В 1-й БД, с Во 2-й БД, с В 3-й БД, с
Слово (написание, нач. форма) 0.602 2.032 0.591
Выбор слова и параметров 0.816 4.55 0.814
Поиск по грамм, параметрам 16.19 22.09 22.11
Поиск по грамм, параметрам + контекст 50.76 60.23 60.63
Поиск по слову + грамм, признаки 17.02 23.09 24.11
Поиск слова, грамм, признаки + вывод контекста 50.97 61.23 61.62
Поиск по синтаксису 11.26 17.89 17.87
Смешанный поиск 20.84 30.23 30.37
Из данной таблицы видно, что меньше всего времени на поиск требуется для первой базы. В ней морфологические признаки для слова хранились в той же таблице, что и само слово. При этом признаки были зашифрованы (сжаты) в соответствии с таблицами зависимостей наличия одних признаков от значений других. Введённые для синтаксического разбора поля, содержащие смещения начала и конца части относительно начала текста, позволили осуществлять поиск одновременно по синтаксическим и морфологическим параметрам. При этом время работы получилось меньше, по сравнению со случаем, когда каждому слову в соответствие ставились все его разборы.
В четвертой главе рассматриваются методы выделения однородных фрагментов в текстах на основании разработанных корпусов.
Существующие современные системы, такие как системы обнаружения плагиата, существенно опираются на базы текстов. Если по каким либо причинам текст, который использовался при создании, не вошёл в поисковые базы, то система может принять фрагмент данного текста как уникальный. Следовательно, методы, которые позволяют выявлять неоднородные фрагменты в тексте, и тем самым указывать на возможность плагиата, не опираясь на собранные базы текстов, являются актуальными и своевременными.
В диссертационном исследовании рассматривается метод поиска фрагментов, имеющих отличную от основного текста синтагматику, характеризующуюся определённой последовательностью составляющих элементов — слов с часте-речной принадлежностью. В основе метода лежит статистика частоты встречаемости последовательностей частей речи, состоящих из трёх или четырёх слов.
Алгоритм нахождения неоднородных фрагментов можно представить в следующем виде:
1. Разметка исходного текста.
2. Выбор размера фрагмента.
Размер фрагмента можно задавать количеством слов или предложений. Выбор размера зависит от цели исследования. В производимых экспериментах величина фрагмента изменялась от одного до пятнадцати предложений.
3. Выбор признаков.
Для проведения исследования необходимо определиться с выбором исследуемой последовательности частей речи, которую в дальнейшем будем называть признаком. Среди множества вариантов последовательностей частей речи следует выбрать ту, которая обладает наибольшей информативностью.
Существует несколько способов выбора наиболее информативных признаков. В качестве исследуемого признака можно выбрать тот, у которого статистика х2 имеет максимальную дисперсию. Для этого следует рассмотреть все возможные наборы признаков (различные варианты последовательностей частей речи), исследуемый текст разбить на фрагменты. Для каждого выбранного признака и каждого фрагмента необходимо найти статистику X2 (способ вычисления статистики описан в следующем пункте), на основе которой вычислить дисперсию. В качестве исследуемого признака можно взять признак с максимальной дисперсией.
4. Вычисление статистики х2-
Для исследуемого фрагмента текста нужно сосчитать, сколько раз выбран-
16
ная последовательность слов встречается в данном фрагменте и сколько в остальной части текста. Обозначим: р' — число выбранных последовательностей, р — общее число последовательностей во фрагменте, ц — общее число последовательностей в оставшемся тексте, ({ — число выбранных последовательностей в оставшемся тексте. Тогда статистика х'2 имеет вид:
2 = (р' - рг)2 1 У - дг)2 | ((р - Р') - р(1 - Г))2 | {{д - д') - д(1 - г))2 рг дг р( 1 — г) д(1 — г) '
(14)
где г =
Р+9
5. Поиск неоднородных фрагментов.
Исходный текст необходимо разбить на все возможные фрагменты. Для каждого фрагмента вычислить статистику ;\/2 (аналогично предыдущему пункту). Максимальное значение данной статистики будет соответствовать неоднородным фрагментам. При этом если значение превысит некоторое критическое значение, то отличие данного фрагмента от остальных будет статистически значимым с вероятностью Р.
Данный алгоритм был применен для разбиения текстов Ф. М. Достоевского. В результате для текстов «Мелочи» и «Пожары» была составлена таблица 2. Из неё видно, что для четвёрки признаков «Глагол», «Существительное», «Союз», «Существительное» дисперсия статистики х2 максимальна. Таким образом по данной четверке текст разбивается лучше всего. Результаты разбиения были представлены специалистам-филологам, которые подтвердили неоднородность выделенных фрагментов.
Таблица 2: Проверка критерия для фрагментов текстов
Признаки Номер фрагмента Дисперсия
1 2 70
Глаг. Сущ. Союз Сущ. 0.1699 0.1772 0.1555 142.9635
Союз Прил. Сущ. Союз 0.1132 0.1180 0.1036 113.8542
Пр-в. Нар. Глаг. Нар. 0.0566 0.0590 0.0518 0.0011
Алгоритм выявления неоднородных фрагментов можно использовать и для решения задачи атрибуции текстов. Рассмотрим следующую задачу. Имеется п однородных текстов. В качестве таких текстов можно брать произведения, принадлежащие одному автору. Ставится задача определения степени близости неизвестного текста к этой группе. Решение данной задачи разобьём на несколько этапов. На первом этапе выбирается признак, затем по очереди выбирается один текст из группы однородных текстов. Оставшиеся произведения объединяются в один большой текст. Для каждого текста вычисляется статистика \г.
Вычисление производится аналогично пункту 4 алгоритма поиска неоднородности для фрагмента. В качестве фрагмента будет выбранный текст. В качестве оставшегося текста будет выступать полученный объединенный. Будем обозначать значения статистик через Хи Хъ • • • i Хп- На следующем этапе выбирается анализируемый текст, а в качестве второго текста берётся текст, полученный в результате объединения всех однородных. Для анализируемого текста вычисляется статистика х2- Обозначим её через Хх- Если выполняется неравенство xl < max, xb то искомый текст будет близок к данной группе по выбранному признаку. Близость текста к выбранной группе автоматически не означает решение задачи атрибуции. Для этого требуется критическая оценка полученного результата специалистом.
Для проверки работоспособности алгоритма в качестве однородных текстов использовались произведения, принадлежащие Ф. М. Достоевскому. В качестве неоднородных текстов - произведения В. И. Даля, М. И. Владиславлева и А. А. Григорьева.
Таблица 3: Проверка критерия для фрагментов текстов
Признаки Достоевский Другие авторы
Без. Дво. Кох. Заг. Пан.
Пред. Прил. Сущ. Глаг. 0.088 0.027 0.497 0.115 0.255
Сущ. Прил. Сущ. М.Д. 0.004 0.020 0.449 22.21 0.856
Пред. Мест. Мест. Нар. 0.004 0.020 0.89 0.037 ö.ööi.....
Мест. м.д. Пред. Мест. 0.066 0.00 2.261 "Ö.ÖJ1 1.23
Проведённые эксперименты (см. Таблицу 3) показали, что для четверки признаков «Предлог», «Прилагательное», «Существительное», «Глагол» максимальное значение статистики х2 среди текстов Ф. М. Достоевского было равно 0.088, при этом для других текстов минимальное значение было 0.115. Оно достигалось на тексте длиной всего в 10 предложений. Таким образом с помощью описанного алгоритма можно выделить из текста фрагменты неоднородности, имеющие разные частоты встречаемости выбранной последовательности частей речи. Найденные фрагменты могут служить подсказкой для специалиста о том, что здесь может быть текст другого автора. Данный алгоритм будет полезен при обнаружении плагиата: анализ может производиться не по всему тексту, а лишь по выделенным фрагментам неоднородности, что сократит размерность задачи.
В заключении формулируются результаты диссертационного исследования.
Заключение
В работе представлены различные модели структур данных, используемых при создании корпусов текстов. На их основании были проведены исследования и выбраны структуры, позволяющие оптимально с точки зрения скорости и времени доступа хранить информацию.
Разработанные структуры данных могут быть применены для создания произвольных корпусов, в том числе для малораспространённых языков.
Наличие возможности использования оригинальной графики позволяет исследователям применять данные модели для исследования связей между исходным текстом и современной графикой.
Размеченные корпуса могут быть использованы при научных изысканиях в области истории, грамматики, лексикографии, а также при изучении соответствующих курсов студентами филологических специальностей. Кроме того, он может быть востребован специалистами по литературе XIX века.
В диссертационном исследовании рассмотрена и решена задача автоматизирования грамматического и синтаксического разбора на основании информации, уже имеющейся в корпусе.
В работе рассмотрены и предложены различные методы разбиения текста на фрагменты однородности.
Предложенные методы и алгоритмы реализованы в программном комплексе СМАЛТ, предназначенном для создания мультиязычных корпусов текстов и нахождения различной статистической информации в них. Апробация данного программного комплекса выполнялась при создании корпусов русских публицистических текстов второй половины XIX века и корпуса финноязычных газетных статей «Карьялан Саномат».
Работа имеет законченный характер. Основными перспективными направлениями её развития являются: разработка методов, позволяющих улучшить снятие омонимии; добавление семантического разбора и анализа; добавление методов, позволяющих классифицировать жанр и общую тематику произведений; добавление методов, позволяющих выискивать плагиат и заимствование из других источников; добавление методов выделяющих эмоциональную окраску.
Список работ, опубликованных по теме диссертации
1. Седов, А. В. Анализ неоднородностей в тексте на основе последовательностей частей речи [Электронный ресурс] / А. В. Седов, А. А. Рогов // Современные проблемы науки и образования, 2013. - № 1, Режим доступа : http://wivw.science-education.ru/107-8339 (дата обращения: 12.02.2013).
2. Информационная система для создания размеченных корпусов малой размерности / А. А. Котов, М. Ю. Некрасов, А. В. Седов, А. А. Рогов // Учёные заниски Петрозаводского государственного университета.- 2012.- Т. 1, № 8(129).- С. 108-112.
3. Математические методы атрибуции текстов / А. А. Рогов, А. В. Седов, Ю. В. Сидоров, Т. Г. Суровцова. — Петрозаводск: Изд-во ПетрГУ, 2012. — 48 с.
4. Лингвистический корпус как объект и инструмент исследований / А. В. Седов, А. А Котов, М. Ю. Некрасов, А. А. Рогов. Изд-во ПетрГУ. — Петрозаводск, 2012.-48 с.
5. Седов, А. В. Комплекс программ по выявлению неоднородности в тексте / А. В. Седов, А. А. Рогов // Информационная среда ВУЗА XXI века. Материалы международной научной конференции. — Куопио (Финлядния), 4-10 декабря 2012 г. - С. 135-139.
6. Некрасов, М. Ю. Комплекс программ по созданию размеченных корпусов текстов / М. Ю. Некрасов, А. А. Рогов, А. В. Седов // Информационная среда ВУЗА XXI века. Материалы международной научной конференции. — Куопио (Финлядния), 4-10 декабря 2012 г. — С. 112-115.
7. Некоторые особенности создания размеченных корпусов текстов в устаревшей графике и орфографии / А. А. Рогов, А. В. Седов, М. Ю. Некрасов, А. А. Котов // Информационный бюллетень ассоциации «История и компьютер», № 37. Труды международной конференции «Компьютерные технологии и математические методы в исторических исследованиях». — Петрозаводск, 11-16 июля 2011.-Июль, - С. 85-91.
8. Некрасов, М. Ю. Особенности создания корпуса текстов с синтаксической разметкой / М. Ю. Некрасов, А. В. Седов // Труды XL международной научной конференции аспирантов и студентов «Процессы управления и устойчивость» Control Processes and Stability (CPS'09) / СПб.: С.-Петербургский гос. университет, факультет прикладной математики - процессов управления. — 2009. - С. 485^(90.
9. Некоторые особенности формирования электронного корпуса тестов с синтаксической разметкой / А. А. Рогов, Г. Б. Турин, А. А. Котов и др. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI Всероссийской научной конференции «RCDL-2009» / Петрозаводск: КарНЦ РАН. - 2009. - С. 276-283.
10. Котов, А. А. Особенности создания электронного ресурса «материалы к синтаксическому словарю» [Электронный ресурс] / А. А. Котов, Г. Б. Гурин, А. В. Седов и др. // Российский научный электронный журнал «Электронные библиотеки», 2010, Режим доступа : http://elbib.ru/index.phtml?page=elbib/rus/journal/2010/part2/KGSNSR (дата обращения: 8.11.2011 г.).
Подписано в печать 19.11.2013. Формат 60x84'/¡е. Бумага офсетная. Уч.-изд. л. 1,0. Тираж 100 экз. Изд. №435
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования ПЕТРОЗАВОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Отпечатано в типографии Издательства ПетрГУ 185910, г. Петрозаводск, пр. Ленина, 33
Текст работы Седов, Алексей Владимирович, диссертация по теме Математическое моделирование, численные методы и комплексы программ
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Петрозаводский государственный университет»
На правах рукописи
Седов Алексей Владимирович
0420Н53687
Математические модели, методы и алгоритмы построения размеченных
корпусов текстов
Специальность: 05.13.18 - «Математическое моделирование, численные методы
и комплексы программ»
ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук
Научный руководитель доктор технических наук, профессор А. А. Рогов
Петрозаводск - 2013
Оглавление
ВВЕДЕНИЕ.................................................................................................................................4
ГЛАВА 1. АНАЛИЗ СУЩЕСТВУЮЩИХ СЛОВАРЕЙ И ТЕКСТОВЫХ КОРПУСОВ...............................15
1.1 Понятие корпуса............................................................................................................................15
1.2 Типы корпусов...............................................................................................................................17
1.3 Конструирование и применение корпусов.....................................................................................19
1.3.1. Национальный корпус русского языка..............................................................................19
1.3.2 Корпус ХАНКО.......................................................................................................................21
1.3.3. Корпус русского литературного языка...........................................................................23
1.3.4. Открытый корпус ОрепСогрога.......................................................................................24
1.4 Краткое сравнение корпусов..........................................................................................................24
1.5 Область применения лингвистических корпусов..............................................................26
1.6 Построение корпуса СМАЛТ.........................................................................................................29
1.6 1 Морфологическая разметка...............................................................................................30
1.6.2 Синтаксическая разметка..................................................................................................32
1.7 Лингвистический корпус финноязычных текстов газеты «Каюаьаы Зашмат»........36
1.8 Модель построения корпуса с грамматической разметкой............................................37
1.9 Модель построения корпуса с синтаксической разметкой.............................................40
ГЛАВА 2 АВТОМАТИЗАЦИЯ ГРАММАТИЧЕСКОГО И СИНТАКСИЧЕСКОГО РАЗБОРА...................43
2.1 Программа грамматической разметки.................................................................................43
2 1.1 Этап преформатирования.................................................................................................44
2.1.2 Этап разметки....................................................................................................................46
2.2 Программа синтаксической разметки.................................................................................48
2 2 1 Этап преформатирования.................................................................................................48
2.2 2 Этап разметки....................................................................................................................49
2.3 Автоматическая грамматическая разметка...................................................................................50
2.4 Автоматизированная синтаксическая разметка............................................................................52
ГЛАВА 3 СТРУКТУРЫ ДАННЫХ ДЛЯ ХРАНЕНИЯ И ПРЕДОСТАВЛЕНИЯ ИНФОРМАЦИИ........................................................................................................................54
3.1 Использование сети Интернет.......................................................................................................54
3.2 Создание \^ев-интерфейса......................................................................................................60
3.3 Отличие локального доступа от доступа через Интернет................................................69
3 4 Оптимизация структур данных под поиск ............................................ .....70
3.5 Критерий оптимальности по скорости поиска...................................................................70
3.6 Оптимизация по объёму хранимой информации...............................................................76
3.7 Оптимизация количества информации предоставляемой пользователю...................76
3.8 Результаты оптимизации по скорости поиска...................................................................77
3.9 Результаты оптимизации по объёму хранимой информации..........................................78
3.10 Количество информации предоставляемой пользователю...........................................79
3.11 Доступ к системе и основные характеристики................................................................80
ГЛАВА 4. ПРИМЕНЕНИЕ РАЗМЕЧЕННОГО КОРПУСА ДЛЯ АНАЛИЗА ОДНОРОДНОСТЕЙ.................................................................................................................81
4.1 Поиск неоднородных фрагментов на основе методов атрибуции текстов....................................84
4.2 Метод сильного графа связности для поиска неоднородных фрагментов....................................86
4.3 Использование наивного байесовского классификатора.............................................................87
4.4 Поиск неоднородных фрагментов на основании последовательностей частей речи....................88
4.4.1 Алгоритм поиска неоднородности фрагмента текста..............................................89
4.4.2 Пример выявления наиболее информативных признаков............................................90
4.4.3 Примеры неоднородных фрагментов текстов.............................................................91
4.4.4 Применение алгоритма к атрибуции текстов..............................................................94
4.5 Использование компонентного анализа для поиска неоднородных фрагментов........................96
ЗАКЛЮЧЕНИЕ..............................................................................................................................98
СПИСОК ЛИТЕРАТУРЫ:..............................................................................................................100
ПРИЛОЖЕНИЯ...........................................................................................................................111
Приложение №1 Список структурных схем синтаксического разбора...............................................111
Приложение №2 Поиск информации через web-ресурс.....................................................................113
Введение
Актуальность темы.
Комплексный анализ текстов необходим для решения различных задач семантического анализа. При этом возникает потребность в обработке огромного массива информации. Частично решению данной задачи служат активно создаваемые в настоящее время размеченные корпуса текстов, создание которых стало возможным благодаря современным информационным технологиям и методам математического моделирования.
Развитие компьютерных технологий, их повсеместное внедрение в разные области науки и знаний, в частности в гуманитарные исследования, обеспечило массовый рост корпусных исследований в период с конца 1980-х и до середины 1990-х годов [1]. Следствием стало увеличение числа создаваемых корпусов. В это время появились крупные национальные корпуса в Англии, Чехии, Финляндии и других странах (преимущественно европейских).
Самые распространенные и популярные корпуса текстов [2] приведены в таблице 1.
В настоящее время созданием корпусов занимается большое количество исследователей. Примечательно то, что при создании данных корпусов задачи разбора и снятия омонимии зачастую решаются вручную.
Изначально лингвистические корпуса создавались и использовались для подсчёта встречаемости различных языковых элементов, таких как графемы, морфемы, словосочетания.
С течением времени корпус перестал восприниматься как средство поиска слов в текстах. Корпус превратился в инструмент для исследования языка [3].
Современные создаваемые корпуса текстов в основном используются для решения сложных лингвистических задач, таких как машинный перевод [4], проверка орфографии и грамматики (внедрены почти во все современные текстовые редакторы) и др.
Таблица 1: Текстовые корпуса
Название Год Количество словоупотреблений
The Brown University Corpus of American English 1964 1000000
American Heritage Intermediate corpus 1971 5000000
The Lancaster-Oslo/Bergen Corpus of British English 1978 1000000
Birmingem corpus 1987 20000000
Kolhapur corpus 1988 1000000
The TOSCA Corpus, Nijmegen 1988 15000000
The Survey of English Usage Corpus, University College London 1988 1000000
The Child Language Data Exchange System (CHILDES) 1984 20000000
Nijmengen 1991 132000000
Longman/Lancaster English Language Corpus 1991 50000000
Map Task Corpus 1991 147000000
Longman Corpus of Learners' English 1992 10000000
The Lancaster/IBM Spoken English Corpus (SEC) 1992 53000000
Wellington Corpus 1993 1000000
Polytechnic of Wales Corpus 1993 65000000
British National Corpus 1995 100000000
Corpus of Spoken 1991 2000000
the International Corpus of Learner English 1997 200000000
Bank of English 1997 320000000
Национальный корпус русского языка 2004 364000000
Корпус позволяет в реальном времени получать результаты, требующие обработки громадных массивов данных. Ранее, для обработки (выписывания примеров, составление карточек) у исследователей уходили месяцы и годы. Одним из основных преимуществ внедрения компьютерных технологий в создание корпусов является возможность в несколько раз повысить эффективность, достоверность и проверяемость различных исследований языка. На современных корпусах могут быть решены такие задачи, которые ранее не ставились в виду их трудоёмкости и невыполнимости.
На основании применения различных статистических методов можно выделить различные устойчивые выражения и закономерности, присущие языку в целом, либо собранию произведений, использовавшихся при создании корпуса. Так, устойчивые выражения с семантической точки зрения представляют собой огромный интерес [5], так как их необходимо учитывать в лексикографии и при автоматизированной обработке текста.
Важную роль электронные корпуса играют для развития прикладных исследований[6-13]. Прикладные лингвистические технологии используются везде, где требуется извлечь информацию из большого массива данных на естественном языке. Именно на основании корпусов создаются практически все современные системы информационного поиска. Прежде всего, это касается информации в интернете. А также с помощью корпусов решаются задачи автоматического извлечения информации, автоматического анализа структуры текста, автоматического перевода (с использованием, так называемых параллельных корпусов на нескольких языках), автоматического распознавания речи (с использованием корпусов звучащей речи) и решается множество других задач.
В нынешнее время созданные корпуса представляют собой целые информационные ресурсы, направленные на предоставление обширного объёма данных пользователю. Информация из корпусов используется для получения данных о лексикографии, с их применением быстрее и легче создаются новые и редактируются существующие словари [14]. Имеется возможность фиксировать
текущее состояние языка, или анализировать состояние языка присущее некоторой эпохе, автору, либо группе авторов. Отдельным подвидом корпусов являются, так называемые monitor corpora [15] - открытые для пополнения новыми данными корпусы, позволяющие отслеживать изменение смысловых значений у существующих слов, а также появление неологизмов.
Большие корпуса, созданные для национальных языков, активно используются в социально-педагогической сфере [16]. Интернет-порталы, созданные для данных корпусов, позволяют людям, не имеющим профессионального лингвистического образования с помощью доступных средств самостоятельно находить ответы на многие возникающие вопросы по поводу прошлого и настоящего их родного языка. Таким образом, электронные корпуса текстов выполняют ещё и просветительскую роль, выражающуюся в повышении языкового сознания неспециалистов. Появление корпусов делает возможным применение корпусных методов в преподавании языка [17].
Отдельной прикладной задачей является использование корпусов для задач семантического анализа [18-21]. При помощи анализа употребления слова, его грамматических характеристиках, анализа окружающих слов и текстов, где это слово было использовано, можно установить определённые семантические признаки, характеризующие данную единицу. Не редки случаи, когда слово употребляется в нескольких семантических категориях. На основе анализа употреблений и окружающих слов может приниматься решение об отнесении слова к определённой категории.
Создаваемые корпуса активно используются для проверки различных систем автоматической обработки текстов, проверки различных лингвистических теорий. Примером выступает университет Nijmegen (Голландия) [221. Здесь на основе текстовых корпусов проверяются разрабатываемые формальные грамматики. Синтаксические анализаторы, создаваемые на основе данных грамматик, обрабатывают тексты из корпусов. Результаты обработки используются для оценки того, насколько полно и точно грамматика описывает данные.
Таким образом, создание, развитие и использование электронных корпусов - это одно из наиболее передовых направлений современной лингвистики. Именно в рамках этого направления наиболее вероятны инновационные результаты как в области теоретической лингвистики (получение новых знаний об устройстве языка), так и в области прикладной лингвистики (получение технологий нового поколения для автоматической обработки текстов и ускоренная модернизация методов лингвистических исследований).
Несмотря на то, что корпусная лингвистика малых и крупных языков имеет общие методологические основания и родственные исследовательские установки, корпуса малых языков имеют особую специфику. Параллельно выделению языковой вариативности для малых языков в практике их исследования, постепенно усиливался акцент на языковом документировании [23]. Это объясняется тем, что в отличие от ситуации изучения крупных языков, лингвисты в принципе не могут полагаться исключительно на собственную языковую интуицию. Исследователи неоднократно отмечали, что многие грамматические конструкции и явления обнаруживаются только при работе с текстами, а не с грамматическими анкетами. Это, в первую очередь, касается сложных, дискурсивно и прагматически ориентированных грамматических категорий, таких как вид или залог. Изучения малых языков аналогично филологической традиции изучения древних языков [24-26], которое практически всё было корпусным задолго до появления и широкого признания корпусных методов в теоретической лингвистике.
В процессе решения задач, связанных с корпусной лингвистикой, в последние годы сложилось успешно взаимодействующее научное сообщество, состоящее из мобильных коллективов высококвалифицированных специалистов, с большой долей молодых исследователей, обладающих всеми нужными знаниями и навыками, как в области современной теоретической лингвистики, так и в области ее приложений. Однако, организационные и финансовые возможности всех этих коллективов в настоящее время невелики - они явным образом не соответствуют масштабу задач, стоящих перед современной
корпусной лингвистикой. В частности, ни один из языков народов России, кроме русского, до сих пор не имеет своего полноценного электронного корпуса, что существенно затрудняет как научное исследование этих языков, так и создание единых государственных информационных систем, работающих со всеми языками народов России.
При построении корпусов текстов малой размерности, предназанченных для решения специализированных задач, штат сотрудников может быть сильно ограничен и даже состоять лишь из одного исследователя. При этом решения, используемые для создания больших корпусов текстов, становятся практически неприменимыми. Для таких корпусов требуется создание компьютерной программы, которая частично автоматизировала бы процесс разбора и при этом не была бы ориентирована на конкретный язык и тип разметки.
При этом сложившаяся практика документирования малых языков такова, что для каждого языка создается отдельный корпус, не связанный с корпусами других языков. Создание корпуса - дело трудоемкое и затратное, и если «большие» языки в принципе могут мобилизовать исследовательские и финансовые ресурсы, чтобы позволить себе собственный корпусной инструментарий, малые языки остаются на обочине этого процесса. Каждым из таких корпусов, по отдельности, занимается небольшое число исследователей. Поэтому, создание полноценного, репрезентативного корпуса [27], в объеме аналогичном корпусам крупных языков, становится невозможным: чаще всего объем корпуса колеблется от нескольких тысяч до нескольких десятков тысяч предложений (т.е. остается в пределах ста тысяч словоупотреблений). Создание корпуса предусматривает владение навыками программирования, которыми, зачастую, лингвисты не обладают. Между тем, нужность и актуальность корпусных исследований для «малых» языков ничуть не меньше, чем для «больших» - только корпус глоссированных текстов делает языковой материал доступнее для типологов и, шире для теоретических лингвистов, то есть делает материал соответствующего языка доступным для академического сообщества.
После создания размеченного корпуса текстов возникает необходимость предоставления специалистам инструмента, позволяющего производить лингвистические исследования. В частности, этот инструмент должен позволять строить частотный словарь для определённого набора текстов, находить частоты встречаемости словоформ, биграмм, триграмм, осуществлять поиск однокоренных слов, неоднородных включений, цитат. В качестве наиболее популярных запросов к создаваемым корпусам можно привести:
- Запрос частотного словаря употребления слов определенного автора, группы авторов;
- Запрос информации об употреблении определённой структуры в собрании текстов;
- Запрос всех, либо наиболее типичных контекстов для употребления определённых слов, словосочетаний, конструкций и устойчивых выражений.
Таким образом, существующие корпуса у
-
Похожие работы
- Методы и программные средства извлечения терминов из коллекции текстовых документов предметной области
- Методы и алгоритмы гибридного синтеза естественной русской речи на основе скрытых марковских моделей и метода Unit Selection
- Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики
- Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов
- Автоматическая верификация и оптимизация потоков работ
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность