автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе

кандидата филологических наук
Чардин, Иван Сергеевич
город
Москва
год
2004
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе»

Автореферат диссертации по теме "Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе"

На правах рукописи

ЧАРДИН Иван Сергеевич

ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ С РАЗМЕТКОЙ НА ОСНОВЕ ГРАММАТИКИ ЗАВИСИМОСТЕЙ И ИХ ПРИМЕНЕНИЕ ПРИ АВТОМАТИЧЕСКОМ СИНТАКСИЧЕСКОМ АНАЛИЗЕ

Специальность 05.13.17 - «Теоретические основы информатики»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата филологических наук

Москва-2004

Работа выполнена в Лаборатории компьютерной лингвистики Института проблем передачи информации Российской Академии Наук

Научный руководитель:

доктор филологических наук,

профессор Богуславский Игорь Михайлович

Официальные оппоненты:

доктор филологичесих наук Рахилина Екатерина Владимировна, кандидат филологических наук Козеренко Елена Борисовна

Ведущая организация:

Институт русского языка им. В.В. Виноградова Российской Академии Наук.

Защита состоится « и

.» 2004 г. в±.6 часов на заседании

Диссертационного Совета Д 002.026.01 при Всероссийском институте научной и технической информации Российской Академии Наук по адресу: 125190, Москва, ул. Усиевича, д. 20.

С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации Российской Академии Наук.

Автореферат разослан

Л У»

2004 г.

Ученый секретарь

Диссертационного Совет у _ е н с к а я

доктор биологических н а у К р и н а Александровна

профессор

Общая характеристика работы

Актуальность темы

С распространением персональных компьютеров и сетей передачи данных неуклонно растет потребность в системах автоматической обработки текстов и важность задачи их совершенствования. Получение новых результатов на этом направлении требует исследований, охватывающих целый ряд смежных областей информатики, лингвистики, психологии, математики и других дисциплин. Данная работа принадлежит к категории таких исследований.

Ее центральная тема - лингвистические корпусы с синтаксической разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе.

Область автоматической обработки текста сегодня сложно представить себе без лингвистических корпусов с разметкой. Это собрания языковых данных, для которых сформулирована и записана информация об их структуре. Базовая разметка для корпусов текстов, как правило, включает информацию о частеречной принадлежности слов и, шире, различную лексико-морфологическую информацию (т.н. part of speech tagging). Для теоретико-синтаксических изысканий и в автоматическом синтаксическом анализе широко применяются корпуса с синтаксической разметкой.

Многие виды разметки требуют участия экспертов-лингвистов в подготовке корпуса. К ним относится и разметка синтаксическая, которая представляет собой особо трудоемкий вид разметки. Это связано с тем, что точность результатов предварительной автоматической синтаксической разметки далека от 100%, особенно при различении большого числа типов отношений.

Корпуса текстов с синтаксической разметкой широко применяются при создании современных алгоритмов автоматического синтаксического анализа и для количественной оценки их работы.

Алгоритмы автоматического синтаксического анализа применяются в таких классах приложений по автоматической обработке текста, как машинный перевод, поиск информации, системы общения с базами данных на естественном языке, системы автоматического аннотирования и реферирования, авторские системы и компьютерная проверка орфографии и пунктуации. Элементы синтаксического анализа все шире используются и в речевых технологиях.

Цель работы и задачи исследования

В диссертационной работе рассматривается лингвистический корпус с синтаксической разметкой на материале русского

I РОС НАЦИОНАЛЬНА I

I БИБЛИОТЕКА J

! ¿чфйуз

лаборатории компьютерной лингвистики ИППИ РАН и его применение. При этом решаются следующие задачи:

1. Исследование лингвистических корпусов с синтаксической разметкой для различных языков мира, методов их создания и способов применения.

2. Описание первого лингвистического корпуса с синтаксической разметкой на материале русского языка.

3. Создание программы для проверки разметки корпуса.

4. Создание экспериментального алгоритма разрешения синтаксической неоднозначности с применением данного корпуса.

5. Качественная оценка результатов работы с использованием экспериментального алгоритма разрешения синтаксической неоднозначности в сравнении со стандартным алгоритмом.

6. Разработка методов количественной оценки алгоритмов синтаксического анализа для русского языка.

7. Количественная оценка результатов работы экспериментального алгоритма в сравнении со стандартным алгоритмом в контексте результатов для иностранных языков (английского и чешского).

Методы исследования

В решении задач диссертационной работы используются синтаксические представления на основе синтаксиса зависимостей. При этом для синтаксических отношений помечаются их типы в соответствии с подробной классификацией, основанной на синтаксической модели, принятой в лингвистическом процессоре ЭТАП-3. Данная модель, в свою очередь, базируется на поверхностно-синтаксическом компоненте теории «Смысл<=>Текст», практической реализацией которого она является.

Разметка лингвистического корпуса ИППИ РАН соответствует стандарту XML и представляет собой расширение стандарта TEI для описания структуры предложения в рамках синтаксиса зависимостей.

Научная новизна

1. Разработаны методы и программное обеспечение для количественной оценки алгоритмов синтаксического анализа для русского языка.

2. Проведена количественная оценка результатов работы алгоритма синтаксического анализа для русского языка в сравнении иностранными языками.

3. Создан экспериментальный алгоритм разрешения синтаксической неоднозначности с применением корпуса для русского языка.

4. Применен при автоматическом синтаксическом анализе корпус с синтаксической разметкой для русского языка, созданный в ИППИ РАН.

Практическая значимость работы

- Реализованный программный комплекс позволяет текущим образом проводить количественную оценку блока синтаксического анализа лингвистического процессора ЭТАП-3 на материале русского языка.

- Проведено количественное сравнение между результатами, полученными для блока синтаксического анализа лингвистического процессора ЭТАП-3 и результатами, полученными для иностранных языков.

- Программа проверки разметки корпуса позволяет выявлять некоторые классы ошибок, допущенных экспертами-лингвистами при создании разметки.

Апробация и внедрение

Ход и результаты работы обсуждались на заседаниях Лаборатории компьютерной лингвистики ИППИ РАН.

Основные задачи диссертации были реализованы автором вместе с коллегами в ходе работ по грантам РФФИ № 01-06-80453,01-07-90495.

Разработанные положения отражены в тезисах докладов, опубликованных в материалах международных конференций «Когнитивное моделирование в лингвистике» и «Conference on Language Resources and Evaluation» (LREC-02), 2-ой Всероссийской конференции «Теория и практика речевых исследований», а также в статье автора, вышедшей в журнале «Научно-техническая информация».

Структура работы

Диссертацию открывает вводная глава 1, за ней следует обзорная глава 2; глава 3 посвящена описанию лингвистического корпуса ИППИ РАН. В главе 4 излагается алгоритм разрешения синтаксической неоднозначности с использованием корпусных данных для лингвистического процессора ЭТАП-3. В главе 5 рассматривается проблема количественной оценки программ автоматического синтаксического анализа. Завершает работу глава 6, в которой обсуждаются результаты и перспективы.

Основное содержание работы

Глава 1. Введение

Во введении к диссертационной работе определяется актуальность исследования, формулируются цели и задачи, обосновывается научная новизна и практическое значение, кратко обсуждаются методы исследования.

Глава 2. Корпусы с синтаксической разметкой и автоматический синтаксический анализ

Рассматриваются лингвистические корпусы с синтаксической разметкой в общем контексте корпусной лингвистики и проблематики разработки приложений по обработке текста и речи, обсуждаются существующие корпусы и их характеристики.

Еще двадцать лет назад лингвистические корпусы с синтаксической разметкой представляли собой картотеки предложений, снабженных синтаксическими разборами. Основным предназначением таких картотек являлась организация первичного материала для создания и верификации лингвистических теорий. Трудоемкость работы с карточками резко сужала возможности для теоретических экспериментов с данными и круг прикладных задач, для решения которых эти данные могли использоваться.

Первым электронным корпусом, содержащим информацию о синтаксическом разборе входящих в него предложений, стал английский Lancaster-Leeds Treebank, который создавался в восьмидесятых годах в рамках экспериментов по синтаксическому анализу. Сегодня электронные корпусы с синтаксической разметкой существуют не только для английского языка, но и для ряда других. Они широко применяются как для экспериментов в области теоретического синтаксиса, так и при разработке компьютерных приложений по обработке текста и речи.

В работе рассмотрены такие характеристики лингвистических корпусов с синтаксической разметкой как объем, сбалансированность, глубина и подробность, выбор синтаксической теории, соответствие стандартам разметки, а также условия распространения.

Подробно рассказывается о таких корпусах с синтаксической разметкой, как Penn Treebank, Susanne и ICE-GB для английского языка, Negra/TIGER для немецкого, и Prague Dependency Treebank для чешского. Приводятся ссылки на работы, посвященные готовящимся корпусам с синтаксической разметкой для польского, голландского, испанского, французского, итальянского, китайского, японского и турецкого языков.

Основным применением корпусов с синтаксической разметкой является их использование для создания, оценки качества работы и улучшения алгоритмов синтаксического анализа. Применительно к последним существуют

различные стратегии разработки, - традиционная эвристическая и статистическая, которая приобрела особую популярность на Западе в последние два десятилетия.

Первая стратегия предполагает установление синтаксических связей на основе лингвистических знаний, задаваемых правилами формальной грамматики и словарями. С ее помощью удалось построить эффективные приложения, работающие с естественным языком в ограниченной области применения. Вторая стратегия основана на применении статистического моделирования с использованием байесовской статистики. Она позволила добиться новых успехов, связанных также с применением корпусов с разметкой, в частности, в синтаксическом анализе. Эти успехи объясняют тем, что статистические модели отражают когнитивные процессы лучше, чем традиционные модели, основанные на использовании правил.

При этом и эвристическая, и статистическая стратегии по существу являются взаимодополняющими. Эвристическая стратегия обеспечивает глубину анализа, но не дает широкого покрытия языковых явлений. Статистическая стратегия, наоборот, не обеспечивает глубины анализа, но дает широкое покрытие языковых явлений. Если организовать работу синтаксического анализатора так, чтобы обращаться то к первой, то ко второй стратегии в оптимальный для этого момент, можно ожидать, что качество и надежность анализа существенно улучшатся. Попытка реализации такого комбинированого подхода в рамках лингвистического процессора ЭТАП-3 описывается в главе 4.

Использование корпусов с синтаксической разметкой позволяет произвести количественную оценку систем синтаксического анализа путем непосредственного сравнения получаемых в ходе работы синтаксических структур с эталонными структурами корпуса.

В литературе отмечены преимущества, которые могут быть получены при использовании для оценки систем синтаксического анализа деревьев зависимости вместо деревьев составляющих. Основное из них связано с тем, что деревья зависимостей можно сравнивать пословно, так как в них недопустима недоопределенность синтаксической структуры, часто характеризующая данные корпусов, размеченных в рамках синтаксиса составляющих. При этом результаты, полученные с использованием зависимостей для английского языка, составляют 91% точности синтаксического анализа, и 80% для такого близкого русскому языка как чешский. Под точностью синтаксического анализа здесь понимается процент правильно (по сравнению с эталонным корпусом) построенных синтаксических связей.

Глава 3. Корпус с синтаксической разметкой для русского языка

Описывается корпус ИППИ РАН, ставший первым лингвистическим корпусом с разметкой для русского языка. Основным источником текстов для

него послужил хорошо известный корпус современного русского языка, созданный в Уппсальском университете. Общий объем этого корпуса составляет около одного миллиона словоупотреблений. Работа над разметкой примерно десяти тысяч предложений (более ста сорока тысяч словоупотреблений) из него к настоящему моменту завершена, и идет их окончательная выверка. Общий объем синтаксически размеченного корпуса ИППИ сейчас составляет около двадцати тысяч предложений.

Схема разметки корпуса может быть условно разделена на три уровня. Каждый последующий уровень включает в себя информацию предыдущего.

Лемматический уровень: для каждой словоформы указывается ее основная форма и часть речи.

Морфологический уровень: для каждой словоформы дополнительно указывается полный набор ее морфологических характеристик.

Синтаксический уровень: для каждого предложения дается его синтаксическая структура (дерево зависимостей) с указанием типов синтаксических отношений для всех связей.

Разметка корпуса соответствует стандарту XML и представляет собой расширение TEI (см. http://www.tei-c.org/) для описания структуры предложения в рамках синтаксиса зависимостей.

Каждой словоформе приписываются морфологические характеристики из следующего списка: часть речи, одушевленность, род, падеж, число, степень сравнения, краткость, репрезентация, вид, время, лицо, залог.

Как морфологическая, так и синтаксическая модель корпуса основана на языковой модели лингвистического процессора ЭТАП-3, ядро которого используется для предварительной автоматической разметки текста.

Синтаксическая разметка корпуса ставит в соответствие каждому предложению корпуса дерево зависимостей с указанием типов синтаксических отношений для всех связей. Грамматика зависимостей лучше подходит для описания языков со свободным порядком слов и является более мощным формализмом, чем грамматика составляющих.

Идея фиксации в русском корпусе текстов различных типов синтаксических отношений исходно связана с теорией лингвистических моделей «Смысл<=>Текст», которая составляет теоретический фундамент системы ЭТАП. В теории «Смысл<=>Текст» имена синтаксических отношений передают информацию о типе синтаксической конструкции, которая в данном языке выражается лексико-синтаксическими средствами (порядком слов, морфологическими характеристиками, грамматическим типом лексемы). При этом в условиях разветвленной таксономии синтаксических отношений возрастает значение синтаксической структуры для решения задач, в которых важное значение имеет семантика, таких как автоматический перевод.

Синтаксические отношения делятся на шесть групп: 1) актантные; 2) атрибутивные; 3) количественные; 4) обстоятельственные; 5) сочинительные; 6) служебные. Всего выделяется 78 отношений.

При общей прикладной направленности работа по созданию корпусов с разметкой имеет важное теоретическое значение. В ходе подготовки корпуса и анализа конкретных текстов теоретические положения подвергаются жесткой проверке, а открытые вопросы требуют скорого принятия рабочих соглашений. Такие соглашения и рабочие решения, принимаемые при разработке корпусов с разметкой, обычно оформляются в виде инструкций для экспертов-лингвистов разной степени подробности. Применительно к проекту по созданию корпуса ИППИ РАН соглашения документировались в публикациях, посвященных системе ЭТАП, в отдельном документе, посвященном ответам на возникавшие у лингвистов вопросы, а также в компактной инструкции для экспертов, осуществлявших разметку корпуса. Частичный список синтаксических отношений, который приводится в приложении к диссертационной работе, является частью этой инструкции.

Разметка корпуса производилась полуавтоматически. Сначала при помощи специализированной программы Chopper текст разбивался на предложения, затем он загружался в программу-редактор синтаксических структур StructureEditor (StrEd), где обрабатывался в пакетном режиме с помощью лингвистического процессора ЭТАП-3. В результате с каждым предложением корпуса ассоциировался «стоп-кадр» структуры, которую строил для него лингвистический процессор. Затем эксперты просматривали полученную разметку и в случае необходимости редактировали ее с помощью инструментария StrEd.

Для работы с корпусом был подготовлен ряд программ, написанных на языке Perl, которые имели разнообразную функциональность. Простейшие программы осуществляют подсчет количества словоформ и предложений в той или иной части корпуса. Более сложные программы могут находить специфическую синтаксическую конструкцию или проводить подсчет встречаемости всех фрагментов деревьев определенного вида в корпусе.

Еще одна задача, которую решают программы - сравнение структуры эталонного корпуса и структуры, построенной лингвистическим процессором ЭТАП-3. При этом сравнение оказывается возможным только в том случае, если количество слов, выделенных при подготовке корпуса и при работе лингвистического процессора, совпадает.

Глава 4. Применение корпуса с разметкой при разрешении синтаксической неоднозначности в лингвистическом процессоре ЭТАП-3

Обсуждается проблема разрешения синтаксической неоднозначности при автоматической обработке текста и синтаксический компонент лингвистического процессора ЭТАП-3, представлен экспериментальный

комбинированный алгоритм разрешения синтаксической неоднозначности для процессора, проводится качественная оценка комбинированного алгоритма.

Неоднозначность является одной из фундаментальных особенностей человеческого языка. Под синтаксической омонимией, или синтаксической неоднозначностью, предложения в общем смысле понимается возможность приписать фразе (как некоторой последовательности словоформ) более чем одну правильную синтаксическую структуру. В ходе автоматического синтаксического анализа семантическая и прагматическая информация в основном недоступна компьютеру. Вследствие этого возникает нетривиальная задача разрешения синтаксической омонимии на уровне синтактики, решение которой может стать ключом к повышению качества синтаксического анализа.

В настоящее время сложилось достаточно четкое разделение между грубым (shallow) и глубоким синтаксическим анализом, которое нашло свое отражение в разделении синтаксических корпусов по глубине разметки. Грубый синтаксический анализ часто позволяет сохранить неоднозначность за счет построения недоопределенной структуры. При глубоком синтаксическом анализе неоднозначность должна быть либо эксплицитно выражена, либо разрешена. Использование деревьев зависимостей подразумевает разрешение синтаксической неоднозначности.

При этом основное приложение, использующее глубокий синтаксический анализ, машинный перевод, в большинстве случаев требует разрешения синтаксической неоднозначности. При машинном переводе существенно проводить полный синтаксический разбор и выбирать самую вероятную структуру, чтобы выдать ее перевод пользователю в первую очередь. Чем подробнее и точнее результаты синтаксического анализа, тем выше качество перевода.

Лингвистический процессор ЭТАП-3 работает на основе правил. На его примере ярко видны преимущества и недостатки правиловой стратегии обработки языковых данных. Детально проработанная формальная языковая модель позволяет проводить глубокий анализ структуры предложения, которое является единицей анализа в системе. В то же время, несмотря на значительный объем словаря и проработанность грамматики, многие языковые явления оказываются неохваченными.

В начале синтаксического анализа в процессоре ЭТАП-3 синтаксические правила, синтагмы, порождают набор гипотетических связей - минимальных поддеревьев (два узла, связанных синтаксическим отношением), из которых строится дерево зависимостей. Затем осуществляется выбор вершины будущего дерева и непосредственно его построение.

После того как получены гипотетические связи, различные фильтры (древесность, проективность, неповторимость ряда отношений) проводят чистку множества гипотез, освобождая его от заведомо неправильных вариантов. Если в результате получилось дерево зависимостей, то работа

синтаксического анализатора заканчивается. В противном случае начинают работать правила предпочтения.

Они принимают решения об удалении гипотез из пространства поиска алгоритма синтаксического анализа. В целях придания большей гибкости механизму разрешения синтаксической неоднозначности и языковой неоднозначности вообще, а также облегчения деятельности по его улучшению в систему была введена система приоритетов, которая в настоящее время играет важную роль в работе лингвистического процессора. Приоритеты динамически присваиваются элементам обрабатываемого предложения, прежде всего, лексемам и синтаксическим гипотезам, на основании словарных статей и синтагм. При удалении элементов первым стирается элемент с наименьшим приоритетом. Как и правила предпочтения, приоритеты вырабатываются экспертом вручную, то есть данный механизм является эвристическим.

Если перечисленные выше средства (синтагмы, фильтры, правила предпочтения) не привели к полному устранению избыточных гипотез, в действие вступает перебор альтернатив, который по сути дела является процедурой перебора с возвратами - бектрекинга.

Одним из направлений работы по усовершенствованию лингвистического процессора ЭТАП стало внедрение комбинированной стратегии обработки языковых данных, которая обещает совмещение преимуществ эвристической и статистической стратегий.

Если обычно правиловая грамматика используется для порождения синтаксических гипотез, а статистика размеченного корпуса - для разрешения неоднозначности, то при реализации алгоритма разрешения неоднозначности с применением корпусных данных, реализованного в лингвистическом процессоре ЭТАП-3, комбинированная стратегия была применена собственно в рамках блока по разрешению синтаксической неоднозначности.

По сути дела, предлагаемый комбинированный алгоритм представляет собой интеграцию нового статистического блока, играющего роль дополнительного фильтра, с системой эвристических приоритетов. Статистический блок взвешивает минимальные поддеревья, а также цепочки минимальных поддеревьев длиной из трех слов в пространстве поиска алгоритма синтаксического анализа на основании частоты встречаемости фрагментов такого вида в деревьях зависимостей корпуса. В итоге в систему возвращаются новые значения приоритетов связей, которые вычисляются с учетом вновь приписанных весов.

Цепочки длинной из трех слов взвешиваются в случаях, когда между двумя словами сформированы две или более альтернативных синтаксических связи и у них нет альтернатив на один уровень выше по дереву. В противном случае взвешиваются минимальные поддеревья.

Значения статистических приоритетов связей заведомо меньше, чем значения положительных эвристических приоритетов связи, присваиваемых

регулярными правилами. Такое решение было принято с тем, чтобы при конфликте между эвристической и статистической стратегиями в механизме учета приоритетов обеспечить предпочтение результатам работы эвристических правил, созданных экспертами-лингвистами.

Следует отметить, что при наличии соответствующих корпусных данных предлагаемый комбинированный алгоритм может использоваться при синтаксическом анализе предложений не только на русском, но и на английском языке (как, впрочем, и на любых других языках, анализ которых осуществляется на принципах ЭТАПа).

Минимальные поддеревья и их объединения можно рассматривать как синтаксические биграммы и ^граммы. Однако необходимость возвратить в систему приоритет конкретной связи без учета контекста, чтобы не нарушить работу остальных фильтров, ограничивает возможность применения п-граммных моделей более высокого порядка, чем биграммы.

Описанный комбинированный алгоритм был реализован в самостоятельном модуле системы ЭТАП-3, написанном на языке программирования C++; основная работа по созданию модуля была проделана В. Г. Сизовым. В графический интерфейс системы была добавлена кнопка-флажок, позволяющая включать и выключать данный модуль. Ход его работы можно проследить по общему протоколу работы системы.

Реализованный статистический модуль позволяет учитывать полные или сокращенные наборы морфологических характеристик слов в предложении, имена синтаксических отношений, линейные расстояния между хозяином некоторого отношения и его слугой, а также направления отношений относительно вершины.

При сборе данных были использованы тренировочные тексты с синтаксической разметкой общим объемом 6900 предложений (около 104000 словоупотреблений). Для использования в экспериментах по корпусу были собраны данные трех видов. Данные первого вида («обедненные») помимо информации о названии поверхностно-синтаксической связи включали информацию о частеречной принадлежности слова-хозяина и слова-слуги, куда, кроме традиционных частей речи заносились причастия и деепричастия. Данные второго вида («умеренные») дополнительно содержали информацию о падеже существительных. Данные третьего вида («обогащенные») включали информацию о расширенном наборе характеристик (род, число, падеж, одушевленность) для именных частей речи, за исключением числительных, а также для причастий, для остальных глагольных форм включалась информация о репрезентации (т.е. указывалось, личный это глагол, инфинитив или деепричастие).

Заключение о практической ценности изменений, вносимых в синтаксический компонент лингвистического процессора ЭТАП-3, обычно делается на основании качественной оценки результатов экспериментов по

машинному переводу. Такая оценка была проведена и для вышеописанного статистического модуля. Её результаты не позволили сделать однозначного заключения о целесообразности использования текущей версии статистического модуля в системе по умолчанию, и было решено провести количественную оценку работы синтаксического блока лингвистического процессора ЭТАП-3. О принципах количественной оценки и экспериментах по ее проведению рассказывается в следующей главе.

Глава' 5. Количественная оценка алгоритмов автоматического синтаксического анализа для русского языка

Предлагаются принципы оценки алгоритмов синтаксического анализа для русского языка, проводится количественная оценка результатов работы различных режимов блока синтаксического анализа системы ЭТАП-3, результаты сопоставляются с зарубежными аналогами.

Количественная оценка работы алгоритмов автоматического синтаксического анализа производится путем сравнения результатов анализа предложений корпуса и эталонной разметки. При этом оценка проводится не по всему корпусу, а только по той его части, по которой не проводилось обучение. Цель такого разделения корпусных данных заключается в том, чтобы избежать настройки программы на конкретный материал.

Чтобы иметь возможность проводить адекватное сравнение разных алгоритмов синтаксического анализа для русского языка, необходимо обеспечить использование фиксированного набора данных для оценки. Если для английского языка для оценки применяются данные из Penn Treebank, то для русского языка на данный момент существует только один корпус с синтаксической разметкой, - корпус ИППИ РАН. Этот корпус в целом является достаточно репрезентативным и, тем самым, может служить стандартным материалом для общей оценки. При необходимости проведения оценки алгоритмов синтаксического анализа по текстам с жанровыми или другими особенностями, по каким-либо причинам слабо представленным в корпусе ИППИ РАН, потребуется осуществить разметку дополнительных данных.

При проведении сравнения использовались размеченные тексты Уппсальского корпуса, не задействованные в сборе данных для комбинированного алгоритма разрешения синтаксической неоднозначности (20% от общего объема размеченных текстов Уппсальского корпуса). Суммарный объем рассматриваемой части Уппсальского корпуса составил около 25830 словоупотреблений и 2030 предложений.

На заключительном этапе эксперимента была проведена дополнительная оценка на текстах новостного подкорпуса объемом около 29000 словоупотреблений и 1700 предложений.

Тексты Уппсальского корпуса были разделены на две части, примерно одинаковые по размеру. Одна из них использовалась только для оценки, ее

тексты не изучались экспертом. Ее объем составил порядка 13350 словоупотреблений и 1100 предложений. Вторая часть служила для опробования программного комплекса для сравнения структур ЭТАПа со структурами корпуса. Некоторые ее предложения и их структуры подвергались тщательному рассмотрению. На основании результатов рассмотрения вносились коррективы в указанный программный комплекс и компонент автоматического синтаксического анализа лингвистического процессора. Объем второй части составил около 12480 словоупотреблений и 930 предложений.

Подобное разделение корпуса на части является стандартным при работе с размеченными корпусами и имеет своей целью получение максимально объективных результатов количественной оценки. Строго говоря, результаты, полученные при оценке первой из двух указанных частей, являются в наибольшей степени непредвзятыми. Именно они приводятся в автореферате.

Был введен в эксплуатацию программный комплекс, позволяющий осуществлять оценку качества синтаксического анализа лингвистического процессора ЭТАП-3.

Количественное сравнение комбинированного и эвристического алгоритмов разрешения синтаксической неоднозначности не выявило существенных различий в результатах их работы. На материале Уппсальского корпуса вне зависимости от типа данных, использовавшихся в комбинированном алгоритме для эксперимента, различия в производительности между ним и эвристическим алгоритмом варьировалось от одной десятой процента до одного и одной десятой процента. Если при определении связей, ведущих из вершины дерева, комбинированный алгоритм показывал незначительное улучшение, то для остальных показателей он в большинстве случаев давал столь же незначительное ухудшение.

Сводные данные для двух подкорпусов размеченного корпуса приводятся в таблицах 1 и 2. Поясним верхнюю часть этих таблиц; данные из нижней части рассматриваются позднее. Каждой версии алгоритма/набору данных в ней уделено две строки. В верхней строке находятся абсолютные значения, а в нижней - процентные. При этом показательными являются процентные значения, поскольку по техническим причинам разного рода для разных версий алгоритма и наборов данных удалось проанализировать и сравнить разное количество предложений. Количество слов и предложений, которое удалось проанализировать и сравнить, принимается за 100%. Процентные значения с плюсом показывают прибавку к этим 100%, которая могла бы быть внесена теми данными, что не удалось использовать.

Тип анализа Кол-во слов/ отнош. Кол-во обраб. предл. Анализ «с пр., предл. Прав. разбор, предл. Совп. структ., предл Совп. отнош. Совп. связей. Совп. вершин предл. Совп. морф., слов

Эврист. 12019 1037 63 148 218 8025 8947 816 10065

100% 100% +6.1% 14.3% 21.0% 66.8% 74.4% 78.7% 83.7%

Комбин. «Обедн» 11306 1005 95 143 209 7468 8322 795 9433

100% 100% +9.5% 14.2% 20.8% 66.1% 73.6% 79.1% 83.4%

Комбин. «Сред» П542 101S 85 147 212 7647 8509 803 9597

100% 100% +8.3% 14.5% 20.9% 66.3% 73.7% 79.1% 83.1%

Комбин. «Обог» 11466 1011 89 146 211 7565 8454 797 9547

100% 100% +8.8% 14.4% 20.9% 66.0% 73.7% 78.8% 83.3%

Все связи в простр. поиска Кол-во слов/ отнош. Кол-во обраб. предл. Анализ не пр., предл. Прис. разбор, предл. Прис. структ., предл Прис. отнош. Прис. связей. Прис. вершин предл.

12039 1037 63 293 439 8820 9736 846

100% 100% +6.1% 28.3% 42.3% 73.3% 80.9% 81.6%

Таблица 1. Данные только для оценки (~10% размеченного Уппсальского корпуса) с дополнительной информацией об о всех связях в пространстве поиска.

Колонки «правильно разобранные предложения» vs. «совпала структура в предложениях» отражают, соответственно, число деревьев которые совпали полностью vs. с точностью до типа отношения (отношений). Точно так же колонки «совпало отношений» vs. «совпало связей» показывают, соответственно, сколько отношений из структур, построенных лингвистическим процессором ЭТАП-3 совпали с отношениями рассматриваемого эталонного полкорпуса полностью vs. с точностью до типа отношения (колонка под названием Совп. связей). Именно на последнее число следует обращать особое внимание, поскольку его можно сравнивать с точностью автоматического синтаксического анализа для чешского (80%) и английского (91%).

Данные для новостного полкорпуса приводятся в таблице 2. Поскольку эти данные были хуже прочищены, количество предложений, которые не удалось проанализировать, возросло. Также резко упало количество структур и деревьев, правильно построенных как эвристическим, так и комбинированным алгоритмом разрешения неоднозначности. Результаты работы комбинированного и эвристического алгоритмов опять-таки не продемонстрировали существенных различий. В то же время на данном материале был зафиксирован рост количества правильно проведенных связей до 79-81%, и рост количества правильно выбранных связей, ведущих из вершины - до 84-86%. Среди возможных объяснений наблюдаемых различий на первом месте, по-видимому, находится жанровая принадлежность рассматриваемых текстов.

Тип анализа Кол-во слов/ отиош. Кол-во обраб. прешь Анализ не пр., предл. Прав, разбор, предл. Совп. структ., предл Совп. отнош. Совп. связей. Совп. вершин предл. Совп. морф., слов

Эврист. 26439 1598 176 110 185 19818 21524 1351 24402

100% 100% +11.1% 6.9% 11.6% 75 0% 81.4% 84.5% 92.3%

Комбкн. «Обедн» 24772 1529 245 94 160 17951 19686 1306 22648

100% 100% +16% 6.1% 10.5% 72.5% 79.5% 85.4% 91.4%

Комбин. «Сред» 24792 1532 242 91 159 17942 19662 1311 22640

100% 100% +15.8% 5.9% 10.4% 72.4% 79.3% 85.6% 91.3%

Комбин. «Обог» 24339 1498 276 99 160 17673 19335 1276 22201

100% 100% +18.4% 6.6% 10.7% 72.6 % 79.4% 85.2% 91.2%

Все СВЯЗИ 8 простр. поиска Кол-во слов/ отиощ. Кол-во обраб. предл. Анализ не пр., предл. Прис: разбор, предл. Прис. структ., предл Прис. отнош. Прис. связей. Прис. вершин предл.

26435 1598 176 432 777 22046 23693 1393

100% 100% +11.1% 27.0% 48.6% 83 4% 89.6% 87.2

Таблица 2. Данные новостного подкорпуса (yandex.ru, rbc.ru, polit.ru, lenta.ru, к т. д.) с дополнительной информацией об о всех связях в пространстве поиска.

Проведенное сравнение результатов работы комбинированного алгоритма синтаксического анализа с результатами работы эвристического алгоритма, действующего в лингвистическом процессоре по умолчанию, требовало прояснения причин, по которым в работе рассматриваемых алгоритмов не возникло существенных различий.

Среди возможных причин обнаруженного сходства в производительности эвристического и комбинированного алгоритмов, на наш взгляд, наиболее важными могли оказаться следующие:

- Объем аннотированного корпуса оказался недостаточным для получения статистических данных более значимых, чем эвристические правила.

- Применительно к новостному подкорпусу, жанр этих текстов заметно отличался от жанра текстов, на которых проводилось обучение.

- Внедрение статистических методов в систему оказалось недостаточно глубоким: в точке системы, где действует корпусная статистика, в пространстве поиска алгоритма синтаксического анализа содержится недостаточно гипотетических связей.

Последнее предположение, как представлялось, заслуживало первоочередной отработки. Настройка на чрезмерно жесткую фильтрацию связей в данной точке или в системе в целом в ходе разработки эвристического алгоритма анализа могла явиться своего рода компенсацией нехватки механизмов эффективного снятия синтаксической неоднозначности. Поэтому были запланированы и проведены работы по количественной оценке присутствия связей в интересующей нас точке системы посредством поиска эталонных связей корпуса во множестве всех гипотетических связей,

содержащихся в пространстве поиска алгоритма синтаксического анализа на момент применения экспериментального модуля.

Для проведения количественной оценки присутствия связей в точке системы после правил предпочтения был модифицирован программный комплекс по количественной оценке синтаксического комплекса лингвистического процессора ЭТАП-3, состоящий из программы StrEd и скрипта сравнения файлов разметки на языке Perl. В StrEd была добавлена возможность сохранять все гипотетические связи, содержащиеся в пространстве поиска алгоритма синтаксического анализа после применения правил предпочтения (на момент применения экспериментального модуля). В скрипт на языке Perl была встроена поддержка обновленного формата корпусных файлов. Для данного скрипта был также реализован поиск эталонных связей деревьев зависимостей корпуса во множестве сохраненных гипотетических связей.

С применением модифицированного программного комплекса были проведены эксперименты и получены результаты, которые приводятся в нижней части таблиц 1-2.

По результатам анализа не трудно видеть, что в интересующей нас точке системы отсутствует не менее чем семнадцать процентов связей. При этом нельзя не заметить, что это ведет к отсутствию полного набора связей для более чем половины предложений даже без учета типов синтаксических отношений. Количество же предложений, для которых теоретически возможно не только построить правильное дерево, но и корректно приписать все типы отношений, оказывается меньше тридцати процентов от общего числа предложений, которые удалось обработать. Любопытным является и тот факт, что количество правильных связей, ведущих из вершин деревьев, которые присутствуют в пространстве поиска, на материале Уппсальского корпуса немногим превышает восемьдесят процентов, и снизу приближается к девяноста процентам на материале новостного подкорпуса.

Новостной подкорпус в целом продемонстрировал особенно яркие результаты. Увеличение количества правильных связей в пространстре поиска в полной мере соответствует интуитивным ожиданиям от результатов анализа предложений новостных текстов с упрощенным «телеграфным» синтаксисом. В этом отношении новостные тексты существенно отличаются от Уппсальского корпуса, в котором значительную долю составляет художественная литература, на язык которой синтаксическая модель ЭТАПа не была рассчитана.

Однако рост количества связей, правильно выбираемых при разрешении неоднозначности, оказывается непропорциональным мылым по сравнению с ростом количества правильных связей в пространстве поиска. Таким образом, совершенствование разрешения неоднозначности в системе бесспорно является актуальной задачей, с решением которой предложенный комбинированный алгоритм в текущем виде справиться не помогает.

Задача, которая решалась в настоящем подразделе, связана с точкой, в которой уже применилась значительная часть стирающих связи фильтров. Чтобы получить представление о порождении связей в системе в целом, в перспективе следует применить разработанный инструментарий в точке, где заканчивается порождение связей, но их фильтрация еще не начата.

Кроме того, перспективным представляется проведение детального анализа подробного протокола результатов сравнения корпусных данных с данными, полученными в ходе работы синтаксического компонента лингвистического процессора. Такая работа поможет выявить конкретные правила, ответственные за чрезмерную фильтрацию гипотетических связей в пространстве поиска и добавить новые правила для генерации тех гипотез, которые в настоящее время вообще не порождаются системой.

Основные выводы и результаты работы

В настоящей работе была рассмотрена теория и практика создания и применения лингвистических корпусов с разметкой на основе грамматики зависимостей. Было показано, что в мире использование корпусов с разметкой на основе грамматики зависимостей в настоящее время рассматривается как перспективное направление. В то же время количество работ, ведущихся в этой области, достаточно ограниченно. Отчасти это связано с преимущественным положением грамматик составляющих, для которых по историческим причинам существуют более совершенные математические модели и алгоритмы. Другой причиной до недавнего времени являлось отсутствие корпуса с разметкой на основе грамматики зависимостей для популярного английского языка.

В центре настоящей работы находится первый корпус с синтаксической разметкой для русского языка, подготовленный в Лаборатории компьютерной лингвистики ИППИ РАН на материале Уппсальского корпуса современной русской прозы и новостных текстов с ведущих информационых веб-сайтов. Рассматривались его характеристики, вопросы, связанные с его созданием, а также программное обеспечение, реализованное для подготовки корпуса и его использования в экспериментах по усовершенствованию и оценке синтаксического компонента лингвистического процессора ЭТАП-3. Особое внимание было уделено эксперименту по разработке комбинированного алгоритма снятия синтаксической неоднозначности для лингвистического процессора ЭТАП-3.

Чтобы оценить результаты совместного использования правил предпочтения, системы приоритетов и вероятностных корпусных весов в созданном комбинированном алгоритме, была проведена качественная оценка работы синтаксического компонента лингвистического процессора с экспериментальным алгоритмом и без него. Однако ее результаты не были показательными, поскольку в одних случаях применение нового алгоритма

приводило к положительным результатам, в других - к отрицательным, а в третих - ничего не меняло.

Поэтому была проведена сравнительная количественная оценка с использованием корпуса. Поскольку на материале русского языка работа по количественной оценке алгоритмов синтаксического анализа проводилась впервые, на основе мировой практики в данной области были предложены принципы количественной оценки. Также был разработан необходимый программный комплекс.

Результаты количественной оценки показали, что использование экспериментального алгоритма разрешения синтаксической неоднозначности не приводило к существенным изменениям в работе синтаксического компонента лингвистического процессора. При этом показанная точность работы в 75-81% совпадает с результатами, полученными для зарубежных аналогов на материале чешского языка (80%), близкого к русскому по своему синтаксическому строению, хотя и отстает от результатов для английского (91%).

В ходе анализа результатов было решено провести дополнительные эксперименты. Целью одного из них стала количественная оценка присутствия эталонных связей корпуса в наборе гипотетических связей, находящихся в пространстве поиска алгоритма синтаксического анализа на момент применения экспериментального механизма приписывания корпусных весов.

Такой эксперимент для лингвистического процессора ЭТАП-3 ранее не проводился. Чтобы сделать его возможным, был модифицирован программный комплекс, ранее разработанный для обеспечения основного эксперимента по количественной оценке. Результаты рассматриваемого дополнительного эксперимента показали, что на момент применения механизма приписывания корпусных весов в пространстве поиска алгоритма синтаксического анализа отсутствовало от 10 до 26 процентов эталонных связей. В то же время, присутствовавших связей было достаточно, чтобы правильно построить синтаксическую структуру более 40 процентов предложений, в то время как на практике она строилась в лучшем случае для немногим более чем 20 процентов предложений.

В свете полученных результатов, перспективными видятся следующие задачи:

- Усовершенствование экспериментального алгоритма путем его тонкой настройки, а также его лексикализации.

- Увеличение объема размеченного корпуса с целью обеспечения большего покрытия языковых данных.

- Развитие фрагментного синтаксического анализа для преодоления существующих ограничений на использование современных методов синтаксического анализа.

- Использование полученного в ходе вышеописанных экспериментов массива данных о проблемах, возникающих при автоматическом синтаксическом анализе.

- Настройка синтаксического компонента лингвистического процессора ЭТАП-3 на порождение недостающих связей либо отключение механизмов их фильтрации, если окажется, что данные связи порождаются.

- Проведение регулярной количественной оценки синтаксического компонента лингвистического процессора и присутствия эталонных связей в пространстве поиска его алгоритма с целью поддержания положительной динамики в развитии синтаксического компонента процессора.

В заключение, обращаясь к корпусам с разметкой и корпусной лингвистике в целом, представляется важным отметить междисциплинарный характер этой области, в полной мере проявившийся в ходе работы, описанной в настоящей диссертации. Для лингвиста основное значение корпусов в том, что они дают более адекватный материал для формирования представлений о языке и их верификации, чем чистая интроспекция. С точки зрения психолога, она предоставляет уникальные данные для исследования человеческого мышления и поведения. В глазах специалиста по программированию, она является источником инструментов для разработки приложений. Однако лишь сотрудничество этих и других дисциплин делает возможным создание артефактов, расширяющих когнитивные возможности человека, которое является наиболее важным аспектом потенциала лингвистических корпусов с синтаксической разметкой.

Список работ, опубликованных по теме диссертации

Основное содержание диссертации и предлагаемые положения нашли отражение в следующих публикациях:

1. Богуславский И.М., Иомдин Л.Л., Сизов В.Г., Чардин И.С. Использование размеченного корпуса текстов при автоматическом синтаксическом анализе. // Международная конференция «Когнитивное моделирование в лингвистике». Варна, 1-7 сентября 2003, С. 39-49.

2. Чардин И.С. Лингвистические корпуса с синтаксической разметкой и их применение. // «Научно-техническая информация», Серия 2, № 6, ВИНИТИ, 2003, С. 18-25.

3. Чардин И.С. Использование аннотированного корпуса при снятии синтаксической неоднозначности в лингвистическом процессоре ЭТАП-3. // Материалы 2-ой Всероссийской конференции «Теория и практика речевых исследований» (ЛРСО-2001), Москва, 2001, С. 34-36.

4. Boguslavsky, I., Chardin, I., Grigorieva, S., Grigoriev, N., Iomdin, L., Kreidlin, L., and N. Frid. Development of a dependency treebank for Russian and its possible applications in NLP. // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-02), Las Palmas de Gran Canaria, Spain, 2002, pp. 852-856.

Подписано в печать 07.04.04 Формат 60 х 84 1/1 Усл. л л. 1.3 Тираж 100 экз. Зак. № 49 . Отпечатано в ФГУП "ПНИИИС"

щ-7б0?

Оглавление автор диссертации — кандидата филологических наук Чардин, Иван Сергеевич

1. Введение.

О проблематике и строении настоящей работы.

2. Корпусы с синтаксической разметкой и автоматический синтаксический анализ.

Общие замечания.

Лингвистические корпусы с синтаксической разметкой.

Характеристики.

Существующие корпусы.

Применение корпусов с синтаксической разметкой.

Стратегии разработки приложений автоматического синтаксического анализа и корпуса с синтаксической разметкой на основе грамматики зависимостей.

Количественная оценка программ автоматического синтаксического анализа на материале корпусов с синтаксической разметкой.

3. Корпус с синтаксической разметкой для русского языка.

Состав корпуса.

Уровни разметки.

Формат разметки.

Типы лингвистической информации.

Морфологическая информация.

Синтаксическая информация.

Разработка соглашений по разметке.

Программное обеспечение для подготовки корпуса и работы с ним.

Инструменты разметки.

Инструменты для сбора информации по корпусу.

4. Применение корпуса с разметкой при разрешении синтаксической неоднозначности в лингвистическом процессоре ЭТАП-3.

Проблема разрешения синтаксической неоднозначности в автоматической обработке текста.

Синтаксический компонент лингвистического процессора ЭТАП-3.

Предварительная обработка предложения и порождение гипотетических связей.

Разрешение синтаксической неоднозначности на основе правил.

Комбинированный алгоритм разрешения синтаксической неоднозначности для лингвистического процессора ЭТАП-3.

Реализация комбинированной стратегии обработки языковых данных как одно из направлений развития лингвистического процессора ЭТАП-3.

Комбинированный алгоритм разрешения синтаксической неоднозначности.

Архитектурные ограничения и альтернативные подходы.

Экспериментальный модуль для лингвистического процессора ЭТАП-3.

Наборы данных и их получение.

Качественная оценка комбинированного алгоритма.

5. Количественная оценка алгоритмов автоматического синтаксического анализа для русского языка.

Предлагаемые принципы оценки алгоритмов синтаксического анализа для русского языка.

Количественная оценка алгоритма синтаксического анализа лингвистического процессора ЭТАП-3.

Экспериментальные данные.

Программный комплекс.

Результаты оценки.

Анализ полученных результатов.

Эксперимент по установлению наличия синтаксических связей в пространстве поиска алгоритма синтаксического анализа.

Эксперимент по определению вклада правил предпочтения и корпусного модуля в работу алгоритма синтаксического анализа.

6. Результаты и перспективы.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Чардин, Иван Сергеевич

О проблематике и строении настоящей работы

С распространением персональных компьютеров и сетей передачи данных неуклонно растет потребность в системах автоматической обработки текстов и важность задачи их совершенствования. Получение новых результатов на этом направлении требует исследований, охватывающих целый ряд смежных областей информатики, лингвистики, психологии, математики и других дисциплин. Данная работа принадлежит к категории таких исследований. Ее центральная тема -лингвистические корпусы с синтаксической разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе*.

Область автоматической обработки текста сегодня сложно представить себе без лингвистических корпусов с разметкой. Это собрания языковых данных, для которых сформулирована и записана информация об их структуре. Базовая разметка для корпусов текстов, как правило, включает лемматическую Работа, положенная в основу настоящей диссертации, стала возможной благодаря грантам РФФИ № 01-06-80453, 01-07-90495. информацию и информацию о частеречной принадлежности слов (т.н. part of speech tagging). Для теоретико-синтаксических изысканий и в автоматическом синтаксическом анализе широко применяются корпуса с синтаксической разметкой.

Многие виды разметки требуют участия экспертов-лингвистов в подготовке корпуса. К ним относится и разметка синтаксическая, которая представляет собой особо трудоемкий вид разметки. Это связано с тем, что точность результатов предварительной автоматической синтаксической разметки далека от 100%, особенно при различении большого числа типов отношений.

Корпуса текстов с синтаксической разметкой широко применяются при создании современных алгоритмов автоматического синтаксического анализа и для количественной оценки их работы.

Алгоритмы автоматического синтаксического анализа применяются в таких классах приложений по автоматической обработке текста, как машинный перевод, поиск информации, системы общения с базами данных на естественном языке, системы автоматического аннотирования и реферирования, авторские системы и компьютерная проверка орфографии и пунктуации. Элементы синтаксического анализа все шире используются и в речевых технологиях (см., например, обсуждение в Кривнова, Чардин 1999).

Предлагаемая работа построена следующим образом. За настоящим введением следует обзорная глава 2, в которой рассказывается о лингвистических корпусах с синтаксической разметкой, перспективных методах в области автоматического синтаксического анализа, связанных с использованием этих корпусов, и предпринимается попытка осмысления этого научно-исследовательского направления в широком междисциплинарном контексте. При этом особое внимание уделяется корпусам с синтаксической разметкой на основе грамматики зависимостей. Подавляющее большинство исследований по автоматическому синтаксическому анализу за рубежом опирается на грамматики составляющих и корпусы, размеченные на их основе. Однако в последние годы все больше специалистов приходит к выводу, что использование грамматик зависимостей предоставляет более широкие возможности для разработки программ автоматического синтаксического анализа (например, Rosenfeld 2000). С этим связано использование этого типа грамматик в качестве основы при подготовке многих вновь создаваемых корпусов с разметкой (см., например, Rambow et al. 2002).

На материале русского языка электронных корпусов с синтаксической разметкой до самого последнего времени не существовало. Глава 3 посвящена первому такому корпусу для русского языка, подготовленному в Лаборатории компьютерной лингвистики Института Проблем Передачи Информации РАН под руководством проф. И.М. Богуславского при участии автора (Богуславский и др. 2002; Boguslavsky et al. 2002). Разметка корпуса, о котором идет речь, осуществлялась на основе грамматики зависимостей. Для синтаксических отношений помечались их типы в соответствии с подробной классификацией, которая основана на синтаксической модели, принятой в лингвистическом процессоре ЭТАП-3 (Апресян и др. 1989, Апресян и др. 1992). Данная модель, в свою очередь, базируется на поверхностно-синтаксическом компоненте модели «Смысл<=>Текст» (Мельчук 1974), практической реализацией которого она является. В главе 3 также рассказывается о некоторых инструментах для работы с корпусом, анализируется информация о строении синтаксических структур предложений на русском языке, полученная с использованием этих инструментов.

В главе 4 излагается разработанный автором алгоритм разрешения синтаксической неоднозначности с использованием корпусных данных для лингвистического процессора ЭТАП-3, который был реализован как отдельный экспериментальный модуль процессора. В этой связи рассматривается синтаксический компонент лингвистического процессора ЭТАП-3, затрагивается вопрос архитектурных ограничений на использование в нем корпусных данных, говорится о различных типах корпусных данных, собранных для обеспечения работы алгоритма.

Самостоятельная глава 5 посвящена проблеме количественной оценки программ автоматического синтаксического анализа. В ней впервые предлагаются принципы количественной оценки программ автоматического синтаксического анализа для русского языка, а также приводятся результаты экспериментов по количественной оценке синтаксического компонента лингвистического процессора ЭТАП-3. Кроме того, поскольку результаты работы процессора с экспериментальным модулем и без него не показали значительных различий, была предпринята серия оригинальных экспериментов по оценке порождения связей в системе.

Завершает работу глава 6, в которой обсуждаются полученные результаты, перспективы расширения и дальнейшего применения корпуса с синтаксической разметкой для русского языка, отечественные и мировые тенденции в данной области. и

Библиография Чардин, Иван Сергеевич, диссертация по теме Теоретические основы информатики

1. Апресян Ю.Д. Русская длительная конструкция: пределы ее формального описания // Words are Physicians for an Ailing Mind. Verlag Otto Sagner, Muenchen, 1991.

2. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л., Лазурский А.В., Митюшин Л.Г., Санников В.З., Цинман Л.Л. Лингвистический процессор для сложных информационных систем. Москва, Наука, 1992.

3. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л., Лазурский А.В., Перцов Н.В., Санников В.З. Цинман Л.Л. Лингвистическое обеспечение системы ЭТАП-2. Москва, Наука, 1989.

4. Арлазаров В. Л., Богданов Д. С., Паклин М. Л., Розанов А. О., Финкельштейн Ю. Л. Инструментальная система для исследования и обработки речевых сигналов и создания баз данных // Интеллектуальные технологии ввода и обработки информации.-М., 1998.

5. Арутюнова Н.Д. Синтаксис. // Общее языкознание: Внутренняя структура языка. Москва, Наука, 1972, с. 254-342.

6. Блумфилд Л. Язык. М, 1968.

7. Богуславский И.М. Сфера действия лексических единиц. Москва, Школа «Языки русской культуры», 1996.

8. Гвоздев А.Н. Об одной проблеме стилистики. // Очерки по стилистике русского языка. Изд. 3-е, М., 1965, с. 380-395.

9. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., Наука, 1985.

10. Григорьев Н.В. Восходящий алгоритм построения дерева зависимостей для системы ЭТАП-3 // Труды Международного семинара Диалог'99, с. 28-33, 1999.

11. Дрейзин Ф.А. Синтаксическая омонимия. // Машинный перевод и прикладная лингвистика, №9, 1966, с. 38-43.

12. Иомдин JI.JL, Сизов В.Г., Цинман JI.JL Использование эмпирических весов при синтаксическом анализе. // Труды конференции «Когнитивное моделирование в лингвистике», Дивногорск, Россия, 2001.

13. Иомдин Л.Л. Уроки русско-английского (из опыта работы системы машинного перевода) // Труды Международного семинара покомпьютерной лингвистике и её приложениям «Диалог-2002», Протвино, 2002.

14. Иорданская, JT.H. Свойства правильной синтаксической структуры и механизм ее обнаружения. // Проблемы кибернетики, вып. 11, 1964, с. 215-245.

15. Иорданская J1.H. Синтаксическая омонимия в русском языке (с точки зрения автоматического анализа и синтеза). // Научно-техническая информация, № 5, 1967, с. 19-17.

16. Кривнова О.Ф., Чардин И.С. Паузирование при автоматическом синтезе речи. // Материалы конференции «Теория и практика речевых исследований» (АРСО-99), Москва, 1999.

17. Мельчук И.А. Автоматический синтаксический анализ. 1. Внутрисегментный анализ. Новосибирск, Наука, 1964. 357 с.

18. Мельчук И.А. Опыт теории лингвистических моделей «Смысл<=>Текст». М., Наука, 1974. 314 с.

19. Митюшин, Л.Г. О высоковероятностных синтаксических связях. // Проблемы разработки формальной модели языка. Сер. «Вопросы кибернетики». Вып. 137. М., Научный совет по комплексной проблеме «Кибернетика» АН СССР, 1988. С. 145-174.

20. Никитина Т.Н. Грамматическая неоднозначность при автоматическом переводе с китайского языка на русский. // Научно-техническая информация, № 2, 1966, с. 30-34.

21. Падучева Е.В. О способах представления синтаксической структуры предложения // Вопросы языкознания, № 2, 1964.

22. Севбо И.П. Графические представления синтаксических структур и стилистическая диагностика. Киев, 1981.

23. Цейтин Г.С. Методы синтаксического анализа, использующие предпочтение языковых конструкций: модели и эксперименты. // Международный семинар по машинному переводу. М., ВЦП, 1975, С. 131-133.

24. Чардин И.С. Использование аннотированного корпуса при снятии синтаксической неоднозначности в лингвистическом процессоре ЭТАП-3. // Материалы 2-ой Всероссийской конференции «Теория и практика речевых исследований» (АРСО-2001), Москва, 2001.

25. Чардин И.С. Лингвистические корпуса с синтаксической разметкой и их применение. // Научно-техническая информация, №6, 2003, с. 18-25.

26. Abeille, A. and L. Clement. A tagged reference corpus for French. // LINC'99 Proceedings, EACL workshop, Bergen, 1999.

27. Abney, S. Stochastic attribute-value grammars. // The Computation and Language Eprint Archive, October 1996.

28. Black, E., Lafferty, J. and S. Roukos. Development and evaluation of a broad-coverage probabilistic grammar of English language computer manuals. In Proceedings of ACL-92, pp. 185-192, Newark, Delaware, 1992.

29. Blanchon, H. Interagir pour traduire: la TAO personnelle pour redacteur monolingue. // La Tribune des Industries de la Langues. Vol. 17-18-19,28-34,1995.

30. Bod, R. Enriching linguistics with statistics: performance models of natural language. ILLC Dissertation Series 1995-14. Academische Press, Amsterdam, 1995.

31. Bod, R. Beyond grammar: an experience-based theory of language. CSLI Publications / Cambridge University Press, 1998.

32. Boguslavsky I.M., Grigorieva S.A., Grigoriev N.V., Kreidlin L.G., Frid N.E. Dependency treebank for Russian: concepts, tools, types of information. // Proceedings of the 18th Conference on Computational Linguistics. Vol 2, 987-991, 2000, Saarbriicken.

33. Brants Th., Skut W., and H. Uszkoreit. Syntactic annotation of a German newspaper corpus. // Proceedings of the ATALA Treebank Workshop, Paris, France, 1999, pp. 69-76.

34. Brants, S., Dipper, S., Hansen, S., Lezius, W. and G. Smith. The . TIGER treebank. // Proceedings of the. Workshop on Treebanks and1.nguistic Theories. Sozopol, 2002.

35. Burnage, G. and D. Dunlop. Encoding the British nationaL corpus. Aarts et al. (Eds.) English language corpora: design, analysis and exploitation. Amsterdam, Rodopi, 1992, pp 79-95.

36. Carl M., Pease С., Streiter О., Iomdin L. Towards a dynamic linkage of example-based and rule-based machine translation // Machine Translation Journal, 15:3, September 2001, pp. 223-257.

37. Carrol, J., Minnen, G., and T. Briscoe. Corpus annotation for parser evaluation. // Proceedings of LINC-99 workshop at EACL-99, Bergen, Norway, June 1999.

38. Carroll, G. and E. Charniak. Two experiments on learning probabilistic dependency grammars from corpora. // Workshop Notes for Statistically-Based NLP Techniques. AAAI, 1992, pp. 1-13.

39. Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A., Zue, V., Varile, G., Zampolli A. (eds.) Survey of the state of the art in human language technology. Center for Spoken Language Understanding (CSLU), Carnegie Mellon University, Pittsburgh, PA, 1995.

40. Charniak, E. Treebank grammars. // Proceedings of the Thirteens National Conference on Artificial Intelligence (AAAI'96), pp. 10311036.

41. Charniak, E. Statistical parsing with a context-free grammar and word statistics. // Proceedings of AAAI'97, 1997, pp. 598-603.

42. Charniak, E. A maximum-entropy-inspired parser. // Proceedings of NAACL-2000, Seattle, 2000.

43. Collins, M.J. Three generative, lexicalised models for statistical parsing. In: Proceedings of ACL35/EACL8, 1997, pp. 16-23.

44. Collins, M.J., Hajic, J., Ramshaw, L. and C. Tillmann. A Statistical Parser for Czech. // Proceedings of ACL 99.

45. Fais, L. and Blanchon, H. Ambiguities in Task-oriented Dialogues. Proc. MIDDIM'96. Le col de porte, Isere, France. August 12-14, 1996. Vol. 1/1,263-275.

46. Hajic, J. Building a syntactically annotated corpus: the Prague dependency treebank. // Hajicova, E., (Ed.), Issues of Valency and Meaning Studies in Honour of Jarmila Panevova, pp. 106-132. Karolinum — Charles University Press, Prague, 1998.

47. Harnad, S. (1990). The Symbol Grounding Problem, Physica D 42, pp. 335-346.

48. Huang, C.-R., Chen, K.-J., Chen, F.-Y., Chen, K.-J., Gao, Z.-M., Chen, K.-Y. Sinica treebank: design criteria, annotation guidelines, and online interface. // Proceedings of 2nd Chinese Language Processing Workshop/ ACL-2000, Hong Kong, 2000, p. 29-37.

49. Iomdin L., Sizov V., Tsinman L. (2002). Utilisation des poids empiriques dans l'analyse syntaxique: une application en Traduction Automatique // META, vol. 47, No 3. P. 351-358.

50. Jarvinen, T. Bank of English and beyond. // A. Abeille (Ed.) Treebanks: building and using syntactically annotated corpora. Kluwer Academic Publishers, 2003.

51. Johansson, S., Leech, G. and Goodluck, H. Manual of information to accompany the Lancaster-Olso/Bergen corpus of British English, for use with digital computers. Department of English, University of Oslo, 1978

52. Kanayama, H, Torisawa, K., Mitsuishi, Y., and J. Tsujii. A hybrid Japanese parser with hand-crafted grammar and statistics. // In the Proceedings of the 18th International Conference on Computational Linguistics, 2000.

53. Kuno S., Oettinger A. Syntactic structure and ambiguity of English. // Proceedings of Fall Joint Computer Conference, 1963.

54. Kurohashi, S. and M. Nagao. Building a Japanese parsed corpus. // A. Abeille (Ed.) Treebanks: building and using syntactically annotated corpora. Kluwer Academic Publishers, 2003.

55. Lin, D. A Dependency-based method for evaluating broad-coverage parsers. // Proceedings of IJCAI-95.

56. Lonngren, L. (Ed.) Chastotnyj slovar' sovremennogo russkogo jazyka. Acta Universitatis Upsaliensis, Studia Slavica Upsaliensia 32. Uppsala, 1993.

57. Lin, D. A dependency-based method for evaluating broad-coverageiLparsers. // Proceedings of the 14 International Joint Conference on Artificial Intelligence, Montreal, Canada, 1995, p. 1420-1425.

58. Manning, C.D. and H. Schiitze. Foundations of statistical natural language processing. Cambridge, MA, MIT Press, 1999.

59. Marciniak, M., Mykowiecka, A., Przepiorkowski, A., and A. Kupsc. An HPSG-annotated test suit for Polish. // A. Abeille (Ed.) Treebanks: building and using syntactically annotated corpora. Kluwer Academic Publishers, 2003.

60. Marcus M.P., Santorini В., and Marcinkiewicz M.-A. Building a large annotated corpus of English: The Penn Treebank. Computational Linguistics, Vol. 19, No. 2., 1993.

61. Marcus M.P., G. Kim, M. Marcinkiewicz, R. Maclntyre, A. Bies, M. Ferguson, K. Katz and B. Schasberger. The Penn treebank: annotating predicate argument structure. // ARPA Human Language Technology Workshop. 1994.

62. Mel'cuk, I. Dependency syntax: theory and practice. Albany, NY, SUNY Press, 1988.

63. Moreno, A., Grishman, R., Lpez, S., Sanchez, F., and S. Sekine. A treebank of Spanish and its application to parsing, Proceedings of the Second International Conference on Language Resources and Evaluation (LREC), Athens, 2000, p. 107-111.

64. Nelson, G. Wallis, S. and B. Aarts. Exploring natural language: working with the British component of the International Corpus of English. Amsterdam, John Benjamins, 2002.

65. Oflazer, K., Say, В., Hakkani-Tur, D.Z., and G. Tiir. Building a Turkish treebank. In: A. Abeille (Ed.) Treebanks: building and using syntactically annotated corpora. Kluwer Academic Publishers, 2003.

66. Oepen, S., D. Flickinger, H. Uszkoreit, J.-I. Tsujii. Introduction to this Special Issue. In: Natural Language Engineering. Special Issue on Efficient Processing with HPSG: Methods, Systems, Evaluation. 6 (1), 1-14, 2000.

67. Paskin, M.A. Grammatical bigrams. // T. Dietterich, S. Becker, and Z. Gharahmani (Eds.), Advances in Neural Information Processing Systems 14. Cambridge, MA, MIT Press, 2001.

68. Pericliev, V. 1984. Handling syntactical ambiguity in machine translation. // Proceedings of the 10th International Conference on Computational Linguistics (COLING-84), Stanford, California, August 1984, pp. 521-524.

69. Rambow, O., Creswell, C., Szekely, R., Tauber, H., and M. Walker. A Dependency Treebank for English. // Proceedings of the Third International Conference on Language Resources and Evaluation. Las Palamas, Spain, 2002.

70. Ratnaparkhi, A. A linear observed time statistical parser based on maximum entropy models. // Proc. the Empirical Methods in Natural Language Processing Conference, 1997.

71. Rosenfeld, R. Two decades of statistical language modeling: where do we go from here? // Proceedings of the IEEE, 88(8), 2000.

72. Sampson, G. The grammatical database and parsing scheme. In: R. Garside, G. Leech and G. Sampson (Eds.) The computational analysis of English: a corpus-based approach. London, Longman, 1987.

73. Sampson, G. English for the Computer: The Susanne corpus and analytic scheme. Clarendon Press, Oxford, 1995.

74. Say gin, A.P., Cicekli, I., Akman, V.Turing test: 50 years later. // Minds and Machines, 10, Kluwer Academic Publishers, 2000, pp. 463-518.

75. SchabeSi Y. Stochastic lexicalized tree-adjoining grammars. // Proc. 14th COLING, 1992, pp. 426-432.

76. Searle, J.R. Is the brain's mind a computer program? // Scientific American 3(262), 1990, pp. 26-31.

77. Streiter O., Iomdin L., Carl M. A virtual machine for hybrid machine translation. // Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000». Протвино, т. 2, с. 382-393, 2000.

78. Streiter О., Iomdin L., Sagalova I. Learning lessons from bilingual corpora: benefits for machine translation. // International Journal of Corpus Linguistics. Vol. 5(2), 2000, pp. 199-230.

79. Tesniere, L. Elements de syntaxe structurale. Paris, 1959.

80. Turing, A. Computing machinery and intelligence. // Mind, 59(236), 1950, pp. 433-460.

81. Van der Beek L., Bouma G., Malouf R., van Noord G. (2001), The Alpino dependency treebank. // Proceedings of LINC-2001.

82. Yuret, D. Discovery of linguistic relations using lexical attraction. Ph.D. thesis, MIT, 1998.

83. Zeman, D. A statistical approach to parsing of Czech. // Prague Bulletin of Mathematical Linguistics, Univerzita Karlova, Praha, vol. 69, 1998, pp. 29-37.