автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Синтаксический анализатор адаптивной системы общения человека с ЭВМ на естественном языке
Автореферат диссертации по теме "Синтаксический анализатор адаптивной системы общения человека с ЭВМ на естественном языке"
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М. В. ЛОМОНОСОВА
Факультет ^вычислительной математики и кибернетики
2 Ц ОКТ I Г'; На правах рукописи
Полякова Ирина Николаевна
УДК 519. 68
СИНТАКСИЧЕСКИЙ АНАЛИЗАТОР АДАПТИВНОЙ СИСТЕМЫ БЩЕНИЯ ЧЕЛОВЕКА С ЭВМ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ. ПУНКТУАЦИОННЫЙ КОМПОНЕНТ
Специальность: 05. 13. 11—математическое и программное обеспечение вычислительных машин, комплексов, систем и сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
Москва—1994
Работа выполнена на кафедре алгоритмических языков факульте: вычислительной математики и кибернетики Московски государственного университета имени М.В.Ломоносова
Научные руководители:
доктор физико-математических наук,
профессор „М.Г.МАЛЬКОВСКЙ
кандидат физико-математических наук И.А.ВОЛКОВА
Официальные оппоненты:
доктор физико-математических наук,
профессор Э.З.ЛЮЕИМСКИЙ
кандидат физико-математических наук С.П.ПРОХОРОВ
Ведущая организация: Институт системного анализа РАН
(г.Москва)
Защита диссертации состоится dd ígg ízf г.
j / ¿o ...... . »
в — Д — часов на заседании специализированного Сове'
Д.053.05.38 N 4 по математике при- МГУ им. М.В.Ломоносова i
.адресу: 119899, ГСП, Москва В-234, Воробьевы горы, МГУ; факульт<
вычислительной математики и кибернетики, аудитория 685.
С диссертацией можно ознакомиться в библиотеке факульте: вычислительной математики и кибернетики МГУ.
Автореферат разослан " "___199 г.
Ученый секретарь специализированного Совета профессор
Н.П.Трифонов
ОВДАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность теми. Задача машинной обработки текстов на стественном языке (ЕЯ) возникла с появлением ЭВМ. Хотя ЭВМ ©вдавались в основном для вычислительных работ, вскоре после их оявления стали предприниматься попытки использования их для бработки символьной и текстовой информации. Весьма важная роль ринадлежит здесь программным средствам обработки текстов, редставленных на теш или ином ЕЯ - системам общения человека с ОМ на ЕЯ (ЕЯ-системам). Для анализа реальных (а не кспериментальных) текстов необходимы адаптивные ЕЯ-системы, способные настраиваться на конкретного пользователя и предметную власть • (ПО), а также обрабатывать языковые конструкции, юрмально противоречащие лингвистическим знаниям системы.
Важным компонентом ЕЯ-систем является синтаксический анализатор (СА). Однако практически во всех существующих в [астоящее время СА не используются пунктуационные знания (как [равило, иа-за отсутствия достаточно полного формализованного (писания пунктуации). СА либо рассчитаны на анализ только [унктуационно правильных цепочек словоформ, либо обнаруживают сишь некоторые типы ошибок, выявляемые обычно с помощью шаблонов [а основе ключевых служебных слов. При наличии же в >брабатыЬаемом тексте пунктуационных ошибок анализатор не может [рсизвести разбор предложения или, "не понимая" ошибочности [редлохения, получает формально приемлемую, но по сути неверную штерпретацию. (При этом никаких сообщений об ошибках не юступает.) Очевидно, что перспективные ЕЯ-системы должны быть »снащены полноценными моделями пунктуации и соответствующими Программными средствами.
Основная цель работы состоит в разработке целостного подхода с решению проблемы использования пунктуационных знаний яштаксическим анализатором в составе различных ЕЯ-систем, 'ешение данной задачи предполагает:
- разработку для ЕЯ-систем методики построения формализованной модели системы пунктуационных правил;
- разработку алгоритмов, осуществляющих выявление и ооррекцию пунктуационных ошибок в анализируемых текстах;
- проверку предложенного подхода путем построения . открытой (т.е. -предусматривающей возможность ее пополнения и коррекции)
модели пунктуации русского языка, а также создание на ее основе программно реализованного пунктуационного компонента СА для адаптивных ЕЯ-систем различного назначения!
Научная новизна. В диссертации предлагается новая методика построения формализованной модели системы пунктуационных правив. На основе данной методики описывается достаточно полная (полнота понимается как с точки зрения - объема учитываемых языковых явлений, так и с точки зрения лингвистической обоснованности) модель пунктуации русского языка. Разработка модели в рамках задачи создания адаптивных ЕЯ-систем позволяет естественник образом учитывать высокую вариативность пунктуации факт, .существенно ограничивающий возможности традиционного (неадаптивного) подхода. Построенная модель используется для •создания пунктуационного компонента СА, способного адаптироваться к особенностям употребления знаков препинания в ■ анализируемых текстах различной * функционально-стилевой принадлежности. Для реализации указанного компонента разработаны новые адаптивные алгоритмы пунктуационного контроля текста.- Принципиально важным . моментом является также сочетание , полноты лингвистического обеспечения с полнотой программной реализации.
Практическая значимость. Согласно разработанной £ диссертации методике построены модель пунктуации русского языка и лингвистическая база данных, описывающая систему правил русской пунктуации. Предлагаемый в работе пунктуационный компонент СА, соаданный на их основе, используется на кафедре алгоритмических языков факультета ВМиК, - МГУ в составе СА ЛП АДАМАНТ к интеллектуальной системы комплексного .контроля и редактирования русскоязычных текстов ЛИНАР, а также в Институте системного анализа РАН. На базе полученного компонента разработаны к программно реализованы модельные версии (исследовательские прототипы) некоторых прикладных систем - система, обучающая пунктуации русского языка, и адаптивная система СИПКО, осуществляющая пунктуационный контроль русскоязычных текстов.
: Результаты диссертации могут быть использованы при разработке ЕЯ-систем различного назначения, в которых необходимы пунктуационные знания о языке - систем автоматизированного обучения, автоматического перевода, автоматизации лингвистических исследований и редакционно-издательскрй деятельности, определения авторства текста (путем выявления характерных пунктуационных
ошибок автора), распознавания звучащей речи.
Достоверность результатов. На основе предложенной методики описаны модели пунктуации не только русского, но и английского языков. Это подтверждает возможность ее применения к описанию пунктуации различных ЕЯ, имеющих свои особенности и характерные черты. Достоверность результатов также подтверждается-использованием описанной пунктуационной модели и разработанного пунктуационного компонента в конкретных программных средствах (СИПКО, система обучения пунктуации русского языка), а также в составе адаптивных ЕЯ-систем различного назначения (АДАМАНТ, ЛИНАР и др.).
Апробация. Результаты диссертации докладывались на городском семинаре по автоматизации программирования, а также на научных семинарах в Институте системного анализа РАН и МГУ им. Ц. В.Ломоносова.
Публикации. По теме диссертации опубликована одна работа, достаточно полно отражающая основные научные результаты диссертации.
Структура и объем диссертационной работа. Диссертация состоит иа введения, четырех глав, заключения, списка литературы, включающего 67 названий, и приложений. Основной (без приложений) текст занимает 126 машинописных страниц.
СОДЕРЖАНИЕ РАБОТЫ
Во введении приводится постановка задачи, раскрывается тема диссертации, показываются ее научная новизна и актуальность, приводится обзор работ, посвященных синтаксическому аспекту проблемы взаимодействия . человека с ЭВМ на ЕЯ, характеризуется место работы среди исследований по автоматическому анализу текста.
В первой главе описывается методика построения формализованной модели системы пунктуационных правил по лингвистическим и текстовым источникам, рассматривается построенная на основе этой методики модель пунктуации русского языка, приводятся необходимые для данного исследования сведения о русской пунктуации.
Предлагаемая модель русской пунктуации разработана на основе данных, содержащихся в справочниках и пособиях по пунктуации, которые опираются на действующие "Правила русской орфографии и
пунктуации" (195бг). Модель является моделью открытой предусматривающей возможность ее пополнения и коррекции. Основньг базовые пунктуационные знания включают в себя достаточно полное описание множества пунктуационных правил русского языка. Полнот; и корректность этих базовых знаний является основой достиженк устойчивости и эффективности программных средств, реализованны на основе данной модели.
В п.1.1 дается определение пунктуации и раскрывается е> назначение. Современная пунктуация - сложная, историческ сложившаяся система. Термин пунктуация двузначен. Он означает во-первых, собрание правил расстановки знаков препинания и •во-вторых, сами знаки препинания, используемые в письменной реч для указания на ее расчленение.
В п.1.2 предлагается обзор истории развития пунктуации Подробно рассматриваются все три основных направления в истори: русской пунктуации: формально-грамматическое, смысловое I интонационное.
В п.1.3 рассматривается роль знаков препинания в текста различной функционально-стилевой принадлежности. В работа ' детально рассматриваются особенности пунктуации, присущи' научному, научно-популярному, официально-деловому
публицистическому, художественному и разговорному стилям, т.к предлагаемая система рассчитана на работу с текстами различны: стилей. Поэтому необходима конкретизация общих положени пунктуационных правил, детальное рассмотрение разнообразны: случаев их практического применения, разумное упорядочивав» правил и их регламентация. '
В п.п.1.4-1.13 подробно • рассматриваются разработанньи критерии формализации системы пунктуационных правил, описывает» сформированная на основе полученных результатов модель пункту аци: русского языка. Предлагаемая модель русской пунктуации построен, в соответствии с разработанной методикой на основ« лингвистических и текстовых источников. Сформулированные 1 грамматиках правила устанавливают степень их адекватнося объективным закономерностям, отраженным в текстах. Текстовый ж« материал позволяет устанавливать характер реализации правил 1 текстах, обнаруживать случаи, не предусмотренные правилами, анализировать причину отступления от правил и т.п.. что очею важно для полноты и корректности опискваеыой модели.
Все рассматриваемое множество правил русской пунктуации разбивается по разным критериям на различные группы несовпадающего состава, подчас пересекающиеся, с различным соотношением правил внутри групп. Всего выделено семь основных критериев.
Первый критерий делит правила на выявляющие лишние знаки и выявляющие пропуск знаков. Такая классификация согласуется с разработанными лингвистами типами отклонения от пунктуационных норм.
Согласно второму критерию исходное множество делится на правила, в которых говорится об отделении синтаксических элементов друг от друга, и на правила, в которых говорится о выделении в тексте границ синтаксической структуры, выявлении ее девой и правой границы. В работе подробно рассматриваются отделяющие (точка, запятая, двоеточие и т.д.) и выделяющие (две запятые, скобки и т. д.) знаки и их функции в текстах. Различение отделяющей и выделяющей роли знаков пунктуации очень важно, поскольку в формулировках пунктуационных правил в первую очередь учитываются именно эти их общие функции.
При этом отделяющие правила обычно оперируют с одним знаком препинания, который и отделяет одну синтаксическую структуру от другой. Выделяющие же правила оперируют с парными знаками препинания. Для таких правил можно говорить о сильной позиции (когда выделяющая структура находится в середине предложения) и о слабой позиции (когда она находится в начале или конце предложения). В случае слабой позиции происходит поглощение первого или второго элемента выделяющего парного знака.
Третий критерий разбивает рассматриваемое множество на правила, в которых говорится об обязательном употреблении (или -неупотреблении) знаков пунктуации, на правила, носящие рекомендательный характер в отношении постановки пунктуационных, знаков (во всех этих правилах наличие или отсутствие знаков диктуется собственным строением предложения и имеет грамматическое основание), и на факультативные правила, в которых употребление знаков обычно зависит от оттенков значений и интонационных нюансов текста.
Рассмотренные три критерия непосредственно отражают лингвистические, аспекты правил русской пунктуации. Следующие же критерии связаны, скорее, с особенностями разработанных
алгоритмов пунктуационного контроля. Согласно четвертому критерию выделяются правила, проверку которых можно осуществить бев обращения к программам морфологического и синтаксического анализа на основе специально разработанных' алгоритмов локальногс анализа, и правила, для проверки которых необходимы либс результаты работы морфологического анализатора, либо результата работы синтаксического анализатора, либо знание семантики, либс знание интонации, либо внание сразу нескольких этих компонентов.
Следующий, пятый критерий все множество правил делит пс принципу организации алгоритмов их программной реализации. Одни алгоритмы при работе используют ключевые (обычно служебные) слова .(на основе рассматриваемых правил составлен список ключевых слов, применяемых для проверки анализируемых текстов), другие - толькс некоторую другую информацию (наличие причастного или 'деепричастного оборотов в анализируемом предложении, наличие повторяющихся слов в данном предложении и т.д.).
Шестой критерий выделяет правила, при проверке которых ошибка локализуется, и правила, при проверке которых указывается лишь фрагмент предложения, где допущена пунктуационная ошибка.
Последний же, седьмой критерий разбивает рассматриваемо« множество правил в зависимости от возможности или невозможности алгоритма, реализующего проверку данного правила, находить я исправлять пунктуационные ошибки в автоматическом режиме. Например, комплекс программ, осуществляющий контроль зе постановкой знаков препинания при вводных словах, не может работать полностью в автоматическом режиме, т.к. большинство вводных слов в некоторых ' контекстах может выступать и в роли значимого члена предложения. Например: "За тем лесом виднс озеро" ("ввдно" в значении виднеется) и "За тем лесом, видно, озеро" ("видно" в значении по-видимому). Для разграничения этих случаев и необходима уточняющая инормация, которая не может быть получена в автоматическом режиме.
Итак, на основе предложенных критериев образовалось несколько различных, пересекающихся по составу, групп правил. Каждому правилу, согласно рассмотренным критериям, сопоставлен некоторый набор характеристик. Объединим в классы правила, у которых совпадают все учитываемые характеристики. Всего получается 95 таких различных непустых классов. Таким образом, описываемая пунктуационная модель 'русского языка состоит
¡о 95 классов правил, в каждый из которых входит набор правил, имеющих одинаковый набор учитываемых характеристик.
П.1.14 посвящен сравнительному анализу пунктуации английского, и русского языков. Описывается разработанная на эснове полученных результатов и предложенной методики формальная иодель пунктуации английского языка.
Во второй главе рассматривается разработанный и программно реализованный на основе полной открытой модели пунктуации русского языка пунктуационный компонент СА русскоязычных текстов (СПК), описываются алгоритмы пунктуационного контроля текста.
Предлагаемый пунктуационный компонент состоит из 95 основных программных модулей и некоторых вспомогательных программ, юзволяющих осуществлять его адаптивные (см. Гл.З) функции, а также функции помощи пользователю при обнаружении и исправлении эшибок в анализируемых текстах. Рассматриваемый компонент гостроен таким образом, чтобы, обеспечить возможность работы средств адаптации и, при необходимости, введения новых правил тунктуации. Открытость СПК - одна из важных предпосылок его устойчивости к различного рода отклонениям пользователей от тунктуационных знаний системы. При работе с СПК возможна газтапная компановка - одновременно можно использовать любое количество программных модулей, выбирая их при этом по любому признаку. Это позволяет оценивать, качество текста с точки зрения различных категорий пользователей. Предлагаемый компонент может работать как в составе СА, так и в качестве "препроцессора" тунктуационного контроля и коррекции русскоязычных текстов.
В п.2.1 рассматриваются вопросы реализации основных программных модулей. Программно реализована основная (около 902) 1асть алгоритмов, осуществляющих проверку рассматриваемых правил зусской пунктуации. Оставшаяся же часть алгоритмов либо не может 5ыть пока реализована в виде программ из-за отсутствия в 1астоящее время необходимой программной поддержки со стороны ЛП [например - некоторых программ семантического уровня), либо их эеализация эргономически нецелесообразна (так как работа данных алгоритмов должна сопровождаться слишком частыми обращениями к геловеку за информацией, требующей специальных лингвистических знаний). Но для некоторых таких правил в виде программ »авизованы их. частные случаи. Например - проверка пропуска гапятой; закрывающей обособленный причастный оборот (что, кстати.
является весьма распространенной ошибкой).
В п.2.2 анализируется возможность реализации алгоритмов пунктуационного контроля бее обращения к мощным лингвистическим процессорам (ЛП). Зля многих правил,''' при проверке которых требуется внание результатов работы ЛП. в результате проведенных исследований алгоритмы пунктуационного контроля специально разработаны таким образом, что стала возможной программная реализация этих алгоритмов и вне ЛП с помощью встроенных в СПК средств локального анализа. Возможность реализации контроля за правильным употреблением 86,72 рассматриваемых правил бее обращения к ЛП значительно сокращает время обработки текста .практически бев потери качества проверки, повышает надежность рассматриваемого пунктуационного компонента, говорит о его высокой мобильности.
В п.п.2.3-2.4 рассматриваются режимы работы СПК. Предлагаются два режима работы - диалоговый и пакетный. В диалоговом режиме СПК, обрабатывая текст, "обсуждает" найденные ошибки и сомнительные места с пользователем и, при его согласии на исправление обнаруженных шибок, исправляет их. При этом - система может не только обнаруживать неточности, ошибки, но и объяснять пользователю суть своих замечаний, предлагать способы устранения шибок. Такие рекомендации призваны помочь польвователю в улучшении текста, направляют его деятельность. Лля этих целей разработан вспомогательный блок HELP, который может быть вызван при работе любого основного программного модуля и при помощи которого пользователь может уточнить замечания системы, просмотреть необходимые компоненты лингвистической базы данных (ЛЕД) - тексты правил, примеры нормативного употребления тех или иных языковых конструкций.
Однако при обработке большого по объему текста сеанс работы с ЭВМ может быть очень длительным. И вдесь более удобным мажет иногда оказаться пакетный режим, когда система обрабатывает текст, составляет протокол замечаний, в который заносятся все замеченные пунктуационные ошибки и неточности с объяснениями и рекомендациями, и выдает протокол польвователю. Возможность самостоятельно исправлять те или иные ошибки для указанного режима зависит от степени полномочий, при выборе которой обычно учитываются отредактированное« вводимого текста, вероятность появления в тексте ошибок, типичные для очередного автора речевые ошибки, серьевность последствий и сама допустимость неправильного
«оправления ошибки и т.д.
В п.2.5 приводятся схемы работы пунктуационного компонента в (налоговом и пакетном режимах.
В п.2.6 дано полное описание работы предлагаемого компонента ЗА. Версия реализована для ПЭВМ (IBM PC AT 386/486, MS DOS) на гзыке PLANNER PC.
В п.2.6.1 приводится разработанный общий алгоритм проверки гунктуационных правил (хотя, естественно, в каждом алгоритме есть :воя специфика, "изюминка", отражающая особенности конкретных, >ассматриваемых именно этим алгоритмом, правил пунктуации jyccworo языка).
П.2.6.2 посвящен дополнительным составляющим ЛВД, геобходимым для работы основных программных модулей. На основе шогочисленных текстовых и специальных лингвистических источников »ставлены и введены в ЛЕД:
- Список наиболее употребительных подчинительных союзов и кжэных слов (включает более 200 союзов);
- Список наиболее употребительных междометий и шукоподражательных слов (включает более 150 слов);
- Список предлогов (включает более 90 предлогов);
- Список наиболее распространенных устойчивых сочетаний с ююзом КАК (включает более 90 сочетаний);
- Список вводных слов (включает более 340 слов).
Указанные списки позволяют СПК во многих случаях без
вращения к ЛП (например, за определением части речи, члена редложения) быстро и эффективно осуществлять проверку равильности применения многих пунктуационных правил.
В п.2.6.3 подробно описаны 95 основных программных модулей, существляющих проверку правил рассматриваемой модели. На вход юбого программного модуля поступает анализируемое предложение. В езультате получаем предложение, проверенное относительно аложенных в данный модуль правил.
Все описанные в работе алгоритмы разработаны таким образом, то практически исключается ошибочное "пересечение области ействия" различных правил. Также необходимо отметить» что лгоритмы проверки выделяющих правил разработаны таким образом, то отсутствие (или наличие) левого и правого выделяющего знака роверяется отдельно, т.к. часто встречается ошибочная постановка или - отсутствие) только одного (чаще правого) выделяющего
ввака. При этой другой (чаще левый) выделяющий знак поставлен (или отсутствует) правильно.
В третьей главе рассматривается необходимость и способы адаптации пунктуационного компонента к незнакомым ему пунктуационным ситуациям и индивидуальным особенностям автора текста в употреблении вЬаков препинания, описываются пунктуационные метазнания и алгоритмы, осуществляющие адаптивные возможности СПК.
Оснащение предлагаемого компонента средствами адаптации обеспечивает его готовность к обработке реальных (а не только экспериментальных) текстов, а также максимальные удобства для человека - пользователя системы. (Пользователем может быть автор проверяемого текста, редактор, готовящий текст к печати, ученик, изучающий правила постановки знаков препинания и т.д.) СПК учитывает возможность несовпадения знаний человека и системы о пунктуации русского языка, несоответствия используемых человеком языковых знаний общим нормам языка, зависимость процесса общения от контекстной деятельности человека.. Механизмы адаптации работают параллельно с аналивом текста (соответствующие процедуры вызываются при возникновении "конфликтных" ситуаций).
В п.3.1 подробно анализируются ситуации, при возникновении которых вызывается блокяэыковой адаптации, и причины, которые могут привести к данным "конфликтам".
Появление "конфликтной" ситуации мажет быть вызвано употреблением недопустимого для рассматриваемого случая знака препинания - несоответствием пунктуационной ситуации и структурно -системных свойств знака (отклонением от пунктуационной нормы). Обычно это бывают случайные шибки, допущенные при невнимательном переписывании текста, при вводе его в компьютер (например, двоеточие между однородными членами).
Вызвать "конфликтную" ситуацио может и употребление допустимого для данной ситуации знака препинания. В некоторых случаях в одном и том же значении, иногда с небольшими различиями в опенках, могут употребляться разные знаки препинания. И в втоы, пожалуй, находит самое наглядное выражение гибкость русской пунктуационной системы - возможность широкого выбора ив равноценных (но не тождественных, так как ^Зсолютншс пунктуационных синонимов не бывает) вариантов нужного в каждом, конкретном случае. Однако варианты в употреблении знаков
допустимы лишь при условии сохранения взаимопонимания пишущего и читающего. Такая "вариативная" пунктуация отражает понятие "колебание" в современной русской пунктуации.
Рассматриваемый знак может быть и авторским знаком препинания. В принципе, термин "авторская пунктуация" допускает двоякое толкование., С одной стороны, под этим термином понимаются особенности пунктуационного оформления текстов, носящие индивидуальный характер, присущие тому или иному писателю (набор применяемых им знаков, преимущественное использование одного из них, расширение функции этого знака). С другой стороны, указанный термин трактуется как особое применение знаков препинания в текстах, не подпадающее под принятые правила, но оправданное стилем, жанром, контекстом произведения. Но так как предлагаемый СПК ориентирован на анализ текстов различных жанров, эти особенности также необходимо учитывать.
В предлагаемом пунктуационном компоненте авторские знаки рассматриваются (и это представляется целесообразным) в обоих аспектах, т.к. четкую границу между этими двумя толкованиями провести довольно трудно. Причем СПК запоминает ситуации, в которых встречались авторские знаки (например, оборот "вместе взятые" выделен с помощью двух тире, а не двух запятых) и может, с согласия пользователя, при дальнейшем анализе данного текста уже автоматически (без обращения к пользователю) рассматривать этот знак как авторский.
Говоря об "авторских" знаках пунктуации, нельзя не отметить и такой аспект в развитии русской пунктуации как изменяемость значений знаков препинания и в смысле количественном (увеличивается число внаков). и в смысле качественном (меняется значение знаков), т.к. это явление, отражая нормы и традиции своего времени, влияние издательской практики своей зпохи, значительно увеличивает количество авторских внаков препинания даже в научных и официально-деловых текстах, где, как правило, настоящих авторских знаков не очень много. Для характеристики изменений, которые произошли и, что очень важно, происходят в пунктуации, в работе проведено сопоставление употребления знаков препинания в разные исторические зпохи.
Таким образом, в разработанном пунктуационном компоненте СА предусмотрена возможность учета индивидуальных языковых особенностей конкретного автора текста, предметной области (ПО).
- и -
В п.3.2 описываются метазнания, испольвуемые при адаптация СОК. Обращение к метазнаниям происходит, когда с помощью наличных пунктуационных внаний описываемый компонент не может продолжить анализ сообщения. В пунктуационные метазнания входят:
- описания учитываемых типов конфликтов (пропуск 8нака препинания в ситуациях, - где его наличие предусмотрено правилом; наличие не того внака препинания, который предусмотрен в данной ситуации пунктуационным правилом; наличие пунктуационного знака в ситуации, в которой правилом постановка внака препинания вообще не предусмотрена);
- описание причин конфликтов и способов их устранения (для каждого правила, включенного в разработанную ЛЕД русской пунктуации, на основе изучения . достаточно большого количества специальных лингвистических и текстовых источников выявлены и описаны "допустимые", "авторские" и "недопустимые" знаки препинания);
- процедурные метазнания, непосредственно реализующие действия СОК по устранению конфликта.
При этом принципиально важно, что метазнания позволяют набежать слишком частых обращений к пользователю за разъяснениями. В то же время сама возможность такого обращения гарантирует работоспособность системы ив тех случаях, когда метазнаний недостаточно для автоматического определения типа незнакомого объекта (метазнания позволяют найти конфликт, а решение его предусматривает "помощь пользователя).
П.3.3 посвящен описанию работы блока языковой адаптации. Предусмотрено два типа режима адаптации: неавтоматический - когда анализируются все недопустимые, авторские и допустимые (но не характерные) для рассматриваемой ситуации внаки препинания и автоматический - когда авторские и допустимые знаки препинания сразу рассматриваются как правильное употребление знака препинания. Установка значений параметров. управляющих адаптивными возможностями системы, производится в начале сеанса работы. ;
Подробно рассматривается модуль 1Б00Р, обрабатывающий допустимые знаки препинания, модуль 15ЯТ, обрабатывающий недопустимые знаки препинания, модуль 0ВЯАИ, обра5атывающий авторские внаки препинания, модуль АОАРТР, контролирующий процесс адаптации к авторским внакам препинания и модуль игёгы,
осуществляющий выбор необходимого в каждой конкретной ситуации знака препинания. __
Блок адаптации позволяет выявлять и учитывать новые общезначимые языковые факты, специфику языка ПО, специфику явыка авторов текстов, случайные ошибки. Таким образом, механизмы адаптации обеспечивают устойчивость работы СПК и возможность максимально точного выявления смысла анализируемых сообщений.
В четвертой главе описываются модельные версии прикладных систем, разработанных на основе предлагаемого пунктуационного компонента.
В п.4.1 рассматривается адаптивная система СИПКО, осуществляющая пунктуационный контроль русскоязычных текстов.
Система позволяет формировать на основе разработанных и описанных критериев желаеше наборы правил, правильность использования которых необходимо проверить. При подобной настройке может меняться совокупность пунктуационных правил, степень жесткости требований по соблюдению каких-либо условий и т.д., что позволяет оценивать качество текста с точки зрения различных категорий пользователей. Выяснение указанных параметров ведется по схеме "меню".
После окончания, сеанса работы СИПКО выдает пользователю список правил, при проверке которых были выявлены ошибки, и количество этих ошибок. При этом специально выделяются правила, при проверке которых было допущено наибольшее количество ошибок. Также предусмотрена возможность просмотра списка правил, в которых были употреблены авторские знаки препинания. Причем особо выделяются правила, в которых авторские знаки употреблялись особенно часто.
Как видим, работа с СИПКО удобна и не требует специальной подготовки и глубоких лингвистических званий, что значительно расширяет сферу ее применения и позволяет избегать частого привлечения к проверке пунктуационной правильности текстов специалистов-корректоров. Рассматриваются возможности применения СИПКО в качестве постредактора систем машинного перевода и в составе систем распознавания звучащей речи (расстановка знаков препинания).
В п.4.2 описана система,обучающая пунктуации русского языка.
Важной характеристикой предлагаемой системы является то, что она, в отличие от большинства существующих обучающих- систем
(которые, как правило, еще и не охватывают область пунктуации), может производить обучение не по заранее подготовленному набору текстов (упражнений) , с заранее известными системе ошибками, а по произвольным тенетам. Предлагаемая обучаицая система оснащена средствами, помогающими пользователю в ее освоении. При этом система не заставляет пользователя выполнять те или иные контрольные упражнения, не навязывает какие-либо маршруты прохождения совокупности текстов или правил. Представляется, что такая мягкая форма обучения привлекательна как для человека, изучающего русский язык (учащегося, абитуриента, студента, иноязычного пользователя, которому приходится писать деловые тексты на русском языке), так и для человека, хорошо знающего русский язык и его пунктуацию.
В заключении сформулированы основные результаты работы и указаны возможности их практического применения.
Основные результаты работы;
1. Для адаптивных систем общения человека с ЭВМ на естественном языке разработана методика построения формализованной модели системы пунктуационных правил пс лингвистическим и текстовым источникам.
2. На основе предложенной методики построена модель пунктуации русского -языка и лингвистическая база данных, описывающая систему правил русской пунктуации.
3. Разработан и программно, реализован пунктуационный компонент синтаксического анализатора, способный адаптироваться к особенностям употребления внаков препинания в обрабатываемы} теистах.
4. Предложены схемы использования разработанной: пунктуационного компонента в составе прикладных систем:
- контроля синтаксической структуры текста;
- обучения языку.
Реализованы модельные версии соответствующих систем.
Основные результаты диссертации опубликованы в работе: 1. Полякова И.Н. Адаптивная система пунктуационного контрош русскоязычных текстов.//Вестник МГУ, сер.15, 1994, N 2 - С.Б6-61.
Оглавление автор диссертации — кандидата физико-математических наук Полякова, И. Н.
ВВЕДЕНИЕ . б
ГЛАВА 1. МЕТОДИКА ПОСТРОЕНИЯ ФОРМАЛИЗОВАННОЙ МОДЕМ СИСТЕМЫ ПУНКТУАЦИОННЫХ ПРАВИЛ. МОДЕЛЬ
ПУНКТУАЦИИ РУССКОГО ЯЗЫКА
П.1 Определение и назначение пунктуации
П.2 История пунктуации
П.З Знаки препинания в текстах различной функционально-стилевой принадлежности
П.4 Основные понятия описываемой /методики
П.5 Лишние и пропущенные знаки препинания в анализируемом тексте
П.6 Отделяющие и выделяющие пунктуационные правила 33 П.7 Отделяющие и выделяющие знаки препинания . 34 П.8 Обязательные, рекомендательные и факультативные правила.
П.9 Роль морфологии, синтаксиса, семантики и интонации при проверке правил рассматриваемой модели.
П.10 Важность знания ключевых служебных слов . 43 П.11 Локализуемые и нелокализуемые ошибки . 43 П.12 Дополнительная информация для проверки некоторых правил рассматриваемой модели . 44 П.13 Методика построения формализованной модели системы пунктуационных правил
П. 14 Общая характеристика английской пунктуации и описание на основе разработанной методики пунктуационной модели английского языка
П.14.1 Сравнительный анализ пунктуации английского и русского языков
П.14.2 Модель пунктуации английского языка
ГЛАВА 2. ПУНКТУАЦИОННЫЙ КОМПОНЕНТ СИНТАКСИЧЕСКОГО АНА
ЛИЗАТОРА (СПК) И ЕГО ПРОГРАММНАЯ РЕАЛИЗАЦИЯ
П.1 Основные программные модули и их реализация. . 56 П.2 Процессорная и беспроцессорная реализация алгоритмов пунктуационного контроля
П.З Режимы работы СПК. Диалоговый режим
П.4 Пакетный режим работы. Степени полномочий
П.5 Схема работы пунктуационного компонента
П.6 Описание работы пунктуационного компонента . . 70 П.6.1 Общий алгоритм проверки пунктуационных правил.
П.6.2 Дополнительные составляющие лингвистической базы данных, необходимые для работы основных программных модулей
П.6.3 Описание основных программных модулей
ГЛАВА 3. АДАПТИВНЫЕ ВОЗМОЖНОСТИ СПК.
П.1 "Конфликтные" ситуации, при возникновении которых вызывается блок языковой адаптации
П.1.1 Недопустимые знаки препинания
П.1.2 Допустимые знаки препинания
П. 1.3 Авторские знаки препинания.
П.1.2 Изменяемость значений знаков препинания . 92 П.2 Метазнания, используемые при адаптации пунктуационного компонента
П.З Описание блока языковой адаптации
П.3.1 Модуль, обрабатывающий допустимые знаки препинания - ISD0P . 99 П.3.2 Модуль, обрабатывающий недопустимые знаки препинания - ISNT . 100 П.3.3 Модуль, обрабатывающий авторские знаки препинания - 0BRAW . 102 П.3.4 Модуль, контролирующий процесс адаптации к авторским знакам препинания - ADAPTP . . 103 П.3.5 Модуль, осуществляющий выбор знака препинания - WIBZN.
ГЛАВА 4. ПРИКЛАДНЫЕ СИСТЕМЫ, РАЗРАБОТАННЫЕ
НА ОСНОВЕ СПК.
П.1 Адаптивная система СИПКО, осуществляющая пунктуационный контроль русскоязычных текстов 107 П. 2 Система, обучающая пунктуации русского языка
Введение 1994 год, диссертация по информатике, вычислительной технике и управлению, Полякова, И. Н.
Задача машинной обработки текстов на естественном языке (ЕЯ) возникла с появлением ЭВМ. Хотя ЭВМ создавались в основном для вычислительных работ, вскоре после их появления стали предприниматься попытки использования их для обработки символьной и текстовой информации. Весьма важная роль принадлежит здесь программным средствам обработки текстов, представленных на том или ином ЕЯ - системам общения человека с ЭВМ на ЕЯ (ЕЯ-системам). К числу таких систем относятся как традиционные системы автоматической обработки текстов (например, системы машинного перевода, автоматического реферирования и индексирования, автоматизации лингвистических исследований и редакционно-издательской деятельности), так и системы ввода текстовой информации в ЭВМ с помощью систем оптического распознавания символов и систем распознавания звучащей речи.
Одной из первых областей применения ЭВМ для решения невычислительных задач является машинный перевод. Надежда на возможность машинного перевода возникла задолго до начала коммерческого производства компьютеров. Поначалу задача представлялась несложной. Предложение на исходном языке преобразуется в соответствующее предложение на другом языке с помощью двух основных операций. Во-первых, отдельные слова заменяются своими переводами, во-вторых, переведенные слова переставляются и видоизменяются по правилам языка, на который осуществляется перевод текста [1]. Однако разработанные программы выдавали настолько плохой перевод, что его невозможно было понять.
Из опыта развития машинного перевода стало ясно видно, что поверхностный подход (без выделения синтаксического и семантического уровней) к языку не годится C2D. Для удовлетворительного автоматического перевода необходим учет синтаксических и семантических связей слов и фраз, определенное "понимание" машиной того, что она переводит. В последние годы, например, во многих системах машинного перевода был значительно развит синтаксический компонент, введено тщательно разработанное синтаксическое представление текста, предприняты попытки введения семантического уровня. Но почти все существующие в настоящее время системы машинного перевода либо реализуют тривиальные схемы перевода (пословный перевод и учет простейших синтаксических связей), либо используются лишь как экспериментальные системы СЗ].
Определенный опыт в создании ЕЯ-систем накоплен и разработчиками систем искусственного интеллекта (ИИ). В отличие от работ по машинному переводу, в работах по ИИ есть уже уровень синтаксической обработки, используется некоторое семантическое представление текста, однако ЕЯ рассматривается менее полно и подробно, часто - без составления полного его описания. Приемлемость систем, обеспечивающих диалог человека с ЭВМ на так называемом "ограниченном" ЕЯ, определяется узостью проблемной области , в которой функционируют эти системы [4,5 и др.]. При этом практически единственным достоинством указанных систем, является хорошая "читабельность" текстов, написанных на их входном языке. Ведь ограниченный ЕЯ требует предварительного изучения. Во многих же ситуациях выучить некоторый несложный формальный язык и общаться с машиной на нем пользователю бывает проще, чем постоянно следить за соблюдением ограничений на используемый в повседневной речевой практике ЕЯ. Отметим также, что в этих системах, как правило, нет средств, обеспечивающих "разумную" реакцию на незнакомый (не описанный явно в лингвистической базе данных) языковой объект. Большинство существующих ЕЯ-систем при появлении незнакомого объекта либо отказываются выполнять какие-либо действия, либо просто игнорируют незнакомый языковой объект. Для анализа реальных (а не экспериментальных) текстов необходимы адаптивные ЕЯ-системы, способные настраиваться на конкретного пользователя и предметную область (ПО), а также обрабатывать языковые конструкции, формально противоречащие лингвистическим знаниям системы. Функциональные требования к ЕЯ-системам, выполнение которых должно обеспечить человеку условия общения, близкие условиям его обычной речевой практики, - так называемая концепция необременительного диалога -предложены и разработаны М.Г.Мальковским в С63. При этом очевидно, что для разработки перспективных ЕЯ-систем необходимо создание достаточно полных формализованных моделей ЕЯ, эффективная программная реализация разрабатываемых моделей.
В нашей стране комплексной программой лингвистических исследований, направленных на расширение используемых в информатике данных о русском языке, является программа создания Машинного фонда русского языка (МФРЯ) С7]. Идея создания фонда как технологической основы для разработки ЕЯ-систем нашла широчайший отклик как в лингвистической среде, так и в среде программистов и разработчиков ЭВМ. В нашей стране работы по созданию Ш?РЯ довольно активно начались с 1986г. Но в настоящее время, в связи с проблемой финансирования, эти работы практически приостановлены. Однако актуальность этой задачи с каждым днем возрастает. Разработка МФРЯ - гигантская проблема, объединяющая широкий спектр исследований, направленных на углубление и совершенствование данных о русском языке, на развитие средств автоматической обработки данных и общения с ЭВМ на русском языке. Она включает в себя следующие основные задачи:
1. Перевод академических словарей и грамматики в словар-но-грамматические банки данных.
2. Создание автоматически пополняемых словоуказателей и словарей на базе текстов деловых и разговорных стилей, текстов научно-технической литературы и документации.
3. Соединение в единый фонд данных об общеупотребительном русском языке и данных терминологических фондов.
4. Создание фондов лингвистических алгоритмов и программ, включая процессоры русского языка.
Программное обеспечение МФРЯ может быть разделено на два класса: программные комплексы, являющиеся функциональными моделями языковой деятельности человека и осуществляющие анализ и синтез естественно-языковых высказываний, и утилиты и программы различного назначения, свободно комбинируемые в целях формирования программных комплексов какого-либо специального назначения.
В фонде утилитных алгоритмов и программ следует отметить особо важную роль программ для ввода, редактирования, коррекции и издательской подготовки текстов. К ним относятся :
-текстовые редакторы - программы интерактивного ввода новых текстов в память ЭВМ, располагающие широким спектром средств для работы с текстом;
-текстовые автокорректоры ("спеллеры"), то есть программы автоматического обнаружения и исправления ошибок произвольного происхождения (наиболее продуктивным является сочетание автокорректоров с Ж, позволяющее обнаруживать синтаксические и стилистические ошибки);
-программы издательской подготовки, придающие тексту полиграфически законченную форму вне зависимости от типа устройства, выдающего текст на печать;
-программы синтеза готовых форм - средство подготовки анкет, отчетов, словарных статей и т.д.
Наибольшее распространение получили текстовые редакторы и автокорректоры. Создание автокорректоров сталкивается с рядом принципиальных и не решенных в полном объеме проблем - компактное хранение словарей, эффективные методы морфологического и синтаксического анализа и т.д. Тем не менее на очереди - создание систем, способных производить более сложное по сравнению с автокорректорами автоматическое или автоматизированное редактирование текстов на ЕЯ. В идеале же необходима система, выполняющая функции научного редактора - человека, осуществляющего литературную и научную правку научно-технических текстов. При этом очевидно, что подобные системы должны опираться на результаты'работы лингвистического процессора (ЛП). (Такое направление развития представляет разрабатываемая на кафедре алгоритмических языков факультета ВМиК МГУ под руководством профессора М.Г.Мальковского система ЛИНАР (литературно-НАучный Редактор) - интеллектуальная система комплексного контроля и редактирования русскоязычных текстов С83, в составе которой используется ЛП АДАМАНТ £63.) ЛП является, как правило, ядром практически любой ЕЯ-системы. Ведь именно он обеспечивает анализ фраз и получение их синтактико-семантического представления.
В настоящее время разрабатываются ЛП двух основных типов -интегрального и модульного [93. Модульный подход предполагает такое устройство системы, при котором каждому уровню лингвистического анализа соответствует отдельный компонент (модуль) системы: морфологический, синтаксический, семантический. Системы модульного типа допускают разные схемы взаимодействия модулей (последовательная работа, параллельный перемежающийся анализ) - это не меняет существа дела: синтаксис и семантика обрабатываются в системе разными механизмами. При этом синтаксический уровень представлен в системе в явном виде: он выделен в отдельный блок, преобразующий текст в его синтаксическое представление. Примером системы, проектируемой по модульному принципу, может служить , к примеру, система APT СЮ]. Разработка системы производится приблизительно в течение последних пяти лет в ИПМ им М.В.Келдыша и имеет целью построение экспериментального ЛП, выполняющего процедуры анализа текста в модульном варианте.
Адаптивный многоцелевой анализатор АДАМАНТ, разрабатываемый на факультете ВМиК МГУ под руководством М.Г.Мальковского Сб] и являющийся лингвистическим ядром трех систем - TULIPS-2 [63, ДИНАР С8], СИСФОРМ [11], также представляет модульную систему. АДАМАНТ имеет модули морфологического, синтаксического и семантического анализа, а также блок лингвистических метазнаний, позволяющих ЛП адаптироваться к незнакомым словам и конструкциям, а также выявлять ошибки во входном тексте. (Адаптивные возможности вообще являются очень сильной чертой рассматриваемой системы.) Характер взаимодействия модулей таков, что анализ конкретной фразы предполагает перемежающееся подключение морфологического, синтаксического и семантического анализаторов.
В системе САГА С93 ,в силу ориентации на широкую предметную область и разнообразные виды текстов (с самого начала САГА проектировалась как промышленно-ориентированная система для обработки текстов электротехнической тематики и других отраслей машиностроительного комплекса), разработчиками также принят модульный принцип построения системы. Каждый модуль стремится дать достаточно полное описание на соответствующем ему уровне лингвистического анализа.
Другая стратегия построения Ж реализована в системах интегрального анализа с линейно упорядоченной обработкой (то есть одноразовым проходом по тексту) С9]. Синтаксический и семантический анализаторы (а зачастую и анализатор прагматического уровня) слиты в единый блок. Система ориентируется сразу на формирование на основе текста достаточно богатых концептуальных структур, а не на постепенную "глубинизацию" понимания, как это имеет место в системах модульного типа. В системе интегрального типа не предусматривается формирование синтаксического представления входного текста. Синтаксическая информация используется фрагментарно и лишь как вспомогательная.
Одним из основополагающих понятий интегрального анализа являются понятия практической цели и интереса [12]. Именно практические цели, преследуемые при обработке текста, направляют использование всего комплекса знаний и позволяют выделить из текста ту информацию, которая представляется наиболее важной. Практические цели задают и ту шкалу, в соответствии с которой часть информации , содержащаяся в тексте, признается более важной, более интересной, а другая часть - менее интересной или несущественной вовсе. Очевидно, что анализатор, воплощающий принцип интереса, не должен затрачивать время на обработку " неинтересной" части текста. Поэтому идея интегральной обработки тесно связана с понятием переменной глубины анализа. Один из идеологов интегрального подхода - Р.Шенк ([133 с. 447) - так определяет это понятие: "Человек, понимающий тексты на естественном языке, руководствуется тем, что он хочет знать (а также тем, что он не хочет знать). Это позволяет ему не замечать всех неоднозначностей , проблем полисемии, бесчисленных импликаций, и других трудностей. Но то, что он теряет в плане совершенства достигаемого уровня понимания, он компенсирует скоростью и надежностью процесса обработки текста. Возможно настало время предоставить нашим машинам те же преимущества" .
Со стратегией линейно упорядоченного интегрального анализа связываются надежды на эффективные быстродействующие системы, обеспечивающие надежное глубокое понимание текста на ЕЯ. Пожалуй, с максимальной ясностью этот подход изложен в работах [13,14,15]. Концепция интегрального линейно упорядоченного анализа представляет собой скорее идеал модели понимания, сформировавшийся в рамках теоретических исследований по ИИ. Приближаются к идеалу проекты прикладных моделей, которые по условиям своего функционирования близки к моделям исследовательского характера. Имеется в виду предельно узкая ПО и соответственно узкий подъязык, для которых создаются такие системы. Например, анализатор Р.Шенка [13] - газетные заметки по терроризму, модель "Текст-Действительность" Г.С.Цейтина [14,16] - арифметические задачи на движение, МЭРФИ М.Селфриджа [17] предметный мир робота-манипулятора, программа APRIL [6,18] - арифметические задачи в словесной формулировке. В ПО, где содержание текста в целом ясно еще до начала его обработки (оно уляжется в одну из предусмотренных концептуальных схем, добавив к ней лишь уточняющую информацию) , нет необходимости тратить время на, например, полноценный синтаксический разбор. Соответственно синтаксический анализатор в таких системах (в той мере, в какой он может быть выделен) обычно достаточно прост и неполон.
Однако для систем, ПО которых достаточно широка, идея интегральной обработки пока в чистом виде использована быть не может: система не знает, какого рода информация поступает на вход. Для таких систем более эффективным в настоящее время следует признать модульный подход. Но это не означает, что идея интегрального подI хода не может быть применена к этим системам в ослабленном виде. В систему модульного типа могут быть внесены и вносятся элементы интегрального подхода. Например, система может допускать совмещение в одной структуре представления данных результатов работы процедур разных уровней (синтаксической и элементов семантической структур в системах АДАМАНТ [6,193, DB-DIALOG [91). В системе, сохраняющей принципиальное разделение разных уровней анализа, могут использоваться особые приемы взаимодействия модулей, нарушающие нормальную временную последовательность их работы (параллельный синтаксический и семантический анализ в системе ПОЭТ [20], логически перемежающийся анализ разных уровней в системе АДАМАНТ [61). Также в рамках одного модуля, осуществляющего анализ высказывания на определенном уровне, могут использоваться в редуцированном виде декларативные или процедурные знания более высокого уровня (например, использование семантических признаков в синтаксическом анализе - в системах АДАМАНТ [6], ПОЭТ [20], APT[10], использование редуцированных синтаксических процедур на этапе морфологического анализа - в системе САГА [9]).
Другая идея, связанная с построением "человекоподобных" систем - идея линейно упорядоченного анализа - также представляется привлекательной для систем модульного типа. Такой тип анализа лежит в основе алгоритмов Е.И.Анно [21]. Из числа зарубежных систем, использующих эту идею, можно указать, например, анализатор PARAGRAM [22].
Как видим, ЛП модульного типа, при всей его громоздкости, не является атрибутом систем старого поколения, коль скоро речь идет о системах, предназначенных для широкой ПО. Альтернативы процессору модульного типа в этой ситуации пока попросту нет. Остановимся более подробно на работе синтаксического этапа анализа в системах модульного типа, т.к. именно синтаксис занимает центральное место в грамматической системе языка. (Это определяется тем, что сфере синтаксиса специально принадлежат те языковые единицы, которые непосредственно служат для общения людей и непосредственно соотносят сообщаемое с реальной действительностью, включая сюда как внешнюю, так и внутреннюю, интеллектуальную и эмоциональную сферу жизни.)
В настоящее время существует много различных разработок синтаксических анализаторов (СА). Но практически все СА работают на "ограниченном" множестве русского языка [93. Ограничения на входной текст бывают очень разные. Например, самое общее ограничение большинства СА касается единиц синтаксического анализа: синтаксическое представление строится только для отдельного предложения. При этом в одних системах предложения рассматриваются изолированно друг от друга, а в других возможен локальный выход процедуры анализа за рамки одного предложения.
Практически все СА модульного типа имеют ограничения, связанные с невозможностью привлекать знания о внешнем мире.
К числу ограничений анализатора должны быть отнесены и такие, которые связаны с определенным уровнем развитости его лингвистической базы знаний. Однако в описаниях систем такие ограничения в лучшем случае указываются лишь частично. Насколько можно судить по описаниям систем, наиболее типичными являются ограничения, накладываемые на структуру анализируемого предложения. Ограничения этого рода в той или иной степени имеют практически все системы. К жестким ограничениям можно отнести, например, требования определенного порядка слов, которые используются в некоторых диалоговых робото-технических системах. Локальное ограничение на порядок следования элементов предложения использует система японско -английского машинного перевода ([231: если сохранён стандартный порядок следования элементов, то автоматически применяется трансформация поверхностной структуры глагола в глубинную). К ограничениям может приводить также отсутствие или редуцированность средств анализа связей между частями сложного предложения. Отсюда требование не более одного придаточного предложения в системе ПОЭТ [20], ограничения на количество запятых в САГА [9] (не анализируются в ней также предложения с двоеточием и некоторые типы предложений с тире), изолированный анализ частей сложного предложения в системе группы Г.Г.Белоногова [24], возможность фрагментарного анализа в системе АДАМАНТ [6]. Любопытно, что в системе APT, хотя и устанавливаются связи между частями сложного предложения любой структуры, но в некоторых случаях они носят условный характер: вершина придаточного предложения механически подчиняется вершине главного. Некоторые системы вводят ограничения на анализ вводных слов (например, ЯИП [25]), деепричастного или причастного оборотов (например, ПОЭТ [20]). Ряд систем использует ограничения, касающиеся однородных членов предложения (например, система ШП выдвигает ограничение на количество и состав однородных членов [25]). Также ЯИП накладывает серьезные ограничения на структуру простого предложения. В нем, например, может быть не более одного личного глагола. Не рассчитан данный алгоритм и на анализ предложения без глагола, поэтому предусмотрено в такие предложения искусственно добавлять глагол "быть". Большинство модулей синтаксического анализа исходит из предположения проективности поступившего на анализ предложения. Таковы СА в системах ЯИП, группы Г.Г.Белоногова. Алгоритм ЯИП исходит из предположения грамматической правильности предложения и проективности его структуры, однако не накладывает априорных ограничений, связанных с правильностью и проективностью. Результат анализа в случае неправильной или непроективной конструкции будет неверным. Многие системы вводят ограничение на использование в предложении формул. Также наиболее типичными являются ограничения, касающиеся длины анализируемого предложения, и ограничения, накладываемые на лексический состав предложения. Ограничения на длину связаны в основном с техническими аспектами реализации системы. Так, система РЕЗОН допускает не более 50 слов во фразе [263, ЭТАП-2 - не более 35 [273.
Ограничения же, накладываемые на лексический состав предложения, тоже достаточно разнообразны. В системе ПОЭТ [203, например, предусмотрены ограничения на использования отдельных глагольных форм: ПОЭТ допускает у глагола только форму изъявительного наклонения 3 лица. Система же РЕЗОН, например, имеет ограничение на количество омонимов (в том числе падежных омонимов) в предложении [263. Многие анализаторы могут работать только с известными системе словами (РЕЗОН [263, ЭТАП-2 [273, ПОЭТ [203). Для того же, чтобы СА мог работать на открытом словаре, необходим аппарат, позволяющий определять грамматические характеристики любого незнакомого слова. Такой аппарат предусмотрен в системах группы Г.Г.Белоногова [243, САГА [93, АДАМАНТ [63.
Также наиболее типичными ограничениями на входной текст синтаксических анализаторов являются ограничения, связанные с требованием правильности анализируемой цепочки словоформ. Большинство систем рассчитаны только на анализ грамматически, орографически и пунктуационно правильной цепочки словоформ, составляющей предложение. Такие же языковые явления, которые принято называть нег-рамматичностью (к неграмматичности высказывания могут приводить разнообразные орфографические искажения слов, ошибки в расстановке пробелов, ошибки при склонении и спряжении слов, несоблюдение чередований, нарушение правил согласования и управления, нарушение норм синтаксической и семантической сочетаемости слов, пунктуационные ошибки и т.п.) во многих системах не учитываются.
Конкретный анализатор может иметь все или некоторые из указанных ограничений. Однако практически во всех существующих в настоящее время СА не используются пунктуационные знания С9] (как правило, из-за отсутствия достаточно полного формализованного описания пунктуации). СА либо рассчитаны на анализ только пункту-ационно правильных цепочек словоформ, либо обнаруживают лишь некоторые типы ошибок, выявляемые обычно с помощью шаблонов на основе ключевых служебных слов [28]. Но пунктуационные ошибки в реальных предложениях русского языка довольно часты. Разделим их условно на две группы. Ошибки одной группы связаны с уровнем пунктуационной грамотности и появляются в основном в тех типах текстов русского языка, которые не проходят этап профессионального редактирования (например - реплики в диалоге пользователя с ЭВМ). Причиной ошибок другого рода является несовершенное владение навыками машинописи профессиональных машинисток и операторов, ответственных за ввод текстов в ЭВМ. В работе [29] для таких ошибок предложено название "типографские". При этом для русскоязычных машинисток и операторов более характерны " типографские" ошибки, т.е. ошибки, которые не могут быть исправлены и при условии предварительного редактирования вводимого текста. Однако система должна осуществлять полноценный синтаксический анализ поступающего на вход языкового материала, не накладывая при этом строгих ограничений, которые требуют обязательного предварительного редактирования вводимого текста. Поэтому актуальным является вопрос о разработке средств обнаружения и исправления таких ошибок.
Методы обнаружения и исправления орфографических ошибок в текстах широкой тематики базируются на представлении о тексте как о цепочке независимо появляющихся словоформ. Диагностика же и исправление синтаксических и пунктуационных ошибок предполагает взгляд на текст как на последовательность связанных единиц, комбинирование которых имеет свои закономерности. По свидетельству [301, подходы к автоматизации выявления и коррекции этих ошибок можно разбить на две группы: синтаксически ориентированные подходы и подходы, основанные на концептуальных фреймах.Последние больше пригодны для систем, работающих в строго ограниченной области. Для текстов широкой тематики предназначены синтаксически ориентированные подходы. Все они очень похожи. Синтаксический анализатор сначала пытается обработать поступившее на вход предложение средствами грамматики, рассчитанной на правильный ввод. Если это не удаётся, некоторые условия ослабляются. Какие грамматические правила смягчаются, зависит от учитываемых системой синтаксических и пунктуационных ошибок. Например, в русских текстах иногда оказывается пропущенной запятая, обособляющая причастный оборот в постпозиции. Для того, чтобы такое предложение могло быть обработано, требуется временная отмена условия обязательного наличия запятой, присутствующего в каноническом правиле.Эта стратегия имеет два существенных недостатка, которые сформулированы в статье [30]. Во -первых, ослабление грамматических правил "аналогично открыванию ящика Пандоры" и неизбежно влечет за собой возрастание числа возможных интерпретаций. Во-вторых, этот подход отличается " компьютерной неэффективностью" , так как анализатор не может опознать ошибочный ввод прежде, чем будет закончен анализ средствами канонической грамматики. В упомянутой статье предложен другой вариант синтаксически ориентированного подхода, лишенный, по-крайней мере, второго из указанных недостатков. Предлагается сначала использовать слабую грамматику, а затем подвергнуть обрабатываемое предложение фильтрации на основе строгих требований правильности. Специфика этого подхода, сужающая сферу его возможного применения, состоит в том, что наличие ошибки предполагается более вероятным, чем соблюдение норм грамматики. Поэтому такой вариант синтаксически ориентированного подхода может применяться разве что в системах обучения языку.
В заключении подчеркнем, что описанные методы позволяют автоматически обнаружить синтаксическую ошибку в предложении только тогда, когда анализатору не удается построить связный синтаксический граф для этого предложения. Однако ошибки, при которых возможно получение формально приемлемой, но по сути неверной интерпретации, остаются невыявленными. При этом никаких сообщений об ошибках не поступает. Учитывая же, что СА должен быть способен обрабатывать реальный текст, а не экспериментальный массив, то есть уметь анализировать текст с возможными, например, пунктуационными ошибками, которые в реальных предложениях ЕЯ достаточно часты, очевидно, что перспективные ЕЯ-системы должны быть оснащены полноценными моделями пунктуации и соответствующими программными средствами. Исследования, выполненные в предлагаемой работе, имеют целью формализавать описание системы пунктуационных правил и разработать программные средста, позволяющие решить проблему использования пунктуационных знаний синтаксическим анализатором в составе ЕЯ-систем различного назначения.
В диссертации предлагается новая методика построения формализованной модели системы пунктуационных правил. На основе данной методики строится (и описывается) достаточно полная (полнота понимается как с точки зрения объема учитываемых языковых явлений, так и с точки зрения лингвистической обоснованности) модель пунктуации русского языка. Разработка модели в рамках задачи создания адаптивных ЕЯ-систем позволяет естественным образом учитывать высокую вариативность пунктуации - факт, существенно ограничивающий возможности традиционного (неадаптивного) подхода. Построенная модель используется для создания пунктуационного компонента СА, способного адаптироваться к особенностям употребления знаков препинания в анализируемых текстах различной функционально-стилевой принадлежности. Полученный пунктуационный компонент позволяет снять ограничение обязательной пунктуационной правильности предложения при его синтаксическом анализе и избежать, по-возможности, получения неверной его интерпретации при наличии в нем пунктуационных ошибок. Причем предлагаемый компонент может работать как в составе СА, так и в качестве "препроцессора" пунктуационного контроля и коррекции русскоязычных текстов. Для реализации указанного компонента разработаны новые адаптивные алгоритмы пунктуационного контроля текста. Принципиально важным моментом является также сочетание полноты лингвистического обеспечения с полнотой программной реализации.
Таким образом, основная цель работы состоит в разработке целостного подхода к решению проблемы использования пунктуационных знаний синтаксическим анализатором в составе различных ЕЯ-систем. Решение данной задачи предполагает:
- разработку для ЕЯ-систем методики построения формализованной модели системы пунктуационных правил;
- разработку алгоритмов, осуществляющих выявление и коррекцию пунктуационных ошибок в анализируемых текстах;
- проверку предложенного подхода путем построения открытой (т.е. предусматривающей возможность ее пополнения и коррекции) модели пунктуации русского языка, а также создание на ее основе программно реализованного пунктуационного компонента СА для адаптивных ЕЯ-систем различного назначения.
В первой главе описывается методика построения формализованной модели системы пунктуационных правил по лингвистическим и текстовым источникам, рассматривается построенная на основе этой методики модель пунктуации русского языка, приводятся необходимые для данного исследования сведения о русской пунктуации.
Во второй главе рассматривается разработанный и программно реализованный на основе полной открытой модели пунктуации русского языка пунктуационный компонент СА русскоязычных текстов (СПК), описываются алгоритмы пунктуационного контроля текста.
В третьей главе рассматривается необходимость и способы адаптации пунктуационного компонента к незнакомым ему пунктуационным ситуациям и индивидуальным особенностям автора текста в употреблении знаков препинания, описываются пунктуационные метазнания и алгоритмы, осуществляющие адаптивные возможности СПК.
В четвертой главе описываются модельные версии прикладных систем, разработанных на основе предлагаемого пунктуационного компонента.
В заключении сформулированы основные результаты работы и указаны возможности их практического применения.
Заключение диссертация на тему "Синтаксический анализатор адаптивной системы общения человека с ЭВМ на естественном языке"
- 118 -ЗАКЛЮЧЕНИЕ
Предложенная работа является одним из этапов решения сложной и актуальной проблемы создания программных средств, обеспечивающих общение человека с ЭВМ на естественном языке. Выполненные исследования имеют целью формализавать описание системы пунктуационных правил и разработать программные средста, позволяющие решить проблему использования пунктуационных знаний синтаксическим анализатором в составе ЕЯ-систем различного назначения.
Получены следующие основные результаты:
1. Для адаптивных систем общения человека с ЭВМ на естественном языке разработана методика построения формализованной модели системы пунктуационных правил по лингвистическим и текстовым источникам.
2. На основе предложенной методики построена модель пунктуации русского языка и лингвистическая база данных, описывающая систему правил русской пунктуации.
3. Разработан и программно реализован пунктуационный компонент синтаксического анализатора, способный адаптироваться к особенностям употребления знаков препинания в обрабатываемых,, текстах.
4. Предложены схемы использования разработанного пунктуационного компонента в составе прикладных систем:
- контроля синтаксической структуры текста;
- обучения языку.
Реализованы модельные версии соответствующих систем.
Все перечисленные результаты являются новыми и имеют как теоретическое, так и прикладное значение. Достоверность результатов подтверждается использованием построенной пунктуационной модели и разработанного пунктуационного компонента в конкретных программных средствах (СИПКО, система обучения пунктуации русского языка) , а также в составе адаптивных ЕЯ-систем различного назначения (АДАМАНТ, ЛИНАР и др.).
Проведенные исследования показали также возможность применения предлагаемой в диссертации методики построения формализованной модели системы пунктуационных правил по лингвистическим и текстовым источникам к описанию пунктуации различных ЕЯ, имеющих свои особенности и характерные черты. Так, на основе предложенной методики описаны модели пунктуации не только русского, но и английского языков.
Согласно разработанной в диссертации методике построены модель пунктуации русского языка и лингвистическая база данных, описывающая систему правил русской пунктуации. Предлагаемый в работе пунктуационный компонент СА, созданный на их основе, используется на кафедре алгоритмических языков факультета ВМиК МГУ в составе СА ЛП АДАМАНТ и интеллектуальной системы комплексного контроля и редактирования русскоязычных текстов ЛИНАР, а также в Институте системного анализа РАН. На базе полученного компонента разработаны и программно реализованы модельные версии (исследовательские прототипы) некоторых прикладных систем - система, обучающая пунктуации русского языка, и адаптивная система СИПКО, осуществляющая пунктуационный контроль русскоязычных текстов.
Результаты диссертации могут быть использованы при разработке ЕЯ-систем различного назначения, в которых необходимы пунктуационные знания о языке - систем автоматизированного обучения, автоматического перевода, автоматизации лингвистических исследований и редакционно-издательской деятельности, определения авторства текста (путем выявления характерных пунктуационных ошибок автора), распознавания звучащей речи.
Автор выражает искреннюю благодарность за общее руководство, полезные советы и внимание к работе своим научным руководителям профессору Михаилу Георгиевичу Мальковскому и Ирине Анатольевне Волковой.
Библиография Полякова, И. Н., диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Виноград Т. Работа с естественными языками. // Современный компьютер. Сборник научно-популярных статей. - М.: Мир, 1986. - С. 90-107.
2. Кулагина О.С. Исследования по машинному переводу. М.: Наука, 1979.
3. Дж. Слокум. Обзор разработок по машинному переводу: история вопроса, современное состояние и перспективы развития. /У НВЗЛ. Вып. XXIV. М.: Прогресс, 1989. - С. 357-406.
4. Попов Э.В. Система взаимодействия с ЭВМ на ограниченном русском языке. // Программирование, 1978, «4. С. 66-76.
5. Микулич Л.И., Червоненкис А.Я. Специализированная диалоговая система. // Вопросы разработки прикладных систем. Новосибирск: ВЦ СО АН СССР, 1979. - С. 111-129.
6. Мальковский М.Г. Программно-информационное обеспечение адаптивных систем общения с ЭВМ на естественном языке:
7. Дисс. . докт. физ.-мат. наук М. ,1990.
8. Машинный фонд русского языка: идеи и суждения. М.: Наука, 1986.
9. Мальковский М.Г., Большакова Е.И., Волкова И.А. и др. Эксперименты с системой ЛИНАР. // Труды машинного фонда русского языка. Т. 1. М.: ИРЯ АН СССР, 1991. - С. 51-71.
10. Карпова Д.Г., Пирогова Ю.К., Кобзарева Т.Ю., Миказлян Е.В. Компьютерный синтаксический анализ: описание моделей и направлений разработок. // Итоги науки и техники, сер. Вычислительные науки. Т. 6. М.: ВИНИТИ, 1991.
11. Кулагина О.С. Об автоматическом синтаксическом анализе русских текстов. М.: ИПМ АН СССР, препринт #205, 1987.
12. Лукашевич Н.В. Автоматизированное формирование проблемно-ориентированных баз знаний для систем общения с ЭВМ на естественном языке: Дисс. . канд. физ.-мат. наук М., 1989.
13. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения. // НВЗЛ. Вып. XXIV. М.: Прогресс,1989. С. 5-31.
14. Шенк Р., Бирнбаум Л. и др. Интегральная понимающая система. // НВЗЛ. Вып. XII. М.: Радуга, 1983. - С. 401-449.
15. Цейтин Г.С. О соотношении естественного языка и формальной модели. // Вопросы кибернетики. М.: АН СССР,1982. С. 28-34.
16. Моделирование языковой деятельности в интеллектуальных системах. М.: Наука, 1987.
17. Железняков М.М., Невлева Т.Н., Новицкая И.М. и др. Опыт построения модели типа "Текст Действительность" с использованием ассоциативных сетей. // Машинный фонд русского языка: Предпроектные исследования. - М.: ИРЯ АН СССР,1988. С. 140-167.
18. Селфридж М. Интегральная обработка обеспечивает надежное понимание. // НВЗЛ. Вып. XXIV. М.: Прогресс,1989. С. 161-208.
19. Мальковский М.Г. Программа APRIL, решающая арифметические задачи в словесной формулировке. // Алгоритмы и алгоритмические языки, вып.6. М.: ВЦ АН СССР,1973. С. 113-159.
20. Волкова И.А., Мальковский М.Г. Лингвистический процессор АДАМАНТ: синтаксический компонент. // III Всес. конф. по созданию Машинного фонда русского языка. / Тезисы докладов.
21. Ч. 1. М.: ИРЯ АН СССР, 1989. - С. 143-146.
22. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982.
23. Анно Е.И. К типологии алгоритмов синтаксического анализа (для формальных моделей естественного языка). // НТИ. Сер.2, 1980, «3. С. 15-22.
24. Hirst G, Semantic interpretation and the resolution of ambiquiti. Cambridge Un.Press. - 1987.
25. NagaoM., Tsujii J., Mitamura K, Hirakawa N., Kume M. A machine translation system from Japanese into English another perspective of system. //1. COLING 80. P. 414-424.
26. Белоногов Г.Г., Кузнецов Б.А., Новоселов А.П. Автоматизированная обработка научно-технической информации: Лингвистические аспекты. // Итоги науки и техники. сер. Информатика. Т.8. М.: ВИНИТИ, 1984.
27. Каалеп Х.-Я. Синтаксический анализатор естественного языка в ЯИП (языковой интерфейс для ПРИЗ). // Машинный фонд русского языка. / Тезисы конференции. 4.1. М.: ИРЯ АН СССР,1989. С. 157-160.
28. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.
29. Харин Н.П. Автоматическое восстановление пропущенных запятых на основе служебных слов. // НТИ, сер.2, 1992 ,#7. С. 26-28.
30. Emirkanian L.5 Bouchard L. Knowledge integration in a rolust and efficient morphosyntactic analyzer for French. // COLING 88. 1. - P. 166-171.
31. Kudo I., KoshinoH., Chung M., Morimoto T. Schema method: A framework for correcting grammatically ill-formed input. // COLING 88. 1. - P. 407-412.
32. Розенталь Д.Э. Пунктуация и управление в русском языке. М.: Книга, 1988.
33. Былинский К.И., Розенталь Д.Э. Трудные случаи пунктуации. М.: Искусство, 1961.
34. Былинский К.И., Никольский Н.Н. Справочник по орфографии и пунктуации для работников печати. М.: Искусство, 1957.
35. Дудников А.В. Пунктуация сложного предложения. М.: Учпедгиз, 1958.
36. Голуб И.В., Розенталь Д.Э. Секреты хорошей речи. М.: Международные отношения, 1993.
37. Правила русской орфографии и пунктуации. М.: Учпедгиз, 1956.
38. Грот Я.К. Русское правописание. Спб., 1886.
39. Валгина Н.С. Русская пунктуация: принципы и назначение. М.: Просвещение, 1979.
40. Шапиро А.Б. Современный русский язык. Пунктуация. М.: Просвещение, 1966.
41. Иванова В.Ф. История и принципы русской пунктуации. Л.: ЛГУ, 1962.
42. Ломоносов М.В. Полное собрание сочинений. Т. VII. "Труды по филологии". М.: АН СССР, 1952.
43. Грот Я. К. Спорные вопросы русского правописаеия от Петра Великого доныне. Филологические разыскания. 4.2. Спб., 1899.
44. Пешковский A.M. Школьная и научная грамматика. М., 1918.
45. Крючков С.Е., Максимов Л.Ю. Современный русский язык. Синтаксис сложного предложения. М.: Просвещение, 1969.
46. Ломизов А.Ф. Обучение пунктуации в средней школе (Проблемы методики). М.: Педагогика, 1975.
47. Шварцкопф Б.С. Современная русская пунктуация : система и ее функционирование: Автореф. дисс. . докт. филол. наук М., 1988.
48. Шапиро А.Б. Основы русской пунктуации. М.: АН СССР, 1955.
49. Былинский К.И., Жилин А.Н. Справочная книга корректора. М.: Искусство, 1960.
50. Розенталь Д.Э. Справочник по правописанию и литературной правке. М.: Книга, 1989.
51. Розенталь Д.Э. Вопросы русского правописания. Практическое руководство. М.: МГУ, 1962.
52. Грамматика русского языка. Т. 2, 4.2. М.: АН СССР, 1954.
53. Ицкович В.А. Опыт описания современной пунктуации. // Нерешенные вопрсы русского правописания. М.: Наука, 1974.
54. Ломизов А.Ф. Методика пунктуации в связи с изучением синтаксиса. М.: Учпедгиз, 1959.
55. Беляева М.А. Грамматика английского языка. М.: Высшая школа, 1984.
56. Берман И.М. Грамматика английского языка. М.: Высшая школа, 1994.
57. Качалова К.Н., Израилевич Е.Е. Практическая грамматика английского языка. М.: Внешторгиздат, 1959.
58. Воронин М.Т. Употребление запятой в предложениях с союзом И (основные случаи). М.: АПН РСФСР, i960.
59. Шварцкопф Б.С. О факультативных случаях употребления кавычек. // Нерешенные вопросы русского правописания. М.: Наука, 1974.
60. Современный русский язык. В 3-х частях. Ч. 2. Словообразование. Морфология. - М.: Просвещение, 1987.
61. Современный русский язык. / Под ред. Д.Э.Розенталя. 4.2. -Синтаксис. М.: Высшая школа, 1976.
62. Пехливанова К.И., Лебедева М.Н. Грамматика русского языка в иллюстрациях (для иностранцев, изучающих русский язык). М.: Русский язык, 1991.
63. Шанский Н.М. и др. Фразеологические обороты русского языка. -М.: Русский язык, 1988.
64. Фразеологический словарь русского языка. / Под ред. А.И.Молот-кова. М.: Русский язык, 1986.
65. Ефимов А.И. Стилистика художественной речи. М.: МГУ, 1957.
66. Современная русская пунктуация. М.: Наука, 1979.
67. Костяева Т.А., Чуриков Г.М. Сборник диктантов по пунктуации для 8-9 классов. М.: Просвещение, 1989.
68. Федоренко Л.П., Лотарев В.К. Практикум по орфографии и пунктуации. М.: Просвещение, 1979.
-
Похожие работы
- Адаптивный синтаксический анализатор русского языка
- Метод моделирования процедур в лингвистическом процессоре автоматизированных диалоговых систем управления
- Исследование и разработка адаптивных средств естественно-языкового общения в автоматизированных системах переработки информации
- Разработка синтаксических анализаторов языков программирования с учетом контекстных условий
- Представление моделей и алгоритмов в лингвопроцессорах сетями Петри
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность