автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Моделирование процесса перевода с таджикского языка на английский язык словоформ, образованных от имен числительных
Автореферат диссертации по теме "Моделирование процесса перевода с таджикского языка на английский язык словоформ, образованных от имен числительных"
ТАДЖИКСКИЙ ГОСУДАРСТВЕННЫЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ Диссертационный совет К 065.01.10
са
На правах рукописи УДК 808.3-91.550
ИСМОИЛОВА РАНО МИЗРОБОВНА
МОДЕЛИРОВАНИЕ ПРОЦЕССА АВТОМАТИЧЕСКОГО ПЕРЕВОДА С ТАДЖИКСКОГО ЯЗЫКА НА АНГЛИЙСКИЙ ЯЗЫК СЛОВОФОРМ, ОБРАЗОВАННЫХ ОТ ИМЕН ЧИСЛИТЕЛЬНЫХ
05.13.16 - применение вычислительной техники, математического моделирования и математических методов в научных отраслях
(информатика)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Душанбе - 1998
Работа выполнена в Институте математики Академии наук Республики Тадж икистан.
Научный руководитель - доктор физико-математических наук, профессор, академик АН РТ Усманов З.Д.
Официальные оппоненты:
доктор физико-иатемэтических наук, профессор Решетников В.Н. кандидат технических наук, доцент Умаров М.А.
Ведущая организация - Таджикский Государственный Педагогический Университет им. К. Джураева
Защита состоите» "______/ ' >'у^)1998 г. в __часов на заседании
Диссертационного совета К 065.01.lt) по присуждению учёной степени кандидата физико-математических наук в Таджикском Государственном Национальном Университете (7340025, г.Душанбе, пр. Рудаки, 17).
С диссертацией можно ознакомиться в научной библиотеке Таджикского Государственного Национального Университета.
Автореферат разослан
1998 г.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. По данным ЮНЕСКО более половины всего занятого населения промышленно-развитых стран прямо или косвенно принимает участие в процессе производства или распространения информации. Современная цивилизация достигла такого уровня развития, при котором сумма человеческих знаний удваивается каждые 1-2 года. В такой же степени возрастает необходимость увеличения реального освоения накопленной и вновь создаваемой информации. Так как практически вся информация организована средствами естественных языков, любая нация традиционно решает эту проблему посредством перевода.
Потребности в переводе и спрос на него резко возросли, существенно опередив при этом темпы роста контингента квалифицированных переводчиков. Классический закон "соответствия спроса и предложения" по каким-то причинам пока не сработал: нехватка переводчиков - это реальный факт, наблюдаемый повсеместно в мире; предотвратить дальнейшее усугубление ситуации пока никакими средствами не удается; и похоже, что никакие средства, кроме повышения производительности переводческого труда за счет использования новых информационных технологий не помогут. В настоящее время такой технологией является компьютеризация. Из всех средств компьютеризации наиболее полно проблему перевода с одного естественного языка на другой решают системы автоматического перевода.
Системы автоматического перевода предназначены для осуществления перевода без вмешательства человека. Это не исключает ни предварительной подготовки текста, ни постредактирования. Однако, весь процесс перевода - с того момента, как введен входной текст, и до выхода выходного текста - целиком обеспечивается самой системой автоматического перевода без какого-либо участия человека.
Созданием систем автоматического перевода занято научное направление, называемое автоматическим переводом (АП).
Проблеме АП посвящено немало работ. В то же время работ, где бы в качестве объекта перевода рассматривался современный таджикский язык, нет. Поэтому формализация грамматики таджикского языка (как и любого другого естественного языка) с точки зрения АП представляет как практический, так и теоретический интерес.
В связи с обретением государственной самостоятельности задача построения систем автоматического перевода, в которых входным или выходным языком являлся бы таджикский язык, для Таджикистана становится особо актуальной.
Диссертационная работа выполнена в рамках плана научно- исследовательских работ Математического института с ВЦ Академии наук Республики Таджикистан и Постановлений Совета Министров Республики Таджикистан о дальнейшем развитии таджикского языка.
Цель работы. Целью диссертационной работы является разработка и реализация системы автоматического перевода с таджикского на английской на примере слов таджикского языка, основы которых являются именами числительными.
В дальнейшем будем обозначать множество всех слов таджикского языка, основы которых являются именами числительными, через С.
Методы исследования. При разработке системы АП использовались методы теории формальных языков (для формализации грамматик) и методологический подход СУБД (для формирования базовых словарей).
Научная новизна и результаты. Для слов таджикского языка, основы которых являются числительными, автором построены:
- база данных морфологии;
- модель морфологического синтеза;
- модель морфологического анализа;
- модель синтеза семантически-эквивалентных словам сеС выражений* таджикского языка на основе правил синтаксиса таджикского языка, соответствующих правилам морфологии;
- модели синтеза переводов на английский язык слов, составляющих семантически-эквивалентные словам сеС выражения таджикского языка.
Реализована система автоматического перевода слов сеС с таджикского на английский язык на персональном компьютере РС АТ.
Все полученные результаты - новые.
Практическая и теоретическая ценность. Выбор в качестве объекта перевода слов сеС позволяет наиболее полно проверить концепцию АП слов таджикского языка, т.к. слова сеС объединяют в себе свойства слов, основы которых являются именными частями речи.
В основу реализованной системы АП положен принцип, согласно которому анализ текста на входном и синтез текста на выходном языке представляют собой принципиально независимые процедуры. Поэтому полученные результаты могут быть использованы для построения систем автоматического перевода, в которых входным или выходным языком являлся бы таджикский язык, и во всех областях, где рассматривается проблема переработки машинами текстов на таджикском языке.
Публикации. Основные результаты работы отражены в трех статьях автора. [1-3].
Структура работы. Диссертация состоит из введения, четырех глав и приложения.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы, формулируется цель работы дается краткий обзор литературы по АП, в соответствии с которыми классифицируется строящаяся система АП и определяются подзадачи построения этой системы.
Глава I посвящена этапу анализа. В строящейся системе автоматического перевода объектом перевода являются слова. Следовательно, этап анализа осуществляется на уровне слова (на морфологическом уровне) и представляет
собой морфологический анализ._
1 выражением будем считать слово, словосочетание или предложение.
В результате морфологического анализа словоформа разделяется на части, называемые морфами с каждым из которых связано некоторое смысловое значение, называемое морфологической характеристикой
Так, например, в результате морфологического анализа словоформа шастум%ояшон_ разделяется на 5 морфов, каждому из которых соответствует своя морфологическая характеристика:
шаст - основа-числительное; ум - порядкоеость;
■ множественное число; яшон ■ личное окончание 3-го лица множественного числа; _ - признак окончания словоформы (пробел). Т.е. слово рассматривается как упорядоченная совокупность морфов, полная информация о каждом из которых (по аналогии с теорией И.А. Мельчука о предложении) описывается структурой:
<морф; морфологическая характеристика; правило морфемики> (1)
Здесь правило морфемики - правило употребления морфа, связь его с другими морфами, влияние его на употребление других морфов и морфологических характеристик.
Автором установлено, что строение слов сеС таково, что в качестве правила морфемики, соответствующего каждому из входящих в состав словоформ сеС морфов, можно рассматривать список морфов, непосредственно-присоединенных к этому морфу. Например, полная информация о морфе ашон, 1входящем в состав сеС, имеет вид:
ашон; притяжательный суффикс 3 лица множественного лица; у,ро,ам,и,й,
ем, ед,анд,е.
Организованная согласно структуре (1) информация обо всех морфах, составляющих словоформы сеС, представляют собой базу данных морфологии этих слов. Построенная автором база данных морфологии С (далее будем называть ее просто базой данных) позволяет моделировать для слов сеС процессы морфологического синтеза и морфологического анализа.
Наиболее удобно строить эти модели средствами теории формальных языков.
Процесс морфологического синтеза является обратным и более общим по отношению к процессу морфологического анализа. Поэтому исходя из соображений целесообразности, автором сначала построена модель синтеза словоформ рассматриваемого класса. Условная грамматика 0<УЬ\¥1,1,Я1,Х1>, где
VI = {у} - множество морфов базы данных;
Уо с V] - множество, морфов базы данных, являющихся
именами числительными;
Ш, = {\у} - множество морфологических характеристик ба-
зы данных;
1е \У1 - причем, 1= имя числительное;
К1={Г1,:«,-»у| Х1Гц } - множество правил вывода слов сеС;
Х1 = ¡Хш, } - множество условий применимости правил Кь
представляет собой модель морфологического синтеза слов сеС.
Отметим, что условие применимости правила Гц - Х1Гц - принимается как "метка Гц представляет собой элемент множества VI, входящий в подстановку правила Г1 и ", т.е. в качестве меток правил вывода слов сеС используются морфы базы данных. Поэтому последовательность меток правил грамматики 0<^1,\У1,1,111,Х1>, применяемых для синтеза любой словоформы сеС, представляет собой морфологически-разобранный вид (в виде последовательности морфов) искомой словоформы.
Следовательно, условная грамматика С<У1^1,1Д1,Х1> сочетает в себе нужную порождающую способность с хорошей "объяснительной силой" и позволяет алгоритмизировать процесс морфологического разбора словоформ сеС.
Конкретный вид этого алгоритма определяется выбором стратегии разбора, который полностью отражает в правилах морфемики базы данных и правилах Яь
Для групп морфов2 выражающих одни и те же морфологические категории, введены обозначения:
9= [як, ду, се, чор, пащ, шаш, %афт, %ашт, ну%, да%, ёзда%, дувозда^, сензда%, чорда%, понздах, шонздая;, %абда%, жаждал;, нуздау, бист, си, чил, панчоу;, шаст, хафтод, %аштод, навад, сад, яксад, дусад, сесад, чорсад, панцссд, шашсад, %афтсад, %аштсад, нух,сад, %азор, миллион, миллиард} -основы-числительные;
X = [ам, и, ем, ед, анд} - предикативные связки;
[д. = {амон, атон, аигон, ам, ат, аш} - притяжательные суффиксы;
ф = {ум, умин}- порядкоеость;
[%о, он}-множественное число;
Морфологические характеристики - союзное окончание, послелог, артикль, изафет, нумеративностъ, разделительность - различны и не относятся ни к одной из вышеперечисленных категорий, поэтому каждый из соответствующих им морфов у, ро, е, и, то, тоги представляет собой группу.
В соответствии с этим в основу грамматики 0<У1,\>Л,1,К1,Х1> положена
схема Я(С): {
I I
щсН
писания таджикского языка.
е (_, у.ро, Я, е, ц, и, ф, то, тоги)
то, тоги {-У. ро, X, е, ц., и, 1)
% (-,У, ро, X, е, ц, и)
Ф У, ро, X, ц, и,
и ( -,У, ро, X, ц.)
Ц> е ( -У, ро, X)
ро,Х (-У)
В автореферате не приводятся морфы, вид которых определяется правилами право
Правила Я(С) применяются следующим образом. Если, например, 11(С)= ф (_,у, ро,\у,и, где ф = {ум, умин}, то за любым из морфов ум, умин, стоящих перед круглой скобкой (заголовок правила), в анализируемой словоформе С может следовать один из морфов, содержащихся внутри круглых скобок (список правила).
Алгоритм морфологического разбора словоформы сеС по схеме ЩС) определен рекурсивно.
Пусть в словоформе сеС найдена морфема т.
1. В словоформе с выделяется подстрока г(с,т), расположенная правее найденной морфы т.
2. Подстрока г(с,т) рассматривается как словоформа, к которой применяется правило Я(С) с заголовком, содержащим морф т. В списке этого правила производится поиск цепочки наибольшей длины, являющейся подстрокой строки г(с,т).
3. Разбор словоформы завершается, когда И(С) = _. Отметим, что
на первом этапе разбора поиск т осуществляется в словаре основ 0; на втором этапе применяется правило в (_, у, ро, X, е, ц, и, ф, то, тоги)',
на последнем этапе выделяется символ пробела "_" - признак окончания словоформы сеС. Например, этапы морфологического разбора словоформы чорумашонро по алгоритму, задаваемому схемой ЩС), отражены в таблице:
г(с,т) применяемое правило схемы ЖС) т
чорумашонро _ {6} чор
умашонро_ 0 (_, у, ро, X, е, р, и, ф, то, тоги) ум
ошонро_ Ф СУ.ро, X, щи, ^ тион
РО- \ii_jy.po, X) ро
— РО,Х( ,у) —
Приведенный алгоритм морфологического разбора однозначно разбивает словоформы сеС на морфы. Однако морфологический анализ кроме разбиения словоформы подразумевает установление соответствия между морфами, полученными в результате морфологического разбора, и морфологическими характеристиками.
В процессе установления соответствия между морфами и морфологическими характеристиками возникает проблема разрешения случаев, когда морф словоформы соответствует более одной морфологической характеристики (омография морфов). Отметим, что разрешить омографию морфов вне контекста словоформы не всегда удается.
Например, морфу сил соответствует две морфологические характеристики -притяжательный суффикс 1 лица единственного числа и предикативная связк 1 лица единственного числа.
При морфологическом анализе словоформ якамро и шашумаму разрешить вопрос об омографии морфа ам можно лишь для первой словоформы, т.к. только правило морфемики, соответствующее морфологической характеристике притяжательный суффикс 1 лица единственного числа содержит морф ро. Омография же морфа ам в слове шашумаму не разрешима вне контекста этого слова, т.к. оба правила морфемики, соответствующие морфологическим характеристикам притяжательный суффикс 1 лица единственного числа и предикативная связка 1 лица единственного числа содержат морф у.
Из рассмотренного примера видно, что в грамматике являющейся моделью морфологического анализа С, ограничения на вывод должны касаться ие только порядка применения правил, но и их применимости к строке на промежуточном уровне.
Построенная автором Е-грамматика 0<\У'ь У'^УоД'^ХЧ >, где
V'! = {V'} - множество морфов базы данных;
= - множество морфологических характеристик
необходимых для морфологического анализа слов сеС (с учетом случаев неразрешимой омографии морфов);
К'^г'^'-^лу' | Х,г',- } - множество правил вывода;
X', = {Х,г';} - множество условий применения правил ЦЛ
, включающие в себя условие применимости к строке на промежуточном уровне для разрешения случаев омографии морфов Е г',(у'®\°У;
представляет собой модель морфологического анализа словоформ С.
Глава II посвящена этапу межъязыковых операций. Наличие этого этапа при построении систем АП объясняется неоднозначностью естественных языков. Так, в процессе перевода некоторых из словоформ сеС на английский язык возникает необходимость преобразования этих словоформ к виду, удовлетворяющему грамматике английского языка. Преобразование подобного вида назовем межъязыковой нормализацией слов сеС при переводе на английский язык.
Содержательно этап межъязыковой нормализации словоформ сеС при переводе на английский язык можно разделить на два подэтапа:
снятие всех своеобразий морфологии слов сеС (нормализация); учет всех возможных потерь информации при переводе словоформы сеС на английский язык вне контекста (нормализация постредактирования).
Автором введены формальные определения нормализации и нормализации постредактирования, вообще говоря, для перевода слов любого языка Ц на
любой ЯЗЫК Ь; ■_
3Е г\(у'0Ун) принимает как "в строке, к которой применяется правило г*; , за морфом V' из подстановки этого правила следует один из морфов списка Vой (V!"", у2ои, . . описывающего всевозможные случаи омографии для морфа V'.
Нормализация слов сеС осуществляется за счет одной из особенносте таджикского языка, заключающейся в том, что многие словоформ!,г таджикского языка семантически эквивалентны целому выражению, состоящему из нескольких слов (словосочетанию, предложению). Причем, употребление того или иного слова таджикского языка в этом выражении обусловлено и тем, какие из морфов включает в себя исходная словоформа. Поэтому нормализаци слова с еС можно рассматривать как "перевод" с таджикского языка на таджикский. В процессе этого "перевода" происходит перенос особенностей строения слова сеС в область синтаксиса.
Выражение, полученное в результате нормализации слова сеС, будем обозначать N(0) и называть нормализованным видом с.
с N(0)
пан'(умамонро_ чортогиятон_ шашамед_ бистем_ чорамеро_ панчуми_моро_ чортогии_шумо_ гиаши_ман_мсбошед_ бист__мебошем_ чори_манеро__
В дальнейшем через Я будем обозначать множество слов, составляющих выражения N(0).
Заметим, что словарь в кроме словофом класса С включает в себя словоформы личных местоимений {¿п}={ман, ту, вай, мо, шумо, ощо} (причем, в этих случаях левой подстрокой словоформ класса С, входящих в состав N(0), является строка и ) и формы глагола мебошад.
Определим функцию, которая для любых строк 14/1 и 1р2 показывает, является ли строка ц/г подстрокой строки 4/1.
[ Л, если >|;г <24/1
(у* ) Ч
1ц/, если >)/г
(здесь Л - знак для обозначения пустой строки). Тогда функция
\ Л, если 5С (у)= Л
81 (с,14/) = { мебош®А, если 5с (>(/)= X (2) I и_ , если 5с (<у)= ц
дает возможность представить нормализованный вид сеС как конкатенаци строк:
N(0= а, ®5( (с, ц)®5, (с,е)® 5, (с, Ц®аг (3)
Здесь значения строк сч и а.г определяются моделью синтеза словоформ С -ОсУ.^^ДьХ^ или схемой:
с = СС1 ®5С (ц)®5с (е)® 8С (Х)®а2 . Формулы (2)-(3) определяют алгоритм нормализации словоформ сеС.
На основании этого алгоритма автором построена (путем замещения (см. (2)) в грамматике G<Vi,Wi,I,Ri,Xi> морфов ц, X строками и_ Ui , ме-бош®Х) модель синтеза выражений N(c).
Однозначный перевод слов seS вне контекста на английский язык по схеме
слово входного языка -> слово выходного языка (4) не всегда возможен.
Например, переводом слова чилу на английский язык является:
1. forty, если чту рассматривать как слово предложения чилу_як',
2. forty_and , если чилу рассматривать как слово предложения чи-лу_ш.аст_сад_мешавад',
3. forty_but_ , если чилу рассматривать как слово предложения ин _рак,ами_чилу_шумо_чор_навиштед.
Поэтому в качестве обобщенного перевода слова чилу на английский язык можно рассматривать слово forty и текст в зависимости от контекста или but,или and_, или_, который может быть использован при постредактировании, т.е. для перевода слова чилу на английский язык необходимо преобразование вида:
чилу —> чил в зависимости от контекста или but_, или and_, или _ .
Преобразование такого вида и есть нормализация постредактирования слова для перевода на английской язык, т.е. для формализации процесса нормализации постредактирования слов seS необходимо иметь:
словарь составляющих слова seS морфов, морфологические характеристики которых не выражаются средствами английского языка вне контекста;
тексты, в которых перечислены все возможные варианты выражения морфологических характеристик, соответствующих этим морфам, средствами английского языка.
Словарь морфов, необходимых для постредактирования слов seS, можно задать перечислением:
{р}={е. У.Р°}-
А для текстов, соответствующих этим морфам, введем обозначения R^:
R« = в зависимости от контекста или а_, или the, или _; Rpo" показатель прямого дополнения; Rу~ в зависимости от контекста или а_, или the, или _.
Введем функцию
[Л, если §,(р)=Л Sz(s,p) = •!
(.Rp, если 5t(p)=p
Тогда согласно определению нормализации постредактирования и правилам синтаксиса английского языка алгоритм нормализации постредактирова-
ния для перевода слов seS на английский язык задается оператором Np следующим образом:
Np (s)=s\e®5,(s,e)\po®5z(s,po)\y®5z(s, у) (5)
Отметим, что формула (5) алгоритмизирует процесс нормализации постредактирования только для грамматически-разобранных словоформ seS, т.к. в (5) не учитываются случаи включения строк е, у, ро в морфы, не выражающие морфологические характеристики артикль, союзное окончание, послелог.
Множество слов, полученных в результате нормализации постредактирования S для перевода на английский язык, будем обозначать через S'. Заметим, что множество S представимо как объединение множеств слов4 таджикского языка вида:
S ={а1®а2}и{и_ц1®а2}и{_мебош®Я.®а2}.
Соответственно множество S' представляет собой объединение множеств:
S' = {oti '}i_>{u_|ii}u{_Me6oni®X}.
Здесь Oi '= Np (ai)= ai\e®S,(£Xi ,e)\/>o®8z(ai ,po)\y®8z(ai, y).
Глава III посвящена этапу синтеза. Автором в соответствии с основными положениями теории формальных языков дано определение оператора прямого перевода текстов таджикского языка на английский язык.
Пусть у - текст таджикского языка, \уа - текст английского языка, причем, тексты ty н Ч*« семантически и функционально тождественны. Тогда оператор Т, такой что
T(i|i) = ч»а ,
будем называть оператором прямого перевода текстов с таджикского языка на английский.
Процесс перевода можно начинать с любого уровня (например, с уровня морфов). Поэтому описание минимального словаря, необходимого для прямого перевода текста ц/ на английский язык при помощи оператора прямого перевода Т представимо как соответствие между семантически-значимыми с точки зрения английского языка строками, образованными из морфов, составляющих текст и семантически и функционально равнозначными им строками, образованными их морфов английского языка, составляющих текст ч/а.
Так, перевод слов s'eS' на английский язык при помощи оператора прямого перевода автором описывается формулами:
T(a,')=T(8ai'(mo2u))®T(e®6ai'0>A»))®T(5ai'(«o))®T(8a,'(moiK)) ®8а,'(£))
4 Строки u_Hi©0C2 не являются словами, однако термин "слово" употребляется по отношению к ним, т.к. в таджикском языке падежные отношения выражаются средствами изафета.
Т(мебош®Х)=Х«
А словарь, необходимый для перевода слов з'ев' на английский язык при помощи оператора прямого перевода описывается формулами:
Т(8)=0„
Т(тиогм)= Л
Т (тоги)= 1П_
Г Л, если 8а.1'(^)®Ьа1'(_тоги) * Л Т(8а,'(тоги)®6а1'(|))= ^
I я, если 6а1'(^)®8<Х1'(»10ги) = Л
Г 9®th , если 9 ¿{9'} I first , если 0=як
I second , если в=ду
Т(9®фthird , если 6=се
I fifth , если в=панч
I eighth , если Q=^aium
I ninth , если 6=нул(
I twelfth , если Э=дувозда%
Здесь:
{9' }= {як, ду, се,чор, пану, %auim, ну%, дувоздаэ;}
{0»'}= {first, second, third, fifth, eighth, ninth, twelfth}
{0,}= {one, two,three, four, five, six, seven, eight, nine, ten,eleven, twelve,thirteen, fourteen, fifteen, sixteen, seventeen, eighteen, nineteen, twenty, thirty, fourty, fifty, sixty, seventy,eighty, ninety, hundred, one_hundred, two hundred, three hundred, four_hundred, fivehundred, six_hundred, sevenhundred, eight hundred, nint hundred, thousand,million, milliard }- множество переводов основ 9 на английский язык;
{Цл}= { ту_, your_, fhis_, it's_], our, their_} - множество переводов слов u_ni на английский язык;
{\а} = {[i_]am_,[your_]are_,[he_,she_, it_]is_,[we_]are_,[theyj\are_J - множество переводов слов мебош®Я на английский язык.
Заметим, что для осуществления перевода слов яеЭ на английский язык этот словарь необходимо дополнить (см.(5)) статьями, в которых в качестве перевода морфа р будет рассматриваться текст , т.е.
T(p)=Rp
Перевод слов сеС кроме полученного в результате этого дополнения словаря требует (см.(З)) формализовать соответствия между правилами морфологии слов сеС и правилами синтаксиса английского языка. Ввиду того, что и таджикский, и английский язык являются аналитическими по строю языками (таджикский - флективно-аналитический) это соответствие автором формализуется при помощи оператора перевода следующим образом:
Т(с)=Т(5е(тол/))®Т(8с(е)®5с(ц))®Т(6®8,(ул0)®Т(6с(то))®
Т(8с(тоги)®8с-(|))® T(5c(po))®T(St(X,)®T(8t(y)) (6)
Формула (б) не только формализует соответствие между правилами морфологии слов и правилами синтаксиса английского языка, но и является алгоритмом перевода этих слов на английский язык.
Отметим, что и приведенные выше алгоритмы перевода слов seS на английский язык, и описание необходимого для этого перевода словаря получены на основе построенных автором моделей синтеза слов T(s). Ниже приводятся описания моделей синтеза переводов слов S на английский язык. Пусть
T(at') - общий символ для обозначения перевода на английский язык словоформ ai';
Vai' = {9. s, in_,-,_,ie} - словарь строк, составляющих
(T(cti')};
Wai' = 1(а.\')и{порядковостъ,нумератив,разделителъностъ,множественное число,конец словоформы} - словарь морфологических характеристик, соответствующих словарю Vai'; Rai' - правила синтеза словоформ T(ai');
Xai' - условия применения правил Rai',причем, схема применения правил Rai' имеет вид:
го :T(ai)-> Л ri : нумератив -> Л
гг : множественное число -» Л | 3(порядковость)л3(разделительность)
гз : 0®порядковость ->ÖJSth
г4 : _ - I 3(_ hundred)
Гз : 9'® порядков ость
Тб : 9'® разделительность^>1п_да®5
Г7 : множественное число ->s
г8 : 9 -»• 90
га : yth->ie®th
гю: ys-tie®s
Гц : _ -вконец словоформы
Тогда условная грамматика G<Vai',Wcu',T(ai'),Rai',Xai'> является моделью синтеза переводов слов аГ на английский язык.
Пусть
Т(и_jii) - общий символ для обозначения переводов на английский язык словоформ и
W//„=T(u_ßt)vj{ln.ed. ч.,2л.ед. ч.,3л.ед.ч.,1л.мн.ч.,2л.мн.ч.,3л.мн.ч.) - словарь морфологических характеристик, соответствующих словарю {jia}',
Rßa: Т(и_ßi) ->Л
1л.ед.ч. -*ту_ 2л.ед.ч. ->уоиг_ Зл.ед.ч. -+[his_, her_, it's J 1л.мн.ч. -*our_ 2л.мн.ч. ->your__
Зл .мн.ч. ->their^ - правила синтеза T(ju_fii).
Тогда грамматика G<{/ia}, W//„,T(«_jii), является моделью синте-
за переводов слов и_jii на английский язык. Пусть
Т{мебошЛ) -общий символ для обозначения переводов на английский язык словоформ мебошЛ',
WЛа=Т{мебошА)<и{1л.ед.ч.,2л.ед.ч., Зл.ед.ч., 1л.мн.ч., 2л.мн.ч., Зл.мн.ч.}-словарь морфологических характеристик, соответствующих словарю {Ла};
RA«: Т(мебошЛ) ->А
1л.ед.ч. ->[/_]ага_ 2л.ед.ч. -»[уои_Jare_ Зл.ед.ч. ->[he_, she_, it_Jis_ 1л.мн.ч. ->[we_Jare_ 2л.мн.ч. ->fyou_}are_
Зл.мн.ч. -»[they_Jare_ ' - правила синтеза T(мебошЛ). Тогда грамматика G<{Ла}, WAa, Т(мебошЛ), КЛа> является моделью синтеза переводов слов мебошЛ на английский язык.
В главе IV описывается структура системы АП слов сеС на английский язык и программное обеспечение, построенное автором для реализации этой системы.
Перевод не исчерпывается анализом текста на входном языке и синтезом текста на выходном языке. Система перевода слов сеС на английский язык, строящаяся в этой работе, не является исключением из этого правила, т.к. хотя алгоритм процесса перевода слов сеС заключается в последовательном выполнении 1.анализа переводимого слова с; 2. синтеза Т(с);
но этап синтеза Т(с), алгоритмизируемый формулой (6), в неявном виде включает в себя: 2.1. нормализацию С,
2.2. нормализацию постредактирования,
2.3. морфологический синтез T(s), 2.4. синтаксический синтез Т(с).
Причем, в качестве выходных данных для каждого из этапов перевода используются входные данные предыдущего этапа, т.е. структурограмма системы перевода слов се С на английский язык имеет вид:
■ i x:::: ::::: ::: : :::::::::-: : в:Я)Д <:.Д0В0Ф01'МЬГ Ч . ,.:::х х ':":'.:^МОРФОЛОГИЧЕСКИЙ АНАЛИЗ СЛОВОФОРМЫ: •:
—-----СЛОВОФОРМА .<= с?. ц а " 1 '-■ ет
-—-, НОРМАЛИЗАЦИЯ НЕОБХОДИМА?
НОРМАЛИЗАЦИЯ СЛОВОФОРМЫ
•—II 141 НКРКНОДК НА АНГЛИИСКИИ ЯЗЫК / ----------------- ПОеПТДАЛСГИРО- / 11ЕОЕХОДИМА? / да / нет
..::::: НОРМАЛИЗАЦИЯ ПОСТРЕДАКТИРОВАНИЯ :.■:... | .:::::•::::•: :оинтез 1ют1ю;индлш:лнйскпн.ш1ж : КОНКЦ
Система АП слов на английский «зык реализована в рамках СУБД "КАРАТ\М" на персональном компьютере PC АТЛ286.
Автором предложен такой способ хранении базы данных (не нарушающий ее целостности), при котором реализованная система АП может использоваться в системах большего объема.
Перевод слов осуществляется последовательным выполнением трех процедур: выделения основы, морфологического анализа, перевода.
Тексты программ и файлов данных, необходимых для их работы, приведены в приложении.
Была проведена экспертная проверка построенной автором системы АП на английский язык. Результаты экспертизы показали работоспособность системы АП и достаточную эффективность предлагаемого алгоритма перевода, адекватность моделей анализа слов сеС и синтеза Т(с).
Основные положения диссертационной работы опубликованы в следующих работах автора:
1. К вопросу автоматизации морфологического анализа словоформ таджикского языка, образованных из имен числительных. Докл. АН Тадж. ССР., т.XXXIII, № 10, 1990 т.
2. Автоматизированная нормализация слов таджикского языка, порожденных именами существительными, прилагательными и числительными. Докл. АН РТ, т. XL, № 9-10, 1997 г.
3. Автоматизация перевода на английский язык слов таджикского языка, основой которых являются числительные. Изв. АН РТ. Отд. физ.-мат., хим. и геол. и., № 1, 1992 г.
Текст работы Исмоилова, Рано Мизробовна, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
/п /: ОЦ
С/ / ч/ ^
АКАДЕМИЯ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ИНСТИТУТ МАТЕМАТИКИ
ИСМОИЛОВА РАНО МИЗРОБОВНА
МОДЕЛИРОВАНИЕ ПРОЦЕССА ПЕРЕВОДА С ТАДЖИКСКОГО ЯЗЫКА НА АНГЛИЙСКИЙ ЯЗЫК СЛОВОФОРМ, ОБРАЗОВАННЫХ ОТ ИМЕН
ЧИСЛИТЕЛЬНЫХ
05.13.16 - применение вычислительной техники, математического моделирования и математических методов в научных исследованиях
УДК 808.3=91.550
Диссертация на соискание ученой степени кандидата физико-математических наук
Научный руководитель доктор физико-математических наук, академик Усманов З.Д.
ДУШАНБЕ 1997
СОДЕРЖАНИЕ
Глава I, Морфология слов таджикского языка, основы которых являются числительными. ..........................................16
§1, Основы морфологии ж некоторые сведения из формальной теории языков . .....................................................16
1. Основы морфологии. ...............................................16
2. Некоторые сведения из формальной теории языков. ......... 18
2.1. Строки и операции над ниш. ....................................18
^ , ЯЗЫКИ. ....................................».,•..,.. 21
, .Грамматики. .............................................22
.3.1. Вывод в грамматике. ............................ 23
.3.2. Грамматики с ограничениями на вывод и условные
грамматики. ...........................................24
§2. Лингвистическое обеспечение. ...........................................26
1. Структура языковых единиц морфологического уровня. ..........26
2. Правила морфемшш. ..................................... 27
§3. Модели морфологии. ....,..........................................36
1. Модель морфологического синтеза. .....................................36
2. Модель морфологического анализа. ..............................................38
3. Обобщенный алгоритм грамматического разбора. .................41
Глава II. Нормализация. ...............................................45
§1. Дополнительные сведения, ...............................................45
1. Лингвистические сведения. ............................,. 45
2. Схема локального перевода. ...................................46
^¿Íí Íí i iO JpIVt d «Jll'iO 1Д.у!1 i"? 9. ^"l1 I
§3. Нормализация словоформ класса с. ........................49
1.'Алгоритм нормализации С. ............................... 49
2. Модель синтеза 1(0). ................................... 51
§4. Нормализация постредактирования. .......................... 52
1. Локальный перевод 1(G) на английский язык и необходимость постредактирования. .................................... 52
2. Нормализация постредактирования для локальных систем перевода с языка Ь^ на язык L, . ........................ 53
3. Нормализация постредактирования слов S для перевода на
cicíí^t яоык« • »•¡■«»«••«•••«••••«««••••«•«•••«•••«••-.•и 54"
1.x I.« Пэ рВ 130 Д в ••«•««•«•••••«««»••titiip«*«*»««*««»»*»*v«*»«
§1« Лингвистическая методика перевода слов С на английский
1. Классифжация системы АЛ С на английский язык. ......... 56
2. Оператор прямого перевода с таджикского языка на англий-
скмй ячзнис » • ее»*®««*«»»»***»*»*»*»*«*»*»»»»««*»«»®«*»*««».*» зт^
§2« Прямой перевод слов S на английский язык. ................. 59
1. Модели синтеза переводов слов S? английский язык. ...... 59
IЛ. Модель синтеза Т(а'). ........____................. 60
1.2. Модель синтеза
1.3. Модель синтеза Т (мебсшА.). .........____............ бз
2. Обобщенный алгоритм перевода слов S на английский язык, 64
2.1. Прямой перевод слов S'. ..____..................... 64
2.2. Прямой перевод слов S. ....................____.... 65
§3. Алгоритм прямого перевода слов С на английский язык. ...... 66
I. Обобщенный алгоритм прямого перевода слов G на англий-
СКИЙ язык,
* • » а
9 « в о * я в
66
Алгоритм прямого перевода слов С на английский язык. 2 « X « 1/ЛОВЗрВ » •
2.2. Правила синтактики. ..................
* я « «
Глава IV. Реализация системы АН С на английский язык, §1. Структурограмма системы АП С на английский язык.
§2. Способ хранения базы данных. ________.............
§3. Реализация системы.
1. База данных. ...
2. Программное обеспечение. Литература. .... Приложение.
« * 3 8 в *
• «кем
» а « в в * е1
67
68 70
2.3. Алгоритм прямого первода слов С на английский язык. 71
72
72
74
75 75
гт с
I о
78
80
ВВЩЕНИЕ.
Актуальность теш. По данным ЮНЕСКО более половины всего занятого населения нромышленно-развитых стран прямо или косвенно принимает участие в процессе производства или распространения информации. Современная цивилизация достигла такого уровня развития, при котором сумма человеческих знаний удваивается каждые 1-2 года. В такой же степени возрастает необходимость увеличения скорости реального освоения накопленной и вновь создаваемой информации. Так как практически вся информация организована средствами естественных языков, любая нация традиционно решает эту проблему посредством перевода.
Потребности в переводе и спрос на него резко возросли, существенно опередив при этом темпы роста контингента
квалифицированных переводчиков. Классический закон "соответствия спроса и предложения" по каким-то причинам пока не сработал; нехватка переводчиков - это реальный факт, наблюдаемый повсеместно в мире; предотвратить дальнейшее усугубление ситуации пока никакими средствами не удается; и похоже, что никакие средства, кроме повышения производительности переводческого труда за счет использования новых информационных технологий не помогут. В настоящее время такой технологией является компьютеризация. Из всех средств компьютеризации наиболее полно проблему перевода с одного естественного языка на другой решают системы автоматического перевода.
Системы автоматического перевода предназначены для осуществления перевода без вмешательства человека. Это не исключает ни предварительной подготовки, текста, ни постредактирования. Однако, весь процесс перевода - с того момента» как введен входной текст» и до. выхода выходного текста - целиком обеспечивается самой системой автоматического перевода без какого-либо участия человека.
В связи с обретением государственной самостоятельности задача построения систем автоматического перевода, в которых входным или выходным языком являлся бы таджикский язык, для Таджикистана становится особо актуальной.
Созданием систем автоматического перевода занято научное направление, называемое автоматическим переводом (АЛ). Достаточно полное и всестороннее описание разработок в области АП и обширная библиография приводятся в известной монографии 0.С.Кулагиной [13.
Датой рождения АП как научного направления считают 1946г., когда А. Бут ж У.Уивер впервые в явном виде сформулировали задачу использования ЭВМ для перевода текстов с одного языка на другой. Однако» первые годы быт посвящены скорее дискуссиям о том, возможен ли автоматический перевод.
Толчком к повсеместному развитию работ в области АП послужил Джорджтаунский эксперимент, проведенный в 1954 г., который состоял в том, что впервые в мире был осуществлен перевод предложений с русского на английский.
В 1954 г. начались работы по АП и в СССР ¡21.
В последовавшее за этим десятилетие широкое развитие теоретических исследований в области АП привело не только к построению экспериментальных систем, но и к созданию первых
практически-действующих систем.
В 60-х годах наблюдался спад интереса- к АП, усиливающийся по мере того, как выявлялись всё новые и всё более сложные лингвистические проблеме ж всё яснее осознавалось, что процесс перевода отнюдь не так легко поддается автоматизации, как это вначале думалось.
В семидесятых годах начался новый подъем работ в области АЛ. Это связано с развитием смежных и тесно связанных с АЛ математической и прикладной лингвистики. Большую роль также сыграло развитие программирования и увеличение возможностей ЭВМ. Кроме того АЛ перестал быть единственной областью, где рассматривается проблема переработки машинами текстов на естественных языках [3,43.
Исследователи, работающие в области АЛ, при решении лингвистических проблем АЛ почти целиком сосредоточили свое внимание на английском языке и вследствие этого разработали такие инструменты описания английского языка, которые специфичны именно для английского языка (а заодно по случайному совпадению для языков, сходнных с английским). Однако, английский язык нельзя считать вполне показательным примером естественного языка. Поэтому включение в область исследований АЛ любого естественного языка, для которого не разработан лингвистический аспект АЛ, имеет большое значение. В настоящее время одним ш таких языков является современный таджикский язык.
Цель работы. Целью диссертационной работы является разработка ж реализация системы автоматического перевода с таджикского на англйский язык на примере слов таджикского языка, основы которых
являются именам числительными.
В дальнейшем будем обозначать множество всех слов таджикского языка, основы которых являются именами числительными, через С.
Выбор в качестве объекта перевода слов ссС позволяет наиболее ножю проверить концепцию АП слов таджикского языка, т.к. слова ссС объединяют в себе свойства слов, основы которых являются именными частями речи, а количество основ-числительных в таджикском языке составляет всего 41 слово.
Диссертационная работа выполнена в рамках плана научно-исследовательских работ Математического института с ВЦ Академии наук Республики Таджикистан и Постановлений Совета Министров Республики Таджикистан о дальнейшем развитии таджикского языка.
Краткое содержание работы. Современная теория АП наиболее предпочтительной считает такую методику перевода, при которой перевод с одного языка на другой кроме этапов анализа и синтеза
предполагает выполнение этапа межъязыковых операций. Необходимость этого этапа обусловлена неоднозначностью грамматик естественных языков. Поэтому обобщенный алгоритм перевода с одного языка на другой предполагает последовательное выполнение этапов:
(I) анализа;
(II) межъязыковых операций;
(III) синтеза.
В соответствии с этим алгоритмом построена структура диссертацжшой работы:
первая глава посвящена анализу слов таджикского языка, основы которых являются именами числительными;
вторая - межъязыковым операциям, необходимым для реализации системы АЛ слов с€С на английский язык;
третья - синтезу переводов слов ееС на английский язык;
четвертая - программному обеспечению системы АН слов с<еО на английский язык.
(I) Анализ. В строящейся системе автоматического перевода объектом перевода являются слова. Следовательно, этап анализа осуществляется на уровне слова (на морфологическом уровне) и представляет собой морфологический анализ.
В результате морфологического анализа словоформа разделяется на основу и части, называемые морфами, каждой из которых ставится в соответствие некоторое смысловое значение, называемое морфологической характеристикой.
Содержательно морфологический анализ можно разделить на два подэтапа:
- представление словоформы в виде упорядоченной совокупности, состоящей из основы и морфов (морфологический разбор словоформы);
установка соответствия между морфами и морфологическими характеристиками.
Первым шагом морфологического разбора является выделение из словоформы основы. Для выделение основы из словоформы сеС необходимо иметь словарь основ-числительных таджикского языка.
Выделив из словоформы некоторую ее часть б, являющуюся элементом словаря основ и удалив ее из словоформы, мы для дальнейшего разбора получаем усеченную словоформу
с,=с\8
Остаток словоформе с,, состоит только из морфов, т.е.
о^ 0« * * у
где (,п) - 1-ый морф словоформы с. Поэтому для продолжения морфологического разбора мы должны иметь словарь морфов и правила употребления морфов (правила морфемики).
Выделив очередной морф ш. из остатка словоформы, мы ищем среди допустимых (согласно правилам морфемики) морфов морф т3+1, входящий в остаток словоформы
С^С\ (0ЙХЦ е... еШ^) =ПЦ +, е... «Ш .
Полученную в результате морфологического разбора линейную последовательность
будем называть морфологически-разобранной словоформой с.
Известно, что каждый морф имеет свои морфологические характеристики (такие как чжло, лицо, порядковостъ ш т.д.).
Наиболее просто устанавливать соответствия между морфами и морфологическими характеристиками в 'процессе морфологического разбора словоформы, приписав каждому из морфов соответствующие ему морфологические характеристики непосредственно в словаре морфов.
Для реализации этапа морфологического анализа словоформ ссО автором построены".
минимальный словарь основ-числительных таджикского языка, достаточный для анализа и синтеза любой словоформы сеО;
словарь морфов и соответствующих им морфологических характеристик» используемых при словообразовании слов С из основ-числительных;
- база данных морфологии слов С, включающая в себя кроме словаря основ-числительных, словаря морфов ж соответствующих мм морфологических характеристик, правила употребления морфов;
- математическая модель морфологического анализа слов С;
- процедура морф логического анализа слов С.
(II) Этап межъязыковых операций. Неоднозначно о ть естественных языков вызывает необходимость преобразования переводимого текста в процессе перевода к виду, удовлетворяющему грамматике выходного языка.
Так, в процессе перевода некоторых словоформ с*-С на английский язык возникает необходимость преобразования этих словоформ к виду, удовлетворяющему грамматике английского языка.
Преобразование подобного вида назовем межъязыковой нормализацией слов сеО при переводе на английский язык.
Содержательно этап межъязыковой нормализации словоформ сеС при переводе на английский язык можно разделить на два гюдэтапа:
(11.1) снятие всех своеобразий морфологии слов сеО (нормализация слов сеС);
(11.2) учет всех возможных потерь информации при переводе словоформы сеС на английский: язык вне контекста (нормализация постредактирования слов сеС).
(11.1) Нормализация слов сеО осуществляется за счет одной из особенностей таджикского языка, заключающейся в том, что многие словоформы таджикского языка семантически эквивалентны целому выражению, состоящему из нескольких слов (словосочетанию, предложению) . Причем, употребление того или много слова таджикского языка в
этом выражении обусловлено и тем» какие из морфов включает в себя исходная словоформа. Поэтому нормализацию слова ссС можно рассматривать как "перевод" с таджикского языка на таджикский. В процессе этого "перевода" происходит перенос особенностей строения слова ееС в область синтаксиса.
Для осуществления нормализации" слов сеС автором построены:
- таджикско-таджикский словарь» в каждой статье которого морфу т* из словаря морфов, ставится в соответствие такое слово таджикского языка в', что семантическое значение в* эквивалентно морфологической характеристике морфа пТ, а правила употребления слова з' обусловлены правилами употребления морфа ш';
- алгоритм нормализации слов сеС.
Результатом нормализации слова сеС является семантически и функционально эквивалентное ему выражение таджикского языка. Причем, результатом нормализации каждого из слов асЗ, составляющих это выражение, будет являться само слово з.
(11,2) Для учета всевозможных потерь информации при переводе слов ссС на английский язык вне контекста достаточно преобразовать слова таджикского языка всЗ» составляющие полученные в результате нормализации слов сеС выражения, к виду, удовлетворяющему грамматике английского языка, т.е. провести нормализацию постредактирования
СЛОВ 8€5*
Для осуществления нормализации постредактирования слов з€3 автором построены:
- словарь, в каждой статье которого морфу т" из словаря морфов,
морфологическая характеристика которого не выражается средствами английского языка вне контекста, поставлен в соответствие текст
в котором перечисляются все возможные варианты выражения этой морф)логической характеристики средствами английского языка; - алгоритмы нормализации постредактирования слов scS.
Результатом нормализации постредактирования слова s€S является семантически-эквивалентное слову seS выражение, состоящее ив слова таджикского языка в -, для которого существует однозначный перевод на английский язык вне контекста, и текстов в которых перечислены все неоднозначности, возникающие при переводе слова э на английский язык.
Нормализация постредактирования слов scS завершает этап межъязыковых операций для системы ill слов ссО на английский язык.
Результатом межъязыковой нормализации слова ссС является семантически-эквивалентно исходной словоформе выражение, состоящее из слов таджикского языка s'iSf, для которых существует однозначный перевод на английский язык вне контекста, и текстов f^,,, в которых перечислены все неоднозначности, возникающие при переводе слова ссС на английский язык.
(III) Синтез. Обычно в основу каждой системы АЛ полагается одна из двух лингвистических методик:
прямой способ перевода (система АЛ изначально ориентирована на
перевод с одного определенного языка на другой стлоь же определенный
язык);
непрямой способ перевода (синтез текста на выходном языке принципиально независим от анализа текста на входном языке).
Очевидно, что способ перевода, положенны�
-
Похожие работы
- Моделирование на таджикском языке английского простого нераспространенного предложения
- Модели, методы и программы автоматической обработки форм слов в естественно-языковых интерфейсах
- Математические основы автоматизированной таджикско-персидской конверсии графических систем письма
- Архитектура и технология промышленной реализации прикладных лингвистических систем
- Математические модели морфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность