автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Моделирование на таджикском языке английского простого нераспространенного предложения

кандидата физико-математических наук
Зарипов, Сайдахмад Асрорович
город
Душанбе
год
2003
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Моделирование на таджикском языке английского простого нераспространенного предложения»

Оглавление автор диссертации — кандидата физико-математических наук Зарипов, Сайдахмад Асрорович

Введение.

Глава 1. Особенности английского и таджикского простого нераспространенного предложения.

Введение.

§ 1. Простое нераспространенное предложение.

§ 2. Определение, выражение и признаки подлежащего.

§ 3. Определение, выражение и признаки сказуемого.

§ 4. Согласование сказуемого по признакам подлежащего.

§ 5. Расположение членов в простом нераспространенном предложении.

§ 6. Концептуальная модель простого нераспространенного предложения

Глава 2. Построение формализованных моделей английского и таджикского простого нераспространенного предложения.

Введение.

§ 1. Формализованный образ английского простого нераспространенного предложения.

§ 2. Формализованная анализирующая грамматика английского простого нераспространенного предложения.

§ 3. Формализованный образ таджикского простого нераспространенного предложения.'.

§ 4. Формализованная синтезирующая грамматика таджикского простого нераспространенного предложения.

§ 5. Исследование множеств V, D и грамматики G.

§ 6 Синтез таджикского простого нераспространенного предложения.

Глава 3. Грамматика отображения формализованных образов английского и таджикского простого нераспространенного предложения.

Введение.

§ 1. Отображение подлежащего.

§ 2. Отображение сказуемого.

§ 3. Отображение типа предложения.

§ 4. Отображение формализованных образов простого нераспространенного предложения.

Глава 4. Программное обеспечение задачи автоматического перевода простого нераспространенного предложения.

Введение.

§ 1. Алгоритм анализа английского простого нераспространенного предложения.

§ 2. Алгоритм перевода формализованного образа английского простого нераспространенного предложения.

§ 3. Алгоритм синтеза временных форм таджикского глагола.

§ 4. Алгоритм синтеза таджикского простого нераспространенного предложения.

§ 5. Англо-таджикский словарь основ.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Зарипов, Сайдахмад Асрорович

Настоящая диссертационная работа посвящена проблеме автоматического перевода простого нераспространенного предложения (далее по тексту -ПИП) с английского языка на таджикский язык. Данная проблема является составной частью общей задачи автоматизации перевода (далее - ATI) на таджикский язык.

Актуальность темы. Современный уровень межгосударственных и межнациональных экономических и научно-технических связей требует обеспечения высокого качества информационного обмена. В такой ситуации на первый план выдвигается скорость и качество перевода информации. Проблема частично решается увеличением количества квалифицированных переводчиков, рост которого заметно отстает от роста потребности в переводе информации. В этой связи в качестве единственного пути решения проблемы признано введение в переводческий процесс новых информационных технологий, базирующихся на компьютерных средствах обработки и передачи информации, что и стало предпосылкой для появления в 70-80 годах XX века нового научного направления, получившего название автоматический перевод. Данное направление занимается созданием систем автоматического перевода текста без вмешательства человека, не исключая при этом:

- предварительную подготовку переводимого текста;

- редактирование переведенного текста.

На протяжении многолетней истории развития данного направления выполнено огромное количество работ, касающихся различных аспектов проблемы АП. С точки зрения реализации АП в качестве предметной области таджикский язык выбран впервые. Этим и объясняется теоретическая и практическая значимость работ в этой области.

Актуальность темы диссертационной работы обусловлена обретением Республикой Таджикистан независимости и возникшей в связи с этим W необходимостью перевода с английского языка на таджикский язык большого объема информации.

Диссертационная работа выполнена в рамках плана научно-исследовательских работ Технологического Университета Таджикистана и Решений Правительства РТ по дальнейшему развитию таджикского языка как государственного.

Целью диссертационной работы является создание системы АП на таджикский язык английского ПНП.

Методы исследования. При разработке системы АП использованы методы создания формальных грамматик, отображения конечных множеств, алгоритмирования, программирования и проектирования СУБД.

Обзор существующих автоматических систем перевода. Теоретические основы разработки систем АП были заложены ещё в 60-х годах XX в работах Н. Хомского [32-34], А. В. Гладкого и И. А. Мельчука [5-6].

Исследования 70 - х и начала 80-х годов Ю. Н. Марчука [26], Ю. Д. Апресяна, И. М. Богуславского, JL Л. Иомдина [2-3], [41], [47] по созданию формальных грамматик и алгоритмов АП с одного естественного языка на другой стимулировали создание машинных систем АП. Трудности в практической реализации таких систем обуславливались возможностями электронных вычислительных машин (ЭВМ), их недостаточным быстродействием и памятью. Тем не менее, с расчетом на перспективу были обозначены концептуальные направления в создании мощных и совершенных систем АП [6], [26], [34], [42].

Одно из направлений связывало успешное достижение практических результатов АП с усилением аналитической базы вновь создаваемых и уже действующих систем АП, и, тем самым, преодолением недостатков ЭВМ по быстродействию и объему памяти [5], [32].

Другое направление отдавало предпочтение созданию универсального программного обеспечения и совершенствованию компьютерных технологий, обеспечивающих достаточные быстродействие и объем памяти для создания больших баз данных - автоматических словарей [39], [41], [44], [47].

Оба направления по созданию систем АП не могли полностью гарантировать качественный перевод, и, как следствие, не исключали процедуру пред- и постредактирования [38], [43], [46].

В 80-х годах XX столетия по всему миру были созданы промышленные системы АП. К зарубежным аналогам таких систем относятся ЭУРОТРА ("Eurotra", [39]), ВАЙДНЕР ("Weidner", [40]), МЕТЕО ("Meteo", [36]), СИСТР АП ("Systran", [38], [43], [46]) и др. По мнению специалистов, эксплуатирующих эти системы АП, они допускали следующие основные группы ошибок:

1. Морфологические (неправильный перевод артикля, частей речи, орфографические ошибки и т. п.).

2. Семантические (пословный перевод идиоматических оборотов и устойчивых словосочетаний, неправильный перевод многозначного слова, неоднозначная интерпретация ядра и сателлитов сложного словосочетания).

3. Словарные (невосполнимость необходимых для перевода слов непосредственно пользователем).

4. Синтаксические (трудности, связанные с выделением и трансформацией для последующего перевода групп членов предложения).

И, как следствие предыдущих недостатков, необходимость постредактирования полученного перевода.

В основу разработки советских промышленных систем АП - англорусского (АМПАР [25], ЭТАП-2, [3]), немецко-русского (НЕРПА-2, [27]), французско-русского (ФРАП-2, [24], ЭТАП-1, [2]) положен принцип переводных соответствий, разработанный Ю. Н. Марчуком [26], в основу которого положено моделирование мыслительных операций человека в переводческом процессе. Согласно данного принципа переводчик переводит, сопологая текст с текстом, при этом осуществляется:

1) разбор предложения путем рассмотрения слова с точки зрения грамматической семантики;

2) структура предложения членится в терминах членов предложения;

3) анализ и синтез происходит по некоторым отдельным осмысленным кускам;

4) при анализе и синтезе происходит постоянная проверка на осмысленность, в ходе которой анализируемая синтагма сравнивается с предыдущей и последующими;

5) каждая отдельно взятая переводческая задача допускает в большинстве случаев решение в виде последовательности достаточно формализованных шагов.

Ограничимся краткой характеристикой работы [3], посвященной системе электротехнического англо-русского перевода (ЭТАП-2). Система ЭТАП-2, по сравнению с аналогичными системами, имел целый ряд отличительных свойств лингвистического плана, в частности, в ней достигнуты:

1) полная независимость описания входного и выходного языков;

2) декларативность задания лингвистической информации, т.е. его полная независимость от алгоритма, имеющая по мнению авторов два основных достоинства:

- во первых, обеспечение доступности той лингвистической модели, которая лежит в основе системы АП;

- во вторых, возможность легкой корректировки данной лингвистической модели в ходе машинных экспериментов.

3) стандартизованность форматов описания рабочих языков - входного английского и выходного русского.

4) не ориентированность лингвистического обеспечения на конкретную предметную область, т. е. морфология и синтаксис рабочих языков рассчитаны на переработку самых различных научно-технических текстов.

5) более высокие уровень, качество и скорость перевода.

6) новая архитектура лингвистического обеспечения: разделение правил на общие, частные и словарные и др.

Современный уровень развития информационных технологий, связанный с производством гиперкомпьютеров и созданием всемирной информационной системы ИНТЕРНЕТ, во главу угла ставит создание ИНТЕРНЕТ-совместимых систем АП, обеспечивающих "мгновенный" многосторонний перевод текста, в частности ИНТЕРНЕТ-сайтов на PC. На этом основаны принципы создания современных систем АП, примером которых может стать система ЭТАП - 3 [41]. Система АП ЭТАП-3 обеспечивает независимый двухсторонний (англорусский и русско-английский) перевод текста на базе обширных русского и английского комбинаторных словарей. Встроенные в систему АП ЭТАП-3 лексические функции используются в нескольких конкретных моментах алгоритма АП:

- построение синтаксической структуры на базе определенных параметров;

- перевод структуры в соответствующую словарную зону;

- восстановление пропущенных предлогов и глаголов.

Исследования по созданию систем АП с таджикского языка и на таджикский язык были начаты в 90-х года XX века с формулировки концепции автоматизированного распознавания словоформ таджикского языка [29] и разработки на её основе методики автоматизированного распознавания элементов таджикского словаря, порождающих заданные словоформы [30].

В работе [29] решается задача распознавания произвольной словоформы таджикского языка, извлеченной из текста, т. е. определение всех морфем (корня, префиксов, суффиксов и окончаний), порождающих данную словоформу и отнесение порождающего корня и самой словоформы к соответствующим частям. Подчеркивается разрешимость данной задачи через тесное взаимодействие создаваемых элементов общей схемы процесса распознавания, таких как специализированный компьютерный словарь, поисковая и диагностирующая системы, формальные грамматики распознавания произвольной словоформы.

В [30] реализован первый этап сформулированной в [29] концепции автоматизации морфологического анализа словоформ таджикского языка. В ней конкретно речь идет о построении эффективного алгоритма нахождения таких элементов компьютерного таджикского словаря, один из которых с большой вероятностью может оказаться порождающей основой исследуемой словоформы. В основу предлагаемого метода заложено фундаментальное утверждение: любая извлеченная из текста таджикская словоформа, либо содержится в словаре, либо образуется из соответствующего элемента словаря с помощью префиксов и постфиксов. В последнем случае этот элемент является основой словоформы и в качестве фрагмента целиком содержится в ней.

Дальнейшие исследования были посвящены основам автоматизированного морфологического анализа и синтеза слов таджикского языка [12-13] и задаче автоматизированного морфологического анализа и синтеза слов таджикского языка, образованных их отдельных частей речи [8-10], [13-17]. С точки зрения практической реализации АЛ наибольший интерес представляет работа [14], в которой разработана модель автоматического перевода с таджикского языка на английский язык словоформ, образованных от имен числительных.

В [12] предложены модели морфологического анализа словоформ таджикского языка, образованных из основ частей речи с учетом специфичных таджикскому языку многоуровневой аффиксации и наличия нормализованных и ненормализованных форм при словообразовании.

В [13] представлены математические модели морфологического анализа и синтеза слов таджикского языка, их компьютерная реализация осуществлена в [8-11] и [15-17].

Созданная система АП на таджикский язык английского ПНП по сравнению с описанными выше системами АП имеет следующие особенности:

1. Система АП ПНП реализована с учетом преимуществ и недостатков существующих аналогичных систем;

2. Система АП ПНП допускает привлечение человека только в качестве пред- и постредактора, исключая широко применяемый элемент интерредактирования, что обеспечивает достаточно автономный и ускоренный перевод.

3. В системе АП ПНП в качестве подлежащего рассматриваются личные местоимения. Это обеспечивает реализацию общей концепции перевода при компактной базе данных.

4. Система ПНП соответствует способности английского и таджикского ПНП нести полноту смысловой нагрузки, выраженной соответствующими субъектно-предикативными отношениями.

5. Алгоритм перевода разделен на независимые блоки анализа и синтеза, функционирующие последовательно в процессе просмотра фразы слева направо.

Научная новизна и результаты. В работе, с учетом особенностей АП на таджикский язык, впервые предложены:

- формализованное представление английского ПНП;

- формализованное представление таджикского ПНП;

- математическая модель отображения английского ПНП на таджикское

ПНП;

- система автоматического перевода ПНП с английского языка на таджикский язык на базе PC.

Все полученные в диссертационной работе результаты новые.

Практическая направленность диссертационной работы заключается в том, что её конечный продукт - программный комплекс - осуществляет автоматический перевод английского ПНП на таджикский язык. Этот комплекс, в применении к самому общему английскому предложению (при условии автоматического вычленения в нём главных членов), позволяет извлечь, по крайней мере, его примитивный смысл.

Теоретическая ценность работы состоит в том, что для таджикского языка построены элементы формальной грамматики, которая выступает в качестве теоретической основы для решения проблемы компьютерного перевода на таджикский язык текстов, представленных на любом естественном языке. И наоборот.

Публикации. Основные результаты работы отражены в пяти работах автора - [8-11], [31]. В совместной работе [31] постановка задачи осуществлена научными руководителями, разработка и компьютерная реализация выполнена диссертантом.

Структура работы. Диссертационная работа состоит из введения, четырех глав, приложений и списка литературы. В свою очередь, каждая глава разделена на введение и параграфы. Параграфы нумеруются в пределах отдельной главы. В диссертации используется сквозная нумерация основных формул.

Заключение диссертация на тему "Моделирование на таджикском языке английского простого нераспространенного предложения"

Заключение

В настоящей работе была поставлена цель на примере простого нераспространенного предложения доказать принципиальную возможность автоматического перевода текста с английского языка на таджикский язык.

Предложенные в диссертации формализованные представления и математическая модель перевода позволяют получить автоматический перевод самого общего английского ПНП на таджикский язык.

Реализация и компьютерные эксперименты на предмет оценки качества перевода-отображения английского ПНП в таджикское ПНП осуществлены на ограниченной базе данных — существительных и глаголов. В качестве существительных взяты только личные местоимения, а в качестве глагола -около 400 английских правильных глаголов и их таджикские аналоги.

Следует отметить, что разработанный алгоритм перевода ПНП может успешно функционировать и в случае создания расширенной базы данных, обеспечивающей легкое разрешение проблемы многозначности перевода путем отображения каждого члена английского ПНП - подлежащего, выраженного именами существительными и личными местоимениями, и сказуемого, представленного правильными и неправильными глаголами - в несколько таджикских аналогов из базы соответствий.

Таким образом, построенные в рамках данной работы элементы формальной грамматики применительно к таджикскому языку создают необходимые предпосылки для решения проблемы автоматического перевода с любого естественного языка на таджикский язык более сложных синтаксических форм, т.е. простого распространенного предложения и др.

Библиография Зарипов, Сайдахмад Асрорович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Алексеев В. Е., Ваулин А. С., Петрова Г. Б. Вычислительная техника и программирование. М., Высшая школа, 1991.

2. Апресян Ю. Д., Богуславский И. М., Гецелевич Е.В. и др. Лингвистическое обеспечение системы французско-русского автоматического перевода ЭТАП-1. Общая характеристика системы // Теория и модели знаний. Тарту: Изд-во Тарт. ун-та, 1985. С. 20-39.

3. Апресян Ю. Д., Богуславский И. М, Иомдин Л. Л. и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1889.

4. Арзуманов С., Сангинов А. Забони точики. Душанбе, Маориф, 1988 г.

5. Гладкий А. В. Мельчук И. А. Элементы математический лингвистики. М.: Наука, 1969.

6. Гладкий А. В. Формальные грамматики и языки. М., "Наука", 1973.

7. Зильберман Л. И. Структурно семантический анализ текста - М.: Наука, 1982 г.

8. Зарипов С. А. Концепция автоматизированного синтеза таджикских словоформ, образованных из основ глагола (5 страниц). Депонирована в Таджикском госуниверситете., деп. №7 Д-96.

9. Зарипов С. А. О формальной грамматике автоматизированного синтеза слов, образованных из основ таджикского глагола./ Ин-т математики АН РТ. -Душанбе, 2000. - Юс. Библиогр.: 3 назв.-Рус.-Деп. в НПИЦентре 01.03.2000, №11 (1321).

10. Исмаилов М. А. Основы автоматизированного морфологического анализа слов таджикского языка.- Душанбе, 1994, с. 156.

11. Исмаилов М. А. Математическая модель морфологического анализа и синтеза слов таджикского языка. ДАН РТ 1998, т. 41, № 9, стр. 63-68.

12. Исмоилова Р. М. Моделирование процесса автоматического перевода с таджикского языка на английский язык словоформ, образованных от имен числительных (кандидатская диссертация). Душанбе, 1998 г.

13. Исмаилов М. А., Абдуллаев Ф. А., Математическая модель морфологического анализа и синтеза слов таджикского языка, образованных из основ -существительных. Депонировано в НПИцентре, г. Душанбе, Вып. 1, 1998, № 12 (1254).

14. Исмаилов М. А., Абдуллаев Ф. А. Математическая модель морфологического анализа и синтеза слов таджикского языка, образованных из основ -прилагательных. Депонировано в НПИцентре, г. Душанбе, Вып. 1, 1999, № 12 (1254).

15. Исмаилов М. А., Абдуллаев Ф. А. Формальная грамматика словообразования и основ глагола прошедшего времени таджикского языка. Депонировано в НПИцентре, г. Душанбе, Вып. 2, 1999, № 34 (1276).

16. Камалова А. Вспомогательные глаголы английского языка и их функциональные эквиваленты в таджикском языке / Тадж. гос. ун-т Душанбе, 1988.-10 с. Деп. в Таджик-НИИТИ, 09.09.88. №36 (584) Та-Д88.

17. Касаткин JT. JI. Краткий справочник по современному русскому языку.-М.:Высшая школа, 1991 г.

18. Клементьева Т. Б. Повторяем времена английского глагола. М.: Высшая школа, 1985 г.

19. Курбанов М. Об иерархии морфологических категорий английского глагола / Ленинабадский госпедин-т.- Ленинабад, 1990.- 1990.-16 с. Деп. в Таджик-НИИТИ 3.12.90, №64(749). Та-90 б/ц.

20. Курбанов М. Центр и периферия категории времени английского глагола./ Ленинабадский госпедин-т.- Ленинабад, 1990.- 1990.-17 с. Деп. в Таджик-НИИТИ 3.12.90, №65(750). Та-90 б/ц.

21. Курош А. Г. Курс высшей алгебры, М., 1971.

22. Леонтьева Н. Н. и др. Общая стратегия лингвистического анализа в системе ФРАП 2. - III Международный семинар по машинному переводу: тезисы докладов., М.,1983 .

23. Ловцкий Е. Е., Тихомиров Б. Д. Итоги эксплуатации и пути совершенствования СМП АМПАР. III Международный семинар по машинному переводу: тезисы докладов., М.,1983 .

24. Марчук Ю. Н. Проблемы машинного перевода. М., 1983.

25. Сильников А. И. и др. Особенности решения проблемы лексико-граммати-ческой омонимии в СМП НЕРПА-2. III Международный семинар по машинному переводу: тезисы докладов., М., 1983 .

26. Титаренко Г. Visual Basic 6.0, "БХВ Петербург", 2000 г.

27. Усманов 3. Д., Исмаилов М. А. Концепция автоматизированного распознавания словоформ таджикского языка. Докл.АН Тадж.ССР. т. XXXIII, № 1, 1990 г.

28. Усманов 3. Д., Исмаилов М.А. Автоматизированное распознавание элементов таджикского словаря, порождающих заданные словоформы. Докл. АН Тадж. ССР, т. XXXIII, № 11, 1990 г.

29. Усманов 3. Д., Исмаилов М. А., Зарипов С. А. Алгоритм компьютерного перевода простого нераспространенного английского предложения на таджикский язык. Докл. АН РТ, т. 45, № 3-4, 2002 г.

30. Хомский Н. Синтаксические структуры. "Новое в лингвистике", вып. II, 1962.

31. Хомский Н. Лингвистика, логика, психология и вычислительные устройства. Математическая лингвистика. / сборник переводов. М., "Мир", 1964.

32. Хомский Н. Формальные свойства грамматик. "Кибернетический сборник", Новая серия, вып. 1, 1965.

33. Шахобова М. Б. Опыт сопоставительного исследования строя таджикского и английского языков. Душанбе, Дониш, 1995 г.

34. Bevan N. Psychological and ergonomic factors in MT. Practical experience of machine translation: Proceedings of a Conference Linguistics., 1981., Amsterdam, New York, North-Holland, 1982.

35. Biever A., Feneyrol Ch., Ritzke J., Stegentrill E. ASCOF a modular multilevel system for French-German translation // Ibid. 1985. vol.11, N 2/3. P. 137-154.

36. Green R. The MT errors which cause most trouble to posteditors Practical experience of machine translation: Proceedings of a Conference Linguistics., 1981., Amsterdam, New York, North-Holland, 1982.

37. Hutchins W. J. The evaluation of MT Practical experience of machine translation: Proceedings of a Conference Linguistics., 1981., Amsterdam, New York, North-Holland, 1982.

38. Hundt M. G. Working with the Weidner machine-aided translator system.-Practical experience of machine translation: Proceedings of a Conference Linguistics., 1981., Amsterdam, New York, North-Holland, 1982.

39. Iomdin L., Cinman L. Lexical Function and Machine Translation// Dialogue'97. Computational Linguistics and its Applications. Proceedings. Moscow, 1997.

40. Kuno S. The multiple-path syntactic analyzer for English. "Mathematical linguistic and automatic translation" (Computation lab. Harvard univ.), Report № NSF - 9, vol. 1. Cambridge (Mass), 1963.

41. Lavorel B. Experience in English-French postediting. Practical experience of machine translation: Proceedings of a Conference Linguistics., 1981., Amsterdam, New York, North-Holland, 1982.

42. Nagao M., Junichi Т., Junichi N. Japanese government project for machine translation. Computer Linguistics. 1985. Vol 11. № 2/3. P. 91-110.

43. Plath W. J. Multiple-path syntactic analysis of Russian.- "Mathematical linguistic and automatic translation" (Computation lab. Harvard univ.), Report № NSF 12, vol. 1. Cambridge (Mass), 1963.

44. Rossi F. Impact of posteditors' feedback on the quality of MT Practical experience of machine translation: Proceedings of a Conference Linguistics., 1981., Amsterdam, New York, North-Holland, 1982.

45. Streiter O., Iomdin L., Hong M., Hauck U. Learning Forgetting andth

46. Remembering: Statistical Support for Rule-Based MT // Proceedings of the 8 International Conference on Theoretical and Methodological Issues in Machine Translation (TMI99), August 23-25, 1999, Chester, England.

47. Vauqous В., Boitet Ch. Automated translations at Grenoble University / Computer Linguistics. 1985. Vol 11. №1. P. 28-36.