автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математические основы автоматизированной таджикско-персидской конверсии графических систем письма
Автореферат диссертации по теме "Математические основы автоматизированной таджикско-персидской конверсии графических систем письма"
На прав;
0034Э3326
Гращенко Леонид Александрович
МАТЕМАТИЧЕСКИЕ ОСНОВЫ АВТОМАТИЗИРОВАННОЙ ТАДЖИКСКО-ПЕРСИДСКОЙ КОНВЕРСИИ ГРАФИЧЕСКИХ СИСТЕМ ПИСЬМА
05.13.18 - Математическое моделирование, численные методы и комплексы программ
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
1 1 МАР 2010
Душанбе-2010
003493326
Работа выполнена в Институте математики Академии наук Республики Таджикистан.
Научный руководитель: доктор физико-математических наук,
академик АН РТ, профессор, Усманов Зафар Джураевич
Официальные оппоненты: доктор физико-математических наук,
член-корреспондент АН РТ, профессор, Муминов Хикмат Халимович
кандидат технических наук, доцент, Умаров Махмуд Абубакрович
Ведущая организация: Технологический Университет
Таджикистана, г. Душанбе
Защита диссертации состоится 03 марта 2010 г. в 11:00 часов на заседании диссертационного совета К 047.007.01 при Институте математики Академии наук Республики Таджикистан по адресу: 734063, г. Душанбе, ул. Айни, 299/4.
С диссертацией можно ознакомиться в научной библиотеке Института математики Академии наук Республики Таджикистан.
Автореферат разослан
Ученый секретарь диссертационного совета
У.Х. Каримов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Существующая ситуация в области межкультурной коммуникации персоязычных народов во многом предопределена историческими событиями XIX - XX веков в Средней Азии и на Среднем Востоке, когда большая группа персоязычных народностей оказалась разделенной рамками новых государственных образований - Ирана, Афганистана и Таджикистана. В лингвистическом плане единый персидский язык так же оказался разделенным на три языка - персидский (фарси) в пределах Ирана, дари - в Афганистане и таджикский - сначала на части территории бывшей Российской Империи, потом СССР, а ныне - суверенного Таджикистана и некоторых областей Узбекистана и Киргизии.
Сохранив общую языковую систему, таджикский и персидский языки имеют в настоящее время разные системы письма: персидский (ПЯ) - письмо на основе арабской графики, а таджикский (ТЯ) - на основе расширенного кирилловского алфавита. При этом преобразование текстов с одного языка на другой нетривиально и не сводится к простой транслитерации. Неоднозначность соответствия букв используемых в ТЯ и ПЯ алфавитов создают проблему нахождения системы правил отображений между ними. Так, фраза классика таджикско-персидской поэзии XVI века Бадриддина Хилоли из произведения «Газалиёт», одинаково понятная на слух и
Сухан зох;ир кунад сузи нихонро Зи шамъи дил барафрузад чахонро. Ь ок* -1 ^ с!-1 и**" сг^
Слово боль передаёт, что в душе таится, Искрой сердца целый мир может озариться.
Наметившееся относительно недавно и неизбежное в исторической перспективе сближение персоязычных стран нуждается в интенсификации документооборота, обеспечивающего экономический, культурный и научный обмен информацией, а также официальную, коммерческую и частную переписку участников межъязыковой коммуникации.
С развитием международного телекоммуникационного пространства и, в частности, сети Интернет, различия в письменной графике проявляются серьезным сдерживающим фактором развития электронной коммуникации между гражданами и организациями этих стран, обуславливающим существование проектов перехода Таджикистана на арабскую графику, а Ирана, возможно, - к алфавиту на основе латиницы.
Указанные факторы обуславливают актуальность проблематики согласования систем письменности таджикского и персидского языков за счет разработки, исследования и обоснования системы формализованных правил взаимной конверсии письменных текстов рассматриваемой языковой пары, а на её основе - средств автоматизации данных процессов.
До недавнего времени рассматриваемая проблематика разрабатывалась, в основном, методами языкознания, при этом удовлетворительных решений найдено не было. Согласование систем письма производилось за счет разработки стандартов транслитерации таджикских и персидских текстов в промежуточный текст на основе латинской графики. Недостатки этого подхода очевидны. Языковая ситуация с письменностями таджикского и персидского языков, в том числе и в исторической ретроспективе, отражена в ряде трудов (Мусаев K.M., Асимова Б.С., Исаев М.И., Collin R.O.).
Таким образом, для замены диффузной, интуитивно сформулированной и не имеющей полного решения лингвистической задачи на математическую задачу, логически сформулированную и имеющую алгоритмическое решение, целесообразна математическая экспликация указанной проблематики, методология которой дана в работах Пиотровского Р. Г.
Для решения поставленной задачи автором применен комплексный подход [4], сочетающий отдельные стороны детерминированного и вероятностного подходов, получивших отражение в научных трудах по компьютерной и математической лингвистике. Решение задачи основано на членении словоформ исходного таджикского текста на цепочки символов, имеющих однозначное отображение на множество цепочек персидских символов. В качестве решающего алгоритма для такого членения, автором разработан автоматический вероятностный морфологический анализатор ТЯ. Исключения, возникающие в результате вероятностного морфоанализа, учитываются в отдельном информационном хранилище.
Теоретическими основами для реализации описанного подхода явились научные работы в областях вероятностного машинного перевода (Koehn Р., Brown Р.); автоматической транскрипции имен собственных (Бондаренко A.B., Stalls В. G., Kevin К.); автоматической транскрипции для преобразования текст-речь (Azimizadeh A., Arab М.М., Quchani S.R.).
В качестве альтернативной выступает разработка на основе технологии Xerox Finite State Technology (Megerdoomian К., Parvaz D.), показывающая точность конверсии до 90%.
Значительный практический опыт обобщен рядом исследователей в области транслитерации личных имен (Ермолович Д.И., Arbabi M., Fischthal S., Pouliquen В.), a также систем межъязыковой транслитерации: англояпонских (Finch A., Sumita Е., Knight К., Graehl, J.), англо-персидских (Karimi S., Scholer F., Тиф in А.) и англо-арабских (AbdulJaleel N., Larkey L.); системы конверсии текстов пенджабского языка (Saini T.S., Lehal G.S.).
Математическая база для практической реализации систем обработки текстов, модели словообразования и морфоанализа для ТЯ и ПЯ отражены в ряде работ ученых Таджикистана (Усманов З.Д., Исмаипов М.А.).
Лингвистические основы преобразования систем письменности и типизации словарного многообразия таджикско-персидской языковой пары представлены работами таджикских лингвистов (Фомин А.Ю., Амонова Ф.).
Цель работы. Разработать эффективный вычислительный алгоритм таджикско-персидской конверсии графических систем письма и реализовать его в виде проблемно-ориентированного программного комплекса.
Достижение поставленной цели осуществляется путем решения следующих задач:
1. Анализ и систематизация существующих научных знаний в области автоматической межъязыковой конверсии текстов.
2. Исследование закономерностей отображения множества таджикских словоформ в персидские при таджикско-персидской конверсии текстов (ТПКТ).
3. Разработка и обоснование математической модели ТПКТ.
4. Разработка, обоснование и тестирование комплекса эффективных алгоритмов автоматической ТПКТ и их реализация в виде проблемно-ориентированного программного обеспечения.
5. Проведение вычислительных экспериментов с целью тестирования и верификации разработанных программных средств и разработка научно-технических предложений по их практическому использованию и дальнейшему совершенствованию.
Методы исследования, достоверность и обоснованность результатов. Методологическую основу работы при построении и исследовании моделей и алгоритмов составляют методы теории алгоритмов, теории множеств, математического моделирования, теории информации, математической статистики, теории вероятностей и методы распознавания образов. Для разработки программных средств применялись методы объектно-ориентированного программирования, а также САБЕ-средства.
Теоретические результаты получены методом дедуктивных рассуждений. Достоверность результатов диссертации обеспечивается использованием строгих математических методов для обработки и анализа данных. Достоверность также подтверждается численным экспериментом.
Научная новизна работы обусловлена:
1. применением математической экспликации рассматриваемой предметной области;
2. сочетанием детерминированного и вероятностного подходов к решению задачи ТПКТ, за счет чего нивелированы недостатки и суммированы достоинства каждого из них в отдельности;
3. применением нового подхода к морфологическому анализу заимствованных слов ТЯ, учитывающему морфологические правила языков, из которых произошло заимствование;
4. проведением комплексного кластерного анализа множества словоформ ТЯ, позволившего получить перечни и статистические распределения для различных морфологических элементов 7Я.
Практическая значимость работы состоит в возможности широкого внедрения созданных средств конверсии в системах документооборота, а также в качестве элемента многозвенных систем машинного перевода.
Полученные результаты используются в учебном процессе Российско-Таджикского Славянского Университета при разработке курсов лекций и программы по дисциплине «Компьютерная лингвистика».
Созданный программный комплекс зарегистрирован Национальным патентно-информационным центром Министерства экономического развития и торговли Республики Таджикистан в качестве интеллектуального продукта № 09 Ш от 16.03.2009 года.
Теоретическая ценность работы состоит в том, что разработанный подход к математическому моделированию и реализации вычислительных алгоритмов в области межъязыковой конверсии текстов эффективно приспосабливаются для решения как обратной задачи персидско-таджикской конверсии текстов, так и аналогичных задач для других языковых пар.
Апробация работы. Основные результаты диссертации обсуждались на научных семинарах Института математики АН РТ 2008-09 гг., научно-практическом семинаре в Технологическом институте Таджикистана 2009 г., научно-практическом семинаре Российско-Таджикского Славянского Университета 2009 г., а также в Отделении общественных наук АН РТ и Комитете по терминологии при АН РТ, г. Душанбе.
Публикации, личный вклад автора.
Основные положения, выводы и рекомендации диссертационной работы опубликованы в четырех статьях в научных изданиях Академии наук Республики Таджикистан [1-4].
Изложенные в диссертации результаты получены лично автором или при его непосредственном участии. В работах, выполненных вместе с соавторами, вклад автора является определяющим.
Структура и объем диссертации. Работа состоит из введения, трёх глав, заключения и приложений. Библиография насчитывает 84 источника. Объем работы 115 страниц, в тексте основной части имеется 28 рисунков и 17 таблиц.
Благодарности. Диссертант выражает глубокую благодарность Алексею Юрьевичу Фомину за значительную помощь на этапе исследования лингвистических объектов.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулированы цели и задачи работы, научная новизна и практическая ценность полученных результатов, представлены основные положения, выносимые на защиту.
В параграфе Концептуальная модель таджикско-персидской конверсии графических систем письма [4] с целью упрощения восприятия последующих глав излагается основная идея решения научной задачи и приводится обобщенная принципиальная блок-схема процесса преобразования письменного текста ТЯ в письменный текст ПЯ, рис. 1.
Текст, записанный таджикским алфавитом
т
Разбиение входного текста на слова
слова
Автоматический морфоанапиз слов: выделение аффиксов и основ
основа
Поиск корней основы в словаре исключений
основа не найдена
аффиксы
Замена аффиксов ТЯ на аффиксы ПЯ по таблице соответствий
основа найдена
Замена основы слова ТЯ на основу ПЯ
Определение происхождения основы слова
персицизмы,^^ арабизмы,
европеизмы -►
Разбивка основы Л слова на элементы в соответствии с происхождением ,
Текст, записанный
персидским алфавитом ^-^^
Сборка выходного | текста I
корни
Сшивка корней, элементов слов в основу слова
' Замена элементов Л слов ТЯ на элементы слов ПЯ по таблице \ соответствий у
Рис. 1. Принципиальная схема таджикско-персидской конверсии текстов
Таким образом, процесс преобразования произвольной словоформы ТЯ в словоформу ПЯ заключается в выделении основных морфем - аффиксов и корня, проверке, содержится ли корень преобразуемой словоформы в словаре исключений и, если нет - в установлении происхождения корневой морфемы. В зависимости от того, является ли корень персидского, арабского или европейского происхождения, осуществляется дополнительный морфологический анализ с целью представления корня в виде набора элементов, каждому из которых в отдельности можно сопоставить однозначный образ в ПЯ. После табличной замены элементов словоформы ТЯ на соответствующие элементы словоформ ПЯ, производится их «сшивка» в результирующую словоформу, записанную в системе письма ПЯ.
В главе 1 проведена математическая экспликация научной задачи, в том числе выполнен анализ содержания преобразования текстов с письменности ТЯ на основе расширенного кирилловского алфавита на письменность ПЯ.
С этой целью в §1.1 рассматривается содержание основных лингвистических понятий предметной области.
Определение 1.1. Система письма - совокупность начертательных (графических) символов и приемов, принятая для фиксации на бумаге или другом материале текстов, высказываний, сообщений, составленных на некотором языке.
Определение 1.2. Таджикско-персидская конверсия графических систем письма (ТПКГСП) - представление текстов, составленных на ТЯ, средствами системы письма, принятой для ПЯ.
Также приводятся определения других понятий, таких как язык, алфавит, графический символ, слово, словоформа и устанавливаются отношения между ними. Рассматриваются основные строи словообразования языков - агглютинативный и флективный.
Определение 1.3. Агглютинативный язык - язык, имеющий строй, при котором доминирующим типом словоизменения является агглютинация (приклеивание) к основе слова - корню Я, различных аффиксов (префиксов Рг и постфиксов Рз), причем каждый из них несет только одно значение.
Определение 1.4. Флективный язык - язык, имеющий строй синтетического типа, при котором доминирующим типом словоизменения является вставка различных флексий - трансфиксов Тг между корневыми буквами, причем каждый из трансфиксов может нести несколько значений.
В §1.1 также приводится классификация графических символов (букв, цифр и разделителей) и даётся их
межъязыковой конверсии систем
письма. В рамках системного Рис. 2. Процесс конверсии систем письма подхода определены входные и выходные данные, внешние и внутренние параметры процесса конверсии, рис. 2. Приведены определения основных методов конверсии систем письма - транскрипции, транслитерации и перевода, а также рассмотрены их разновидности.
В §1.3 производится согласование ранее введенных лингвистических терминов с математическими, формально переопределяется ряд определений, введенных в §1.1.
Определение 1.5. Письменным языком Ь будем называть произвольное множество текстов Г, каждый из которых в свою очередь является упорядоченной совокупностью элементов алфавита Л.
сравнительная характеристика.
В §1.2 выполнен анализ содержания, целей и способов
Элементами алфавита являются в том числе буквенные а е АПук„ с Л и служебные Ь е Аслуж с А символы.
Определение 1.6. Словоформа языка £ над алфавитом А есть цепочка 2!' = г\г2...гЛ буквенных символов г-, е Айукв длины = п, ограниченная служебными символами.
В соответствии с этим определением реализуется функция блока 1 схемы конверсии, рис. 1.
Введем понятие пустого символа @: ||@| = 0, \2@@=@®2 = 2.
Здесь ® - бинарная операция конкатенации.
Множество словоформ {Т!' | \7!'\ > 0} языка I составляют словарь длина которого |\¥>'\ равна числу составляющих его элементов.
Определение 1.7. Двуязычный или бшингвистический словарь языковой пары ЬЬ' есть множество пар взаимно однозначно соотнесенных словоформ: = {(г,'\ г/) | (г,1 ~ г/)}.
Определение 1.8. Пусть Уос'(2Г) - функция вокализации, определенная на словаре
письменного языка отображающая цепочку символов словоформы 2 в звукоряд, соответствующий произношению данной словоформы на речевом языке Ь.
В §1.4 выполнена сравнительная характеристика ТЯ и ПЯ по признакам, существенным для разработки системы конверсии, прежде всего буквенных алфавитов таджикского и персидского языков:
АТ\укв = {А, Б, В, Г, Г, Д, Е, Ё, Ж, 3, И, Й, Й, К, К. Л, М, Н, О, П, Р, С, Т, У, У, Ф, X, X, ч, ч, Ш, Ъ, Э, Ю, Я}, \АТЯI = 35;
лпя6укв = V, Ч Ч с, 2» с, с» ^ ^ -л X X о', ^, ск>, оч -Ц -Ц Ь Ч
Здесь же приводится деление буквенных алфавитов ТЯ и ПЯ на подалфавиты гласных Агл и согласных Асг букв.
Пусть и- множество символов Юникод, универсального множества по отношению ко всем возможным графическим символам рассматриваемой языковой пары, в частности С/ | Атя с и, Апя с П.
Обозначим через \УТЯ = {2ТЯ} и \У"Я = {2Ря} соответственно словари словоформ ТЯ и ПЯ.
Определение 1.9. Словоформа 2ТЯ е Штя называется тождественной в фонетическом смысле словоформе 2!,я е Шпя, если их произношение совпадает с точностью, достаточной для их отождествления носителями указанных языков:
Уос™(21Я) = Госпя(2пя) о 2ТЯ < >2™.
Определение 1.10. Множество некоторых пар таджикских и фонетически тождественных им персидских словоформ составляют двуязычный таджикско-персидский словарь \УТП = {{1ТЯ, 7! ) \ 2ТЯ <-► г®7}.
Определение 1.11. Множество всех существующих пар таджикских и фонетически тождественных им персидских словоформ составляют универсальный двуязычный таджикско-персидский словарь IV1': = {{2ТЯ,2ПЯ) 12™ < Ф01"™4 >гпя} | \1ШТП с \¥и.
Установлена оценка снизу > 4,2 105 [4], характеризующая объем словаря, необходимый для реализации системы ТПКГСП в рамках детерминированного подхода.
В качестве важной характеристики таджикско-персидской языковой пары указывается, что словообразование в ней производится по агглютинативному строю, при этом помимо исконно персидских слов, в составе ¡Vй имеется значительное количество заимствований из других языков, в основном из арабского и европейских.
Здесь же описываются основные множества морфем ТЯ и ПЯ -минимальных по длине цепочек символов, имеющих значение для словообразования. К ним относятся:
- множество корней {Щ, основных значимых частей слов;
- множество префиксов {Рг}, вспомогательных частей слов -аффиксов, присоединяемых к началу корня;
- множество постфиксов {Л} - аффиксов, следующих после корня;
- множество интерфиксов {1п} - служебных морфем, не имеющих собственного значения, но служащих для связи корней в сложных словах;
- множество трансфиксов {Тг}, являющихся «прослойкой» между корневыми буквами и определяющих грамматическое значение слова.
В §1.5 выполнена систематизация проблемных вопросов предметной области. Предварительный анализ существующих характеристик процесса ТПКГСП позволяет заключить, что система правил конверсии может быть сложной. В качестве основного метода установления структуры данной системы выбирается рекурсивный подход, при котором полученные практические результаты становятся теоретической основой для дальнейших исследований. В первом приближении приводится модель отображения символов таджикского алфавита в персидские [1].
В §1.6 анализируются существующие и перспективные подходы, методы и методики конверсии систем письма. На основе рассмотрения вероятностного и детерминированного подходов делается вывод о целесообразности применений комплексного подхода к решению задачи автоматизированной ТПКГСП.
Глава 1 завершается постановкой задачи на разработку и обоснование математической модели ТПКГСП в виде явно выраженного аналитического преобразования ^ = Тгапз {2ТЯ) | \/(2тя, 2?я) е
В главе 2 выполнено исследование множеств W™ 1л№"я и отображения \утя __> ]/[/"я, задаваемого двуязычным универсальным таджикско-персидским словарем W1'.
С этой целью в §2.1 разрабатывается алгоритм формирования Ww из имеющихся в распоряжении УУГЯ и И/ПЯ [2]. Для этого на основе эмпирической модели отображений алфавитных символов ТЯ в алфавитные символы ПЯ, см. §1.5, производится разбивка буквенных алфавитов ТЯ и ПЯ на два подмножества символов - опорных и неопорных.
Определение 2.1. Опорные символы - элементы d е Агябук11 и d' е в буквенных алфавитов ТЯ и ПЯ, которые:
1. обозначают один и тот же звук независимо от места расположения в словоформе, т.е. локально фонетически тождественны
Voc™(d) ~ Voc'i}'(d') = const;
2. находятся в таком отношении, что прямая/и обратная/"' сюръекции для фонетически тождественных символов образуют непустые непересекающиеся подмножества, см. табл. 1.
Таблица 1.
лПЯ
d d' \ d d' d d' d d' rf d'
Б 1—J j cj Л J Ф I—fl
Г S 3 j С L>" M с X С
F t (_K> Ji О-a H и 4
д К iS T Cl ' П L_J E
ж j L3 i p J Ш
Примечание:
таблица показывает, что,
7ТЯ
например, символ
'Б' ТЯ
независимо от его расположения в Т1" однозначно будет передаваться средствами ПЯ как символ V и наоборот. Символ 'Т' ТЯ будет передаваться средствами ПЯ либо как либо '-!=', но при обратной конверсии оба они будут переданы однозначно символом 'Т'.
Далее разрабатывается модель представления таджикских и персидских словоформ (1) в виде последовательной конкатенации чередующихся цепочек неопорных символов С; и опорных символов d|. При этом:
1. первым и последним элементом такого представления всегда является цепочка неопорных символов С„
2. между двумя опорными символами d¡ и dl+l всегда есть цепочка неопорных символов Сц ¡:
7ТЯ
z™ = с: ®d!
^ТЯ ^ фонетич
-»Z
I е А,
тя
d\ е А,
С,
си
ПЯ
С;\С„еА
тя\лт:,
ПЯ\А"\
(1)
Модель (1) позволяет сравнивать фонетически тождественные таджикские и персидские словоформы (рис. 3) методом выравнивания, используя в качестве неподвижных точек опорные символы (с11 и с/,').
На основе модели (1) установлены содержания множеств {С} и {С'}, а также модель их отношений в первом приближении, за счет чего разработан и
получения
zra С, d, с, Йг С3 dj С,
плх.»аяон @ П А* Л ABO Н @
Z™ С', dS С'2 d'j C'j d'a С',
Jjki щ * О J Ь L) @
реализован алгоритм Ww из W™ и ¥,я.
Рис. 3. Пример сравнения таджикской и персидской словоформ
В §2.2 определяется ряд вспомогательных функций для преобразования символьных цепочек, которые использованы в ходе исследования Wm и W"*1.
Пусть X = Х[Х2...Х„ и Y = У1У2—Ук - словоформы языка L над алфавитом А, А* с А - некоторое подмножество и blank € А - некоторый символ алфавита А. Тогда:
Определение2.2. Symb(X,к) = х^, 1 < к< п.
Определение 2.3. Маска словоформы X есть функция Mask(X, А*, blank), преобразующая цепочку X в цепочку У по правилу:
[blank, если х, g А*, Ыъ±{Х,А*,Ыапк) = У\У1=\
[х(, если х, € А*.
Пример: При blank = Mask('abccba', {'а', 'с'}, @) = 'асса', т.е. в данном случае происходит удаление символов, не входящих в А*.
При blank = '-', Mask('abccba', {'a', 'b'},'-') = 'ab-ba'.
Определение 2.4. Нумератор словоформы X есть функция Num(X), преобразующая цепочку X в цепочку Y, представленную цифровыми символами из множества {cj} = {'1', '2', '3', '4', '5', '6', '7', '8', '9', «О'}, j е [О, 9], по правилу:
О, если i -1, Num(X) = Y\yi=cj, j = \j, если = x, и i > 1,
(J +1) mod 10, если хм ф xt и i > 1.
Пример: Num('abccba') = '123345'.
Определение 2.5. Паттерн словоформы X есть функция Patt(A", А *), преобразующая цепочку X в цепочку Y по правилу:
X;, если х, <£. А*,
Symb(Num(Mask(X, А*,@)), п) | / = 1 =>
РМ(Х,Л*) = Г1у,=
п = 1, п-
->и +1, если xi 6 А*
Пример: РаМ('аЬссЬа', {'а', 'с'}) = '1Ь22ЬЗ\
В §2.3 приводятся модели детализированного представления словоформ ТЯ и ПЯ с учетом свойств систем словообразования данных
языков (определения 1.3, 1.4). Исходя из них, словоформы указанной пары языков представимы:
\2 = Рг Ф я е
я = я1®ц@ям®...®я„, 1<л<з,
(2)
где Я1 - простой корень, входящий в сложный корень Я.
Из постоянства лингвистической нагрузки префиксов, постфиксов и интерфиксов ТЯ и ПЯ, и на основе исследований двуязычных словарей сделан вывод о взаимно однозначном отношении элементов множеств {Ргтя} и {Рг*1*}, {?/•*} и {Рб }, {1птя} и {1ппя\. Произведено явное задание этих множеств и их отношений в виде двуязычных словарей = {(Ргтя, Ру^я) \
Р/'^Р^}, и* = ття, р*пя) | р*тя~Р*"я) и ¡V1" = {{1птя, ыпя) |
1птя~1ппя}, что позволяет реализовать блоки 2 и 7 схемы конверсии, рис. 1. Также выполнено сопоставление префиксам и постфиксам наборов атрибутов, определяющих лингвистические свойства результирующих словоформ.
Введем в рассмотрение вспомогательную функцию ЬоапТуреь(/?,) определенную на множестве корневых цепочек языка I, ставящую в соответствие корню Я, значение из множества {персицизм, арабизм, европеизм}, определяющего язык, из которого был заимствован данный корень. Тогда, в зависимости от происхождения, простые корни Я, могут быть дополнительно представимы конкатенациями цепочек символов (3): Я,, если ЬоапТуре(Л,) = (персицизм),
Я, ={Рг/1ФЛ/) ® , если ЬоапТуре(Д) = (арабизм), (3)
Рг£ Ф ЯЕ Ф Л£, если ЬоапТуре(/?,) = (европеизм).
где Ргл, Р$А, Ва - соответственно префиксы, постфиксы и основы слова арабского языка (АЯ), РгЕ, РзЕ, ЯЕ - префиксы, постфиксы и корни европейских языков (ЕЯ).
Исходя из приведенных соотношений делаются выводы о возможности использования множеств РгА, Ряа, Рге, Р^е при реализации функции ЬоапТуре(К), см. блок 4 схемы конверсии, рис. 1, а также сокращения пространства признаков при исследовании отношения множеств словоформ ТЯ и ПЯ за счет исключения цепочек, имеющих однозначное отображение.
В §2.4 разработаны модели представления и выявления в тексте арабских заимствований ТЯ и ПЯ. При этом определяются и задаются в виде двуязычных словарей множества {РгА} и {Рба}. Произвольная основа слова Вд, заимствованная ТЯ и ПЯ из АЯ с учетом флективного строя словообразования последнего (определение 1.4) представима как производная форма от исходного корня ЯА, состоящего из корневых согласных букв г, (чаще всего трёх), путем вставки между корневыми буквами трансфиксов 7>,: ВА=Тгх®г]®Тгг®...®гя, ЯА=гхг2...гп, 2 < и < 4. (4)
Отметим, что заданному RA в общем случае соответствует множество основ {ВА} за счет различных значений Tri, при этом однокоренные основы будут иметь в ТЯ и ПЯ различные паттерны Раtt(BA, Асгл) и одинаковые маски Мазк(£л, Асгл, @) относительно множества согласных букв Асгл е Абукв, рис. 4.
Данный факт отражает многообразие грамматических форм АЯ, каждая из которых однозначно определена на письме. Таким образом, множество заимствованных арабизмов как для ТЯ, так и для ПЯ
может быть компактно описано моделью <{Patt(ВА, Ace,)},{RA}>. За счет достоверного выявления в тексте арабизмов решается задача снятия неоднозначности конверсии опорных символов [4], так как подавляющее большинство случаев употребления на письме альтернатив, соответствующих буквам ТЯ 3, С, Т и (табл. 1) приходится на арабские заимствования.
В §2.5 приводятся результаты кластерного анализа 1¥тя мощностью 40220 словоформ, И/ПЯ мощностью 27176 словоформ и сформированного в §2.1 WTn, проведенного с целью исчерпывающего описания морфемного состава ТЯ и ПЯ. В результате анализа сформированы следующие двуязычные словари:
- словари аффиксов: |WPr| = 164, |WPs| = 467,
- словари аффиксов арабизмов: |WPrA| = 11, |WPsA| = 21,
- словари аффиксов европеизмов: |WPrE| = 28, |WPsE| = 27,
- словари корней и паттернов арабизмов: |WRA| = 837, |WPattA| = 159,
- словарь уникальных паттернов европеизмов: |WPattE| =13.
Исследование проводилось за счет последовательной рекурсивной
кластеризации на основе морфологического анализатора, настраиваемого по результатам каждой итерации. В ходе обработки указанных массивов данных подтверждено предположение об однозначности отображений аффиксов ТЯ в аффиксы ПЯ, а также аффиксов заимствований из арабского и европейского языков, передаваемых средствами письма ТЯ и ПЯ.
В ходе кластерного анализа изучено распределение слов Wтя по типу языка заимствования, рис. 5, выделены множество простых корней ТЯ и множество их паттернов. Исследованы отношения множеств паттернов простых корней ТЯ и ПЯ.
В заключение главы делаются выводы об адекватности и применимости
ТЯ ПЯ
:КА г, г? Г;1 РаЩВл.А™«) г2 г, Hatl(Ji,v Л™)
с б X v о-»
ВА еубх 1у23 123
сабох 1а2оЗ ^•Lbja 1213
c.lfjrX 1а2е3 С-*- 12^3
Рис. 4. Пример множества однокоренных основ Т.Я и ПЯ арабского происхождения
Европеизмов
Персифзмов 70%
Рис. 5. Распределение таджикских словоформ но типу языка заимствования
разработанных моделей (1) - (4).
Глава 3 посвящена алгоритмическому моделированию процесса таджикско-персидской конверсии графических систем письма и практической реализации проблемно-ориентированного программного комплекса ТПКГСП.
В §3.1 формулируется содержательное описание модели конверсии на основе комплексного подхода, который предусматривает:
- вероятностное описание наиболее общих закономерностей отображений таджикских словоформ в персидские;
- детерминированное описание исключений из найденных закономерностей в виде двуязычного словаря исключений: Штписс: IVй.
В таком случае процесс конверсии 1я —* Т!'я будет заключаться:
- в представлении 21Я кортежем морфов согласно модели (2), блок 2 схемы, рис. 1;
- проверке наличия корня Ятя в словаре исключений (блок 3), и в случае вхождения Ятя в 1Утпис замене Ятя на соответствующий ему Япя (блок 6);
- в противном случае Я конвертируется в преобразованием Тгат(Ятя), реализующим блоки 4, 5, 8 схемы рисунка 1.
В общем виде преобразование Тгапз(Лга) разбивает исходную основу слова Ятя на последовательную конкатенацию подцепочек БТЯ/, каждой из которых сопоставлен образ З77^ из набора подцепочек символов ПЯ с
соответствующим значением условной вероятности рц = р(($тя, , $пя^ /А,Л), где АЛ - вектор параметров размерности Ы, определяющий условия отображения подцепочки
В процессе конвертирования слова Ятя каждой его подцепочке Бтя, ставится в соответствие одна из подцепочек У7^ из набора {5ПЯу} с максимальным значением условной вероятности р,/.
Ятя = 5,гя Ф... Ф 7>Н"(Д") > ©... © 5пля = Япя,
причем
рО^Д^та хр...
1
В качестве критерия глубины учета закономерностей, то есть размерности N вектора А", принимается величина К, оптимизируемая по размеру словарных баз и точности конверсии, выражаемой условной вероятностью корректной конверсии произвольной словоформы 7}я\
м
= 4 тЫт + е IV"/ < IV™, А" >) шах, (5)
I ' ис I
л, >0,Л2>0,Л1+Я7 =1.
С учетом полученных во второй главе результатов, выбираются целесообразные формы представления корней персицизмов и европеизмов согласно модели (1), а корней арабизмов согласно модели (4).
В §3.2 осуществляется оценка модели конверсии для различных размерностей вектора А^- то есть порядка модели по критерию (5).
В качестве значимых для моделирования факторов, составляющих вектор А", выбирается лингвистически обоснованная совокупность:
- тип заимствования основы слова ЬоапТурета(Л) е {персидский, арабский,европейский};
- позиция цепочки символов Бтя, в корне слова Роб(5) е {начало, середина, конец};
- паттерн корня слова Райгл(/?, Атя„„).
Для этого на основе словаря \УТП, см. §2.1, в соответствии с моделью (1) формируется упорядоченная по длине подцепочек таблица, содержащая 7 столбцов и 132 строки, и задающая отображения всех возможных подцепочек неопорных символов ТЯ и ПЯ, см. таблицу 2.
Таблица 2.
Подцепочка не опорных символов ТЯ Подцепочка не опорных символов ПЯ
; ЬоапТурега(К) = <иерснщ«м> ; ЬоапТурем(Я) =• <европеизм>;
Начало Середина . Конец Начало Середина Конец::
С С', С'2 С', С'4 С'5 С'б
В таблице 2 в первом столбце приводятся значения С подцепочек не опорных символов ТЯ, а в 2-7 столбцах - соответствующие им значения подцепочек С\ не опорных символов ПЯ для персицизмов (столбцы 2-4) и европеизмов (столбцы 5-7) при различных положениях подцепочки С в корне слова: начале С'] и С'4, середине С'2 и С'5, конце - С'3 и С'6. В качестве С'к выбирается наиболее вероятная из имеющихся альтернативных подцепочек, в которую может быть отображена цепочка С| при заданном Ам.
Для оценки моделей конверсии различных порядков были реализованы соответствующие программные средства [3]. Точность конверсии выражалась показателем Дсф - долей корректно конвертированных словоформ на значимом множестве' текстов. Результаты оценки моделей различных порядков приведены в таблице 3, в которой порядку модели сопоставлены набор параметров вектора А" (столбец 2), наименование практической реализации модели (столбец 3), значение показателя Дсф при нулевом заполнении словаря исключений IV777„с (столбец 4) и оценка размера словаря исключений, необходимого для достижения 100% точности конверсии (столбец 5).
Порядок модели Вектор параметров А" Реализация Дсф, %лри 0 Оценка \№тлис\ для дФ= юо%
0 о OK «Пендар» 23 3105
1 <Pos> Прототип 1 42 2105
2 <LoanType, Pos> Прототип 2 60 2,5 104
3 <LoanType, Pos, Palí> ТПК ГСП =95 < МО3
В §3.3 производится синтез функциональной и структурной моделей конвертера, разрабатываются алгоритмы отдельных функциональных узлов системы ТГЖ ГСП, рис. 6. Осуществляется инфологическое моделирование используемых в системе информационных хранилищ.
Рис. 6. Схема системы таджикско-персидской конверсии систем письма
Приведенная схема отражает совокупность функциональных блоков (обозначены прямоугольниками), информационных хранилищ (цилиндры) и связей между ними: информационных (непрерывные стрелки) и управляющих (пунктирные стрелки).
Функциональные блоки 1-2 реализуют этап предобработки, блоки 3-8 этап конверсии, блоки 11-13 этап постобработки. Блоки 9 и 10 представляют внешние по отношению к процессу конверсии функции, обеспечивающие сигнализацию исключительных ситуаций и процессы адаптации системы.
В §3.4 описывается реализованный на практике проблемно-ориентированный программный комплекса таджикско-персидской конверсии графических систем письма. Здесь приводятся функциональные возможности
программы, ограничения,
технические требования, состав и структура программной системы. Дается описание интерфейсных компонентов, рис. 7, и порядка работы с программой.
Здесь же приводятся результаты вычислительных экспериментов, подтверждающие соответствие эксплуатационных характеристик разработанного комплекса системе технических
требований и ограничений, сформированных на этапе проектирования.
В §3.5 разрабатываются научно-технические предложения по решению обратной задачи персо-таджикской конверсии графических систем письма, применению полученных математических моделей и алгоритмов для решения других задач. Делается вывод о широкой применимости разработанного проблемно-ориентированного программного комплекса ТПК ГСП в системах электронного документооборота, а также для исследований в области сравнительной лингвистики и прочих.
Заключение подытоживает основные результаты проведённых исследований, экспериментов и практической реализации.
Основные результаты и положения, выносимые на защиту.
1. результаты кластерного анализа множеств словоформ ТЯ и ПЯ, двуязычного таджикско-персидского словаря;
2. математическая модель таджикско-персидской конверсии текстов;
3. алгоритм и структура системы автоматической таджикско-
персидской конверсии текстов.
3 х > Ф В
мщ
•Сухан зо*ир кунад фи нигданро |3и шамън дил йа{ифруид <ДОвиро
О А-5
Рис. 7. Экранная форма комплекса ТПК ГСП
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Гращенко Л.А. Информационные основы автоматизированной таджикско-персидской транслитерации [Текст] / Усманов З.Д., Гращенко Л.А., Фомин А.Ю. // Известия АН РТ - 2008. - №1(130) - С. 20-26.
2. Гращенко Л.А. Алгоритм формирования словаря соответствий таджикских и персидских словоформ [Текст] / Гращенко Л.А. // Доклады АН РТ - 2008. - том 51, №5 - С. 339-345.
3. Гращенко Л.А. Опыт реализации средств таджикско-персидской конверсии графических систем письма [Текст] / Гращенко Л.А., Фомин А.Ю. // Доклады АН РТ - 2008. - том 51, №8 - С. 580-583.
4. Гращенко Л.А. Концептуальная модель таджикско-персидской конверсии графических систем письма [Текст] / Гращенко Л.А. // Доклады АН РТ-2009. - том 52, №2 - С. 111-115.
5. Таджикско-персидский конвертер графических систем письма [Текст]: Свидетельство о регистрации интеллектуального продукта № 091Т.1 от 16.03.2009 г. / Гращенко Л.А., Усманов З.Д., Фомин А.Ю. (Республика Таджикистан); заявл. 06.03.2009; - 7 с.
Соискатель Гращенко Л.А.
Поступило в печать 25.01.2010. Подписано в печать 25.01.2010. Формат 60x84 1/16. Печать офсетная. Усл.печ.л.1,25. Тираж 100 экз. Заказ № 16.
Отпечатано в типографии ООО «Эр-граф». 734036, г.Душанбе, ул.Р.Набиева 218.
Оглавление автор диссертации — кандидата физико-математических наук Гращенко, Леонид Александрович
Введение.
Концептуальная модель таджикско-персидской конверсии графических систем письма.
Глава 1. Анализ содержания таджикско-персидской конверсии текстов.
1.1. Систематизация исходных понятий предметной области.
1.2. Анализ содержания, целей и методов межъязыковой конверсии систем письма.
1.3. Математическая экспликация исходного понятийного базиса.
1.4. Анализ особенностей конверсии систем письма применительно к таджикско-персидской языковой паре.
1.5. Систематизация проблемных вопросов предметной области.
1.6. Анализ существующих и перспективных подходов, методов, методик конверсии систем письма применительно к таджикско-персидской языковой паре.
Выводы по 1 главе.
Глава 2. Исследование словарных множеств таджикско-персидской языковой пары и их отношений.
2.1. Формирование двуязычного таджикско-персидского словаря.
2.2. Разработка вспомогательных функций для преобразования символьных цепочек.
2.3. Разработка моделей морфологического представления словоформ таджикского и персидского языков.
2.4. Разработка моделей представления и выявления в тексте арабских заимствований таджикского и персидского языков.
2.5. Кластерный анализ словарных баз.
Выводы по 2 главе.
Глава 3. Моделирование системы таджикско-персидской конверсии текстов.
3.1. Обобщенная математическая модель процесса таджикско-персидской конверсии.
3.2. Алгоритмический и параметрический синтез модели таджикско-персидской конверсии графических систем письма.
3.3. Информационно-логическое и функциональное моделирование автоматизированной системы таджикско-персидской конверсии текстов
3.4. Описание проблемно-ориентированного программного комплекса таджикско-персидской конверсии графических систем письма.
3.5. Научно-технические предложения по практическому использованию результатов и положений настоящего исследования.
Выводы по 3 главе.
Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Гращенко, Леонид Александрович
Существующая ситуация в области межкультурной коммуникации персоязычных народов во многом предопределена историческими событиями XIX - XX веков в Средней Азии и на Среднем Востоке, когда большая группа персоязычных народностей оказалась разделенной рамками новых государственных образований - Ирана, Афганистана и Таджикистана. В лингвистическом плане единый персидский язык так же оказался разделенным на три языка - персидский (фарси) в пределах Ирана, дари - в Афганистане и таджикский - сначала на части территории бывшей Российской империи, потом СССР, а ныне - суверенного Таджикистана и некоторых областей Узбекистана и Киргизии [3.1, 3.8, 3.25, 5.1], рисунок 0.1.
Рис. 0.1. География распространения персидского языка
Сохранив общую языковую систему, таджикский и персидский языки имеют в настоящее время разные системы письма: персидский (ПЯ) — письмо на основе арабской графики, а таджикский (ТЯ) - на основе расширенного кирилловского алфавита. При этом преобразование текстов с одного языка на другой нетривиально и не сводится к простой транслитерации [3.37, 5.1]. Неоднозначность соответствия букв используемых в ТЯ и ПЯ алфавитов создают проблему нахождения системы правил отображений между ними.
Так, фраза классика таджикско-персидской поэзии XVI века Бадриддина Хдполи из произведения «Еазалиёт», одинаково понятная на слух и таджикам, и персам, в письменной речи выглядит по-разному:
Сухан зо^ир кунад сузи нщонро Зи шамъи дил барафрузад цацонро. 1J Ch^ Ajjj^Л (jr^ LS*
Слово боль передаёт, что в душе таится, Искрой сердца целый мир может озариться.
Наметившееся относительно недавно и неизбежное в исторической перспективе сближение персоязычных стран нуждается в интенсификации документооборота, обеспечивающего экономический, культурный и научный обмен информацией, а также официальную, коммерческую и частную переписку участников межъязыковой коммуникации.
С развитием международного телекоммуникационного пространства и, в частности, сети Интернет, различия в письменной графике проявляются серьезным сдерживающим фактором развития электронной коммуникации между гражданами и организациями этих стран, обуславливающим существование проектов перехода Таджикистана на арабскую графику, а Ирана, возможно, - к алфавиту на основе латиницы [3.12, 3.25].
Указанные факторы обуславливают актуальность проблематики согласования систем письменности таджикского и персидского языков за счет разработки, исследования и обоснования системы формализованных правил взаимной конверсии письменных текстов рассматриваемой языковой пары, а на её основе - средств автоматизации данных процессов.
Однако для разработки такой системы необходимо провести полномасштабные исследования на стыке филологии, компьютерной лингвистики и информационной науки. Для интенсификации таких исследований, возможно, потребуется разработать программные средства поддержки научных изысканий [5.1].
Степень разработанности проблемы
До недавнего времени рассматриваемая проблематика разрабатывалась, в основном, методами языкознания, при этом удовлетворительных решений найдено не было. Согласование систем письма производилось за счет разработки стандартов транслитерации таджикских и персидских текстов в промежуточный текст на основе латинской графики [5.3]. Недостатки этого подхода очевидны. Языковая ситуация с письменностями таджикского и персидского языков, в том числе и в исторической ретроспективе, отражена в ряде трудов (Мусаев К.М., Асимова Б.С., Исаев М.И., Collin R.O.).
Таким образом, для замены диффузной, интуитивно сформулированной и не имеющей полного решения лингвистической задачи на математическую задачу, логически сформулированную и имеющую алгоритмическое решение, целесообразна математическая экспликация указанной проблематики, методология которой дана в работах Пиотровского Р. Г. [2.11, 2.12].
Для решения поставленной задачи автором применен комплексный подход [5.4], сочетающий отдельные стороны детерминированного и вероятностного подходов, получивших отражение в научных трудах по компьютерной и математической лингвистике [2.11, 4.1]. Решение задачи основано на членении словоформ исходного таджикского текста на цепочки символов, имеющих однозначное отображение на множество цепочек персидских символов. В качестве решающего алгоритма для такого членения, автором разработан автоматический вероятностный морфологический анализатор ТЯ. Исключения, возникающие в результате вероятностного морфоанализа, учитываются в отдельном информационном хранилище.
Теоретическими основами для реализации описанного подхода явились научные работы в областях вероятностного машинного перевода [3.24, 3.30] (Koehn P., Brown Р.); автоматической транскрипции имен собственных [3.2, 3.3, 3.36, 3.39, 4.7] (Бондаренко А.В., Stalls В. G., Kevin К.); автоматической транскрипции для преобразования текст-речь [3.23, 4.8] (Azimizadeh A., Arab М.М., Quchani S.R.).
В качестве альтернативной выступает разработка на основе технологии Xerox Finite State Technology (Megerdoomian К., Parvaz D.), показывающая точность конверсии до 90% [3.37].
Значительный практический опыт обобщен рядом исследователей в области транслитерации личных имен [2.5, 3.22, 3.32, 3.36] (Ермолович Д.И., Arbabi М., Fischthal S., Pouliquen В., Steinberger R.), а также систем межъязыковой транслитерации: англо-японских [3.41, 3.29] (Finch A., Sumita Е., Knight К., Graehl J.), англо-персидских [3.33] (Karimi S., Scholer F., Turpin А.) и англо-арабских [3.19] (AbdulJaleel N., Larkey L.); системы конверсии текстов пенджабского языка [3.35] (Saini T.S., Lehal G.S.).
Математическая база для практической реализации систем обработки текстов, модели словообразования и морфоанализа для ТЯ и ПЯ отражены в ряде работ ученых Таджикистана [3.14, 2.7, 4.4] (Усманов З.Д., Исмаилов М.А., Худойбердыев Х.А.).
Лингвистические основы преобразования систем письменности и типизации словарного многообразия таджикско-персидской языковой пары представлены рядом работ таджикских лингвистов [2.1, 3.16, 3.17] (Фомин А.Ю., Амонова Ф.).
Приведенные выше сведения подтверждают актуальность задачи автоматизации конверсии графических систем письма для указанной пары языков, а также позволяют уточнить и сформулировать цель диссертационных исследований: разработать эффективный вычислительный алгоритм таджикско-персидской конверсии графических систем письма и реализовать его в виде проблемно-ориентированного программного комплекса.
Для достижения этой цели была сформулирован и решен ряд частных научных задач:
1. Анализ и систематизация существующих научных знаний в области автоматической межъязыковой конверсии текстов.
2. Исследование закономерностей отображения множества таджикских словоформ в персидские при таджикско-персидской конверсии текстов (ТПКТ).
3. Разработка, исследование и обоснование математической модели ТПКТ.
4. Разработка, обоснование и тестирование комплекса эффективных алгоритмов автоматической ТПКТ и их реализация в виде проблемно-ориентированного программного обеспечения.
5. Проведение вычислительных экспериментов с целью тестирования и верификации разработанных программных средств и разработка научно-технических предложений по их практическому использованию и дальнейшему совершенствованию.
Объектом диссертационного исследования являются системы письма и множество словоформ таджикско-персидской языковой пары.
Предметом исследований выступают методы и средства (комплекс алгоритмов), которые необходимо реализовать для обеспечения автоматизированной таджикско-персидской конверсии систем письма.
Научная новизна выполненных в диссертационной работе исследований обусловлена:
1. применением математической экспликации рассматриваемой предметной области;
2. сочетанием детерминированного и вероятностного подходов к решению задачи ТГЖТ, за счет чего нивелированы недостатки и суммированы достоинства каждого из них в отдельности;
3. применением нового подхода к морфологическому анализу заимствованных слов ТЯ, учитывающему морфологические правила языков, из которых произошло заимствование;
4. проведением комплексного кластерного анализа множества словоформ ТЯ, позволившего получить перечни и статистические распределения для различных морфологических элементов ТЯ.
Практическая значимость работы состоит в возможности широкого внедрения созданных средств конверсии в системах документооборота, а также в качестве элемента многозвенных систем машинного перевода.
Теоретическая ценность работы состоит в том, что разработанный подход к математическому моделированию и реализации вычислительных алгоритмов в области межъязыковой конверсии текстов эффективно приспосабливаются для решения как обратной задачи персидско-таджикской конверсии текстов, так и аналогичных задач для других языковых пар.
Исходя из поставленной цели исследований по разработке инструментария таджикско-персидской конверсии текстов, определена структура и содержание диссертационной работы. Она содержит введение, три главы, заключение и приложения.
Заключение диссертация на тему "Математические основы автоматизированной таджикско-персидской конверсии графических систем письма"
Выводы по 3 главе
1. На основе обобщенной математической модели ТПКГСП (6) и частных моделей представления словоформ ТПЯП (1) - (5) произведено содержательное описание уточненной модели конверсии на основе выбранного в данном исследовании комплексного подхода.
2. В результате обобщения результатов анализа предметной области, введенных требований и ограничений (§§ 1.5, 1.6), предложены структурная и функциональная модели автоматизированной системы ТПКГСП.
3. Практически реализован прототип АС ТПКГСП, произведены его натурные испытания, подтвердившие применимость предложенных в работе моделей и алгоритмов.
4. Предложены дальнейшие направления исследований, продолжающих рассматриваемую в работе тематику.
ЗАКЛЮЧЕНИЕ
В соответствии с поставленной научной задачей диссертационных исследований по разработке моделей и эффективного вычислительного алгоритма автоматизированной таджикско-персидской конверсии графических систем письма и реализации его в виде проблемно-ориентированного программного комплекса, в работе были получены следующие научно-практические результаты.
1. Произведена систематизация понятийного базиса в области межъязыковой конверсии графических систем письма, с точки зрения системного подхода рассмотрен процесс конверсии систем письма, его содержание и характеристики.
2. Применительно к задачам настоящего исследования дано описание особенностей таджикско-персидской языковой пары, произведен анализ содержания таджикско-персидской конверсии графических систем письма. На основе анализа подходов, методов и средств конверсии предложен комплексный подход к решению задач настоящего исследования.
3. На этапе исследования отношений словарей таджикского и персидского языков разработаны модели представления и сравнения словоформ, а также детализованные модели представления словоформ ТПЯП на основе учета языка, из которого они были заимствованы.
4. Получены результаты кластерного анализа словарных баз, подтверждающие правильность гипотезы начального этапа исследования о возможности нахождения конечного числа правил однозначного отображения в словоформы ПЯ для значительного числа словоформ ТЯ, легшей в основу комплексного подхода к решению научной задачи.
5. Доказана достоверность полученных в работе результатов исследования на основе обоснования и доказательства правильности выбора методов исследования, корректности сделанных допущений и ограничений, согласованности полученных результатов с результатами исследования в других предметных областях, а также по тематике, близкой к теме диссертации.
6. Осуществлена программная реализация прототипа АС ТПКГСП. На основе проведенных экспериментов доказана адекватность и применимость разработанных моделей и алгоритмов.
7. Помимо выносимых на защиту, к качественно новым результатам, полученным в работе, относятся:
- на основе математической экспликации предметной области выполнен анализ содержания межъязыковой конверсии систем письма к ТПЯП;
- предложен подход к рассмотрению входного текста, подлежащего конверсии как последовательности элементов некоторого числа классов — словоформ различного языкового происхождения, по отношению к которым необходимо разрабатывать различные модели представления и конверсии;
- предложен алгоритм генерации двуязычного таджикско-персидского словаря.
Таким образом, основными результатами исследований, полученными в ходе решения научной задачи и выносимыми на защиту, являются:
- результаты кластерного анализа множеств словоформ ТЯ и ПЯ, двуязычного таджикско-персидского словаря;
- математическая модель таджикско-персидской конверсии текстов;
- алгоритм и структура системы автоматической таджикско-персидской конверсии текстов.
Цель диссертационных исследований достигнута. В качестве направления перспективных исследований, развивающих полученные результаты, можно предложить решение обратной задачи - разработку основ построения автоматизированных систем персидско-таджикской конверсии текстов.
Библиография Гращенко, Леонид Александрович, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Нормативно-правовые акты, стандарты
2. Л. ГОСТ 7.79-2000 (ИСО 9-95). Правила транслитерации кирилловского письма латинским алфавитом М.: Изд-во стандартов, 2002. - 19 с.
3. ГОСТ 19.701-90 (ИСО 5807-85). Единая система программной документации. Схемы алгоритмов, программ, данных и систем. Условные обозначения и правила выполнения М.: Изд-во стандартов, 1990. -24 с.
4. ГОСТ 7.28-2002 (ИСО 5426-83, ИСО 5426-2-96). Система стандартов по информации, библиотечному и издательскому делу. Расширенный набор символов латинского алфавита для обмена информацией Минск: Изд-во стандартов, 2003. - 19 с.
5. ГОСТ 27465-87. Системы обработки информации. Символы. Классификация, наименование и обозначение М.: Изд-во стандартов, 1988. -24 с.
6. ГОСТ Р ИСО/МЭК 12207-99. Информационная технология. Процессы жизненного цикла программных средств М.: Изд-во стандартов, 2000.-46 с.
7. Проект отраслевого стандарта. Информационные технологии. Термины Юникод Электронный ресурс. : http://gsnti-norms.ru/norms/common/doc.asp?Q&/norms/dict/unicode.htm
8. ISO 233-3:1999. Information and documentation. Transliteration of Arabic characters into Latin characters. Part 3: Persian language Simplified transliteration. - ISO TC46, 1999. - 14 pp.
9. The Unicode Standard, Version 5.2. Mountain View, CA: The Unicode Consortium, Электронный ресурс.: http://www.unicode.Org/versions/Unicode5.2.0/
10. Книги, монографии, руководства
11. Амонова Ф.Р. Именное аффиксальное словообразование в современном персидском и таджикском языках: Учеб. пособие. — Душанбе: 1982.-55 с.
12. Бердыева Т. Лексика и грамматические элементы арабского языка в таджикском. Душанбе: «Дониш», 1968. - 23 с.
13. Бильгаева Н.Ц. Теория алгоритмов, формальных языков, грамматик и автоматов: Учебное пособие. Улан-Удэ: Изд-во ВСГТУ, 2000. - 51 с.
14. Грязнухина Т.А., Дарчук Н.П., Комарова Л.И. и др. Лингвистические проблемы автоматизации редакционно-издательских процессов. Киев: «Наукова думка», 1986. - 231 с.
15. Ермолович Д.И. Имена собственные на стыке языков и культур. — М.: Р.Валент, 2001. 200 с.
16. Зиндер Л.Р. Очерк общей теории письма. Л.: «Наука», 1987. — 112с.
17. Исмаилов М.А. Основы автоматизированного морфологического анализа слов таджикского языка. Душанбе: ПИО НПИЦентр, 1994. - 156 с.
18. Колмогоров А.Н., Драгалин А.Г. Математическая логика. Дополнительные главы: Учеб. пособие. М.: Изд-во Моск. ун-та, 1984. - 120 с.
19. Комиссаров В.Н. Теория перевода (лингвистические аспекты). Учеб. для ин-тов и фак. иностр. яз. М.: Высшая школа, 1990. - 253 с.
20. Персидско-русский словарь: в 2-х томах. Свыше 60000 слов / под ред. Ю. А. Рубинчика. 2-е изд., стереотип. М.: Русский язык, 1983. т. 1 — 800 е.; т. 2-864 с.
21. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: «Высшая школа», 1977. - 383 с.
22. Пиотровский Р.Г. Инженерная лингвистика и теория языка. М.: «Наука», 1979. - 112 с.
23. Практическая транскрипция фамильно-именных групп / под. ред. Р.С. Гиляревского. М.: Физматлит, 2004. - 224 с.
24. Расторгуева B.C. Краткий очерк грамматики таджикского языка // Таджикско-русский словарь / под ред. М. В. Рахими, JT. В. Успенской. Гл. ред. Е. Э. Бертельс. М., 1954.- 791 с.
25. Рубинчик Ю.А. Грамматика современного персидского литературного языка /Ю.А. Рубинчик; РАН. Ин-т востоковедения, МГУ им. М.В.Ломоносова. Ин-т стран Азии и Африки. Москва: Восточная литература, 2001.- 600 с.
26. Смит Б. Методы и алгоритмы вычислений на строках. М.: Вильяме, 2006. - 496 с.
27. Советов Б.Я., Яковлев С.А. Моделирование систем: Учеб. для вузов. М.: Высш. шк, 2001 - 343 с.
28. Сухотин Б.В. Исследование грамматики числовыми методами // Инт рус. языка АН СССР. Отв. ред. А.А. Зализняк. М.: Наука, 1990. - 176 с.
29. Таджикско-русский словарь, т.1 /под ред. С.Д. Холматовой, С. Солехова, С. Каримова. Душанбе: «Дониш», 2004. - 388 с.
30. Таджикско-русский словарь, т.2 /под ред. Д. Саймиддинова, С.Д. Холматовой, С. Каримова. Душанбе: «Дониш», 2005. - 461 с.
31. Тарабрин С.И. Основы правописания персидского языка: учебная разработка. М.: Военный университет министерства обороны, 2004. - 21 с.
32. Файн B.C., Рубанов Л.И. Машинное понимание текстов с ошибками. М.: «Наука», 1991. - 151 с.3. Статьи, доклады.
33. Асимова Б.С., Исаев М.И. Состояние алфавитов и орфографий иранских языков народов СССР // Опыт совершенствования алфавитов и орфографий языков народов СССР М.: «Наука», 1982. - С. 189 - 194.
34. Бондаренко А.В. и др. Автоматизация процесса транскрипции для задачи многоязыковой передачи имен собственных // Известия Академии Наук. Теория и системы управления том 43, №6 - 2004. - С. 892-898.
35. Бондаренко А.В. и др. Метод фонетической транскрипции с использованием единого промежуточного фонетического представления / Препринт Института Прикладной Математики им Келдыша М.В. М.: РАН, №90, 2003.-28 с.
36. Бондаренко А.В., Герасименко А.А. Автоматическая транскрипция именных групп в процессах обработки машиносчитываемых проездных документов // Вестник компьютерных и информационных технологий. 2008. -№3. — С. 8-17.
37. Галенко В.Т. Многоязычная коммуникация кириллических языков // Библиотековедение. 2007. - № 2. - С. 60-63.
38. Мазуренко И.Л., Бабин Д.Н., Холоденко А.Б. О перспективах создания системы автоматического распознавания слитной устной русской речи // Интеллектуальные системы, 2004, том 8, вып. 1-4. С. 45-70.
39. Каспарова Н.Н. Язык библиографической записи / Каспарова Н.Н. // Библиотека. 2004. - № 5. - С. 43-45.
40. Мусаев К.М. Разработка и усовершенствование алфавитов и орфографий языков народов СССР // Опыт совершенствования алфавитов и орфографий языков народов СССР М.: «Наука», 1982. — С. 5 - 18.
41. Назаров Р.С. База постфиксов компьютерного морфологического анализа слов таджикского литературного языка // Доклады АН РТ том 49, №7 -2006.-С. 620-627.
42. ЗЛО. Ножов И.М. Прикладной морфологический анализ без словаря // КИИ-2000. Труды конференции. -М.: Физматлит, 2000. Т.1. - С. 424-429.
43. Садовский М.Г. О сравнении символьных последовательностей // Вычислительные технологии том 10, №3 - 2005. - С. 108 - 116.
44. Сиддикзода С. Таджикский язык: с приставкой «фарси» или без нее? // Media Insight Central Asia 2002. - №27. - 3 с.
45. Усманов З.Д., Абдухамидов А.А., Исмаилов М.А. О статистических закономерностях слогового разнообразия таджикского языка // Доклады АН РТ, 2002, т. 45,№5-6-С. 9-14.
46. Усманов З.Д., Исмаилов М.А., Гафуров Д.А. Распознавание словоформ таджикского языка // Доклады АН РТ, 2002, т. 45, №5-6 С. 4-8.
47. Усманов З.Д., Довудов Г.М. О формировании базы префиксов таджикского литературного языка // Доклады АН РТ том 52, №6 - 2009. — С. 431 -436.
48. Фомин А.Ю. Система признаков автоматизированного распознавания арабских заимствований в таджикских текстах // Доклады АН РТ-том 52, №1 -2009.-С. 17-22.
49. Фомин А.Ю. Система признаков русско-интернациональных заимствований в таджикском языке Электронный ресурс.: http://taipers.narod.ru/ailicle4.htiTil
50. Шакиб-Мапеш Амир. Свободно распространяемая программа Persian multi-language dictionary версии 2.0 Электронный ресурс. : http ://users. i vu. fi A~am i s hak/.
51. AbdulJaleel N., Larkey L.S. English to Arabic Transliteration for Information Retrieval: A Statistical Approach. In Proceedings of the twelfth international conference on Information and knowledge management, New Orleans, LA, USA, 2003, pp. 139 146.
52. AbdulJaleel N., Larkey L.S. Statistical Transliteration for English-Arabic Cross Language Information Retrieval. In Proceedings of CIKM2003, pp. 139-146.
53. AleAhmad A., Amiri H., Rahgozar M., Oroumchian F. Hamshahri: A Standard Persian Text Collection. Database research Group, University of Tehran, 2008.- 12 p.
54. Arbabi M., Fischthal S. M., Cheng V. C., Bart E. Algorithms for Arabic name transliteration. In IBM Journal of Research and Development, 1994, vol. 38(2), pp. 183-193.
55. Azimizadeh A., Arab M.M., Quchani S.R. Persian part of speech tagger based on Hidden Markov Model. In JADT 2008: 9es Journees Internationales d Analyse statistique des Donnees Textuelles, pp. 121-128.
56. Brown P., Pietra S. D., Pietra V. D., Mercer R. The mathematics of statistical machine translation: parameter estimation. In Computational Linguistics, 1991, vol. 19(2), pp. 263-311.
57. Collin R.O. Revolutionary Scripts: The Politics Of Writing Systems. Report presented on Vernacular 2005 Conference on Language and Society. Электронный ресурс. : http://www. omnivlot. coniflariguase/articles/revohitionarv scripts, doc
58. Darrudi E., Hejazi M.R., Oroumchian F. Assessment of a Modern Farsi Corpus. In Proceedings of the 2nd Workshop on Information Technology & its Disciplines (WITID), Iran, ITRC, 2004 5 p.
59. Denoual E., Lepage Y. The character as an appropriate unit of processing for non-segmenting languages. In Proceedings of the 12th Annual Meeting of The Association ofNLP, 2006, pp. 731-734.
60. Esfahbod B. Persian Computing with Unicode. In Proceedings of the 25th Internationalization and Unicode Conference, Washington, DC, 2004 — 22 p.
61. Knight K., Graehl, J. Machine Transliteration. In Computational Linguistics, 1998, vol. 24(4), pp. 599-612.
62. Koehn P., Och F.J., Marcu D. Statistical Phrase-Based Translation. In Proceedings of the Human Language Technology Conference2003 (HLT-NAACL 2003), 2003, Edmonton, Canada.
63. Oroumchian F., Aleahmad A., Hakimian P., Mahdikhani F. N-Gram And Local Context Analysis For Persian Text Retrieval. In Proceedings of International
64. Symposium on Signal Processing and its Applications. ISSPA. Sharjah, United Arab Emirates, 2007.
65. Pouliquen В., Steinberger R., Ignat C., Temnikova I., Widiger A., Zaghouani W., Zizka J. Multilingual person name recognition and transliteration Электронный ресурс. : arxiv.org/pdf/cs/0609051
66. Karimi S., Turpin A., Scholer F. Corpus Effects on the Evaluation of Automated Transliteration Systems. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. Prague, Czech Republic, June 2007, pp. 640-647.
67. Saini T.S., Lehal G.S. Shahmukhi to Gurmukhi Transliteration System: A Corpus based Approach. In Research in Computing Science (Mexico), 2008, vol. 33, pp. 151-162.
68. Stalls B. G., Kevin K. Translating Names and Technical Terms in Arabic Text. In COLING ACL Workshop on Computational Approaches to Semitic Languages, 1998, pp. 34-41.
69. Megerdoomian K., Parvaz D. Low-density language bootstrapping: the case of Tajiki Persian. In Proceedings of 6th Language Resources and Evaluation Conference, Marrakech, Morocco, 2008. 6 p.
70. Megerdoomian K. Finite-State Morphological Analysis of Persian. In Proceedings of the Workshop on Computational Approaches to Arabic Script-Based Languages, COLING 2004. University of Geneva, Switzerland.
71. Megerdoomian K. The Structure of Persian Names. MITRE Technical Report (MP080034), Washington, D.C. 2008 15 p.
72. Foreign Names Committee Geographic Names Standardization Policy for Afghanistan. Version 2.2c. 2007. - 99 p.
73. Finch A., Sumita E. Phrase-based Machine Transliteration. In Proceedings of IJCNLP 2008, Workshop on Technologies and Corpora for Asia-Pacific Speech Translation (TCAST'), Janurary 2008, pp. 13-18.
74. Диссертации, авторефераты, НИРы
75. Кушерян С.А. Вероятностно-статистические методы и алгоритмы автоматической морфологической сегментации слов естественных языков. Автореф. дис. . канд. техн. наук. Киев: ЕрГУ- 1991. - 14 с.
76. Манукян А.Х. Формализация, алгоритмическое описание и реализация морфологического анализа (на материале русского языка). Автореф. дис. . канд. техн. наук. Ереван - 1990. - 18 с.
77. Мухабатов А. Спортивная терминология современного персидского языка. Автореф. дис. . канд. фил. наук. Душанбе - 2007. - 22 с.
78. Худойбердыев Х.А. Комплекс программ синтезирования таджикской речи по тексту. Дис. . канд. физ.-мат. наук. Душанбе - 2009. - 113 с.
79. Abouei J. Entropy of Persian Language. B.Sc. Project, Isfahan University of Technology, Iran, 1993. Электронный ресурс. : http://shannon2.uwaterloo.ca/~iabouei/Jamshid%20Abouei Home%20page/Bachelur project.pdf
80. Ido S. Towards an Alternative Description of Incomplete Sentences in Agglutinative Languages. A thesis submitted in fulfillment of the requirements for the degree of Doctor of Filosophy. University of Sydney. - 2001. -210 p.
81. Karimi S. Machine Transliteration of Proper Names between English and Persian. A thesis submitted in fulfillment of the requirements for the degree of Doctor of Philosophy. RMIT University, Victoria, Australia. - 2008.
82. Ziai R. Finite State Methods Applied to Verbal Inflection in Persian. A thesis submitted in fulfillment of the requirements for the degree Bachelor of Arts in Computational Linguistic. Eberhard-Karls University. - 2006. - 35 p.5. Работы автора
83. Усманов З.Д., Гращенко J1.A., Фомин А.Ю. Информационные основы автоматизированной таджикско-персидской транслитерации // Известия АНРТ-№1(130)-2008 г.-С. 20-26.
84. Гращенко Л.А. Алгоритм формирования словаря соответствий таджикских и персидских словоформ // Доклады АН РТ том 51, №5 - 2008 г. -С. 339-345.
85. Гращенко Л.А., Фомин А.Ю. Опыт реализации средств таджикско-персидской конверсии графических систем письма // Доклады АН РТ том 51, №8-2008 г.-С. 580-583.
86. Гращенко Л.А. Концептуальная модель таджикско-персидской конверсии графических систем письма // Доклады АН РТ — том 52, №2 — 2009 г. -С. 111-115.
87. Таджикско-персидский конвертер графических систем письма: Свидетельство о регистрации интеллектуального продукта № 091TJ от 16.03.2009 г. / Гращенко Л.А., Усманов З.Д., Фомин А.Ю. (Республика Таджикистан); заявл. 06.03.2009; 7 с.
-
Похожие работы
- Библиографирование персидско-таджикской миниатюры
- Моделирование на таджикском языке английского простого нераспространенного предложения
- Исследование тепломассообмена и совершенствование способа паровой конверсии природного газа
- Ретроспективная конверсия карточных каталогов
- Разработка аналитического способа задания свободных поверхностей для решения геометрических задач в интегрированных системах CAD/САМ
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность