автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Графическое отображение и русская транскрипция библиографической и фактографической информации на японском и корейском языках
Автореферат диссертации по теме "Графическое отображение и русская транскрипция библиографической и фактографической информации на японском и корейском языках"
РОССИЙСКАЯ МИНИСТЕРСТВО НАУКИ,
АКАДЕМИЯ НАУК ' ВЫСШЕЙ ШКОЛЫ
И ТЕХНИЧЕСКОЙ ПОЛИТИКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ВСЕРОССИЙСКИЙ ИНСТИТУТ НАУЧНОЙ И ТЕХНИЧЕСКОЙ
ИНФОРМАЦИИ
На правах рукописи
Рим Дек Сен
ГРАФИЧЕСКОЕ ОТОБРАЖЕНИЕ И РУССКАЯ ТРАНСКРИПЦИЯ БИБЛИОГРАФИЧЕСКОЙ И ФАКТОГРАФИЧЕСКОЙ ИНФОРМАЦИИ НА ЯПОНСКОМ И КОРЕЙСКОМ ЯЗЫКАХ
Специальность 05.25.05 Информационные системы и процессы
автореферат
д иссертации на соискание ученой степени кандидата технических наук
МО СК В А—1992
Работа выполнена во Всероссийском институте научной и технической информации.
Научный руководитель:
доктор технических наук, профессор Большаков Игорь Алексеевич
Официальные оппоненты:
доктор филологических наук, профессор Гиляревский Руджеро Сергеевич кандидат технических наук Казаков Евгений Николаевич
Ведущая организация: Всероссийский институт информации и технико-экономических исследований в промышленности (ИНФОРМЭЛЕКТРО)
Защита состоится "¡/А'" 01 1993 года в 10 часов на заседании Специализированного совета Д003.02.01 во Всероссийском институте научной и технической информации по адресу: 125219, Москва, ул. Усиевича, д. 20-а
С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации.
Автореферат разослан
Ученый секретарь Специализированного совета Петрова
доктор технических наук Лидия Андреевна
» _
ГОО;ц..г......
БИЬЛииГЕКЛ
ОЕДЛЯ ХАРАКТЕРИСТИКА РАБОТЫ
Аятуалышста щюбпаьш
В последние годы резко возрос поток научно-технический информации, поступающий в Россию иа стран Восточной Азии. В основном зта информация поступает на японском, китайском и корейском языках.
В практике российских центров НТИ уже 30 лет назад сложилась традиция передавать имена авторов ряда стран Востока, названия их фирм и литературных источников в русаюй транскрипции. В то же время, применительно к авторам, пишущих на патинице, подобные данные всегда давались на языке оригина-па.
Транскрипция восточных языков осуществлялась вручную и юэтому ее качество зависело от квалификации редактора. В ре-»ультате Сило невозможно соединить в одном машинописном тексте иш машиночитаемом носителе слова различных алфавитов. В перезолах, например, приходилось вклеивать непосредственно вырезки га ксерокопий источника в списки литературы, что явно не являйся современным решением проблемы подготовки изданий. В части ;© машинных носителей практически исключалась возможность пе-)едачи (продажи) баз данных, созданнных в российских центрах ГГИ. Действительно, при продаже созданных в России библиографических баз данных и при автоматическом обмене научно-техни-¡еской информацией по линиям связи у организаций-потребителей [аверняка возникнет необходимость отождествления библиографи-•еских и фактографических материалов из стран Восточной Азии в к русской транскрипции с исходными объектами, а это не всегда [росто.
Применение русской транскрипции в указанных условиях име-т и несколько дискриминационный характер, поскольку противо-
речит нынешней роли Восточной Азии в научно-техническом прогрессе.
Решение проблемы адекватного представления национальных алфавитов Восточной Азии приходится рассматривать для каддой из этих стран отдельно.
Цель и задачи исследования
Целью данной работы является исследование двух взаимосвязанных, но раздельных проблем:
1) графическое отображение восточного письма на выводных устройствах ЭВМ в его исходном, национальном виде;
■ 2) русская транскрипция японского алфавитного и корейского слогового письма
При этом ставились следующие задачи: создать систему кодов, позволяющих совместить в одном тексте европейские и вос-точноазиатские алфавиты; разработать методы ввода японского и корейского слогового письма; создать битовые матрицы для изображения элементов указанных алфавитов.
Методы исследования
Для решения поставленных задач применялись различные методы математической логики, теории конечных автоматов, теории кодирования и компьютерной графики.
Научная новизика
В новым результатам, полученным в диссертации относятся:
- система двухбайтового кодирования, обеспечивающая представление в одном документе наряду с латинскими и русскими буквами корейских слогов и японских графем;
- организация хранения битовых матриц, предназначенных для описания корейских слогов, даюшдя существенную экономию
памяти (примерно в 20 раз) с сохранением высокой скорости отображения СЛОГОВ;
- использование идей конечного автомата для организации ввода корейского слогового письма;
- полная система правил русской транскрипции японского алфавитного и корейского слогового письма;
- алгоритмы русской транскрипции японского алфавитного и корейского слогового письма.
Практическая ценность и реализация результатов исследований
Разработанный в диссертации аппарат может быть использован в практике российских центров НТИ для автоматизации обработки и создания баз данных, включающих источники из Восточной Азии.
На его основе созданы программные модули, реализующие основные задачи отображения, ввода и русской транскрипции для японского алфавитного и корейского слогового письма Программы написаны на языке Турбо Си++ и выполняются на 1ВМ-совместимых компьютерах.
Апробация
Основные результаты диссертации докладывались и обсуждались в Отделе Теоретических и Прикладных проблем Информации БИНЙТИ.
По теме диссертации опубликованы две работы.
Структура м объем работы
Диссертация состоит из введения, четырех глав, заключения и двух приложений. Список использованной литературы включает
I т2
62 наименования. Общий объем работы составляет 139 страниц, основной текст содержит 119 страниц, 26 рисунков и 13 таблиц.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы диссертации характеризуются общие цели работы и задачи, которые должны быть решены для достижения этих целей.
В первой главе приведены теоретические основы отображения символов на выводных устройствах ЭВМ, дана обшая Характеристика усложнений, которые вносят символы письма стран Восточной Азии, раскрыты основные понятия и механизмы транслитерации и транскрипции.
Внутреннее представление символов европейских алфавитов в памяти ЭВМ осуществляется на основе определенной системы кодирования символов, которая представляется 8-битовой кодовой таблицей ASCII.
Ее первая часть (коды 0 ... 127)' покрывает управляющие символы, знаки пунктуации, цифры и латинский алфавит. Вторая половина таблицы - ASCII-коды (128 ... 255) - является расширением стандарта ASCII-таблицы. .В ней размещают символы нацио-■нальных алфавитов (например, русский алфавит), символы псевдографики, а также ряд математических символов.
В настоящее время для изображения европейских символов на экране компьютеров как правило используются матрицы 5x7 или 7x13.
Письмо Восточной Азии вносит в это значительные усложнения. Можно выделить следующие основные источники усложнений:
- символов настолько много, что' их не удается поместить в
таблицу ASCII, требуются двухбайтовые коды, причем эти коды должны быть согласованы с уже существующими системами кодирования;
- сложная графика требует больших битовых матриц, и, как следствие, возникает проблема их экономного хранения. Кроме тего, необходимо согласовывать размеры этих матриц с матрицами европейских алфавитов;
- сложно организовать ввод графем подобных алфавитов с использованием стандартной клавиатуры, их совокупность не разметается на клавиатуре,
В части транскрипции, в Лингвистических исследованиях применяется фонетическая транскрипция, использующая условную систему знаков. Существует международная система фонетической транскрипции (пополненный латинский алфавит), где каждому звуку человеческой речи (независимо от языка, в котором эти звуки встречаются) соответствует определенный знак или комбинация знаков.
Передачу (транскрипцию) письменности одного языка с поморю письменности другого мокно математически определить как алфавитный оператор (отображение), сопоставляющий словам некоторого алфавита слова в каком-то другом алфавите.
Транскрипция обычно усложняется следующими обстоятельствами:
- сложно точно передать звуки одного языка звуками другого из-за несовпадения ряда фонем;
- транскрипция зависит не только от звучания букв, но и. от их сочетания (т.е. контекста)..
Вторая глава посвящена разработке принципов представления японского алфавитного письма наряду с латинским и русскими в
1тЗ
едином документе. Японское алфавитное письмо отображает самые важные для целей НТИ библиографические поля.
Для внутреннего представления японских иероглифических символов в ПЭВМ в Японии созданы два вида двухбайтовых кодов: JIS-код и SHJIS-код. Так как одному JIS-коду могут соответствовать две латинские буквы, то для различения пар латинских букв от JIS-кода внутри единой строки текста используются два управляющих символа перехода - KSI (Kanji Shift In) и KSO (Kanji Shift Out). Из них KSI указывает начало японской иероглифической последовательности, a KSO - ее конец.
Система SHJ IS-кодов имеет собственные коды для латинского алфавита и цифр, которые занимают по два байта. Здесь не нужна проверка каждого кода, является ли он ASCII- или SHJIS-кодом.
При разработке принципов одновременного представления латинского, руского и японского алфавитов использовались особенности японского алфавита, состав которого с его русской транскрипцией представлен на табл. 1. Японский алфавит содержит 92 знака, 46 из них - хирагана, остальные 46 - катагана
Кроме этих 92 знаков, в японской графике есть еще модификации отдельных графем, представленные на табл. 2 и 3. Все эти модифицированные буквы в табл. 2 и 3 имеют номера исходных букв из табл. 1. Тем самым, всего в японском алфавите до 150 графем.
В расширительной части таблицы ASCII вполне можно разместить символы русского алфавита (русский регистр) и символы ка-таганы ( японский регистр). Но при желании иметь одновременно латинские, русские и японские буквы места оказывает недостаточно.
В работе предложена новая система кодов, которая покрывает японские буквы, при сохранении неизменными кодов латинского
Хирагана Катакана
3-5" 3 6 37 3? 39 Й1
а И у с о- Ц У 0
* 7 * Г 1 X
К ¡?'7 Ж9 9о
Ка Км Ку кэ к«? Ка |Си Ку Ко
¥ < ^ Г. я С7
с 4 7 м-в 49 91 91 93 95
Са С Ц У О СО Сй- С И су с,э Со
-к и % £ -к X ^ У
т £,0 £1 53 ВЦ- ,97 {00
То- ГИ му тэ ТО тс*- ти иу Го
Ъ -р т. у. 9 & ^ т К
н £6 56 ¿Т 59 м 1о2 юз
ш НИ ну нэ Но ш НИ иэ Но
& ^ & ъ О) -г - 7 /
x вп га № в4 ш
Ха УН 4-у хэ хо Ш ХИ 4'У ХО
и. 1/ 4- 13с /\ У У *
м м № 69 м ш ш и*
на ми Ну ж ИР МО ИК НУ м ^ Но
1 Н г ■7 ^ У / ^
70 К> 7-2 11(1
А ё Л Ю ё
* М> х •V Л. 3
р 73 74- 'ТВ 76 77 л22 /23
ь ри РУ рэ ро т Рй Р/ ро
1 г 6 1 У 1 а
Б т
№. ПО Ш Но
ь 1 у7 7
Я № ш
н и
Л у
Табл. I.
1-4
- е -
Табл. 2.
Хирагана Катакана
Г 4-Р ¿И #9 У*
Пь ги гэ ГО Г&- г/ гэ Г£>
%>' Г Г V V Г Г л"
АЗ 4-6 ы 92 93
№ АЭД Дзу 4зз 4зо Аза Ази Азу № 4зо
Г Г У X" г У"
А Ж ¿3 96 99 ро
№ 4зу АЭ ¿0 А (к 4зй ,4зУ АЭ АО
Г г" Г Г Я — // / К'
Б (¡0 и ¿з ¿и /от /с?7 ¿0$ Но
<Гй. <5у $0 Хх ь ¿о
¿Г Г ЯГ »» >3 » Г
п л/ /¿7 т Ю9 НО
№ пи пу ПЭ по пи пу П 3 По
/\с 1£с 7е
Табло 3
оригинальные Хирагана Катакана
7о 71 7г 1/6
К> 4« е Я Уо е
"7 № £ V * д.
"Г1 ■■ измененные Аг Го п п № 116 /¿У
л -V 2 2
и русского алфавитов.
Были возможны два пути. Согласно первому, вводится дополнительная страница кодов ASCII, а переход к ней осуществляется по специальному управляющему символу. После такого перехода очередной 8-битовый символ обозначает уже некоторый символ японского алфавитного письма.
Второй путь состоит в использовании для кодирования двухбайтовых сочетаний, первый байт из которых указывает на переход к новым кодам.
Первый путь приводит к смешению в одной текстовой строке одкобайтовых ASCII-кодов и двухбайтовых JIS-кодов, а второй путь - к использованию SHJIS-кода. Первый случай более экономен по памяти, но при этом нудно постоянно обращать внимание на появление управляющих символов - KS1 и KSO, что увеличивает сложности ввода текста
В надай работе используется способ кодирования, аналогичный SHJIS-кодам для японского алфавита.
Используя два блйта, можно разделить японские буквы на три класса в соответствии с таблицами 1 - 3. Для этого требуются "р,: mm указательных символов, перемешающих из общей последовательности латиницу и кириллицы в японский "регистр" ровно на одну букву. Они занимают место первого байта каждого двухбайтового кода для японского алфапита, а собственный номер данной буквы среди японского алфавита, представленного в табл. 1 - 3, - место второго байта. Естественно, что эти три значения для указательных символов должны быть подобраны так, чтобы их появление среди русских.и латинских букв было исключено или маловероятно. Здесь для них выбраны коды с ASCII -значениями 246 = F6)&, 247 - F7[6, 248 = F8i6. Первое значение слудит указателем для японских букв, находящихся в табл. 1,
Ь 5
второе значение - указателем для букв табл. 2, третье значение - указателем для букв табл. 3. Вот примеры кодов отдельных букв: ?62816=> "ка", Р728<6=^ "га", РбЗС^ "ха", Р73С[(. "ба" РвЗС^ "па", "цу", Р734(4 "дзу", Г834({ "цу*". Здес
* означает прочтение графемы в зависимости от контекста.
В третьей главе описываются принципы представления латинс кого, русского и японского алфавитов, корейских слогов и иероглифов в одном документе и ввода корейских слогов и иероглифов на основе стандартной клавиатуры персональных ЭВМ.
Корейский алфавит состоит из 40 букв, представленых в табл. 4. Из них 19 - согласные, остальные - гласные. Корейское слово состоит из слогов, а слог обычно имеет следующий состав: 1) согласный + гласный или 2) согласный + гласный + согласный, Количество корейских слогов достигает примерно 12000 мыслимых значений.
Начальной в корейском слоге может оказаться любая соглас ная из табл. 4, но в конце слога могут стоять как отдельные согласные, так и целые буквосочетания. При этом номера из табл. 4 и 5 используются при составлении кода для корейского слога в целом.
Всего корейского слог составляется, тем самым, из 51 рае ных символов, если отождествить одинаковые символы из табл. < и 5.
№1 клавиатуре 1ВМ-совместимых ПЭВМ нельзя расположить т< кое количество символов, так как это число значительно болыи числа клавиш, отведенных под алфавитно-цифровые символы лати ницы и кириллицы. С помощью формальных приемов (например, уч та повторов) удалось сократить количество символов до 26, ра мещающихся на клавиатуре.
Количество корейских слогов значительно превышает возмо
Табл. 4.
Корейская алфавит л его траскрипцяя
Согласные
О I 2 3 4 5 6 7 8 9 10 II 12 13 14 15 16 17 18
К н Т Р М П с Ч ЧХ кх тх ИХ X КК тт пп СС чч
"1 С Е П н Л О д X ч £ Д "о п Ш ш Ж
Гласные
О I 2 3 4 5 6 7 8 9 10 и 12 13 14 15 16 17 18
А я Е ЙО О Ё У Ю Ы И э йэ Е № ВЕ ВИ ый ВА ВЕ
Ь 1= -1 4 X Л т тт — 1 н н А 41 4 •Н Л 4 ■й
19 ?п
вэ ВЕ
4 4
Табл. 5.
Конечные согласные буквы я их транскрялцяя
Номер 0 I 2 3 4 5 6 7 8 9 10 и 12 13
К КК КС Н нч НХ Т Л лк ли М лс
1 77 Т* ь их Г 5 ш &
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
ли лпх лх М П ПС С СС Н Ч чх КХ га ПХ X
п Ы НА О X =? п 31 *
иоети однобайтового кодирования, и поэтому для их представления используются два <5айта.
Б данной работе предложена новая система двухбайтового кодирования, названная кодом KJJS (Korean Japan International System). Основные требования этой системы следующие:
- должен существовать достаточно простой алгоритмический способ определения KJJS-кода слога на основании номеров составляющих его литер, т. е. должна существовать функция
• К ■= F (No, Nr, NC), (1)
где К - определяемый код корейского слога, Nc - номер согласной, Nr - номер Гласной в табл. 4, а Но' - номер (конечной согласной) или сочетания согласных из табл. 5.
- функция (1) должна осуществлять взаимнооднозначное отображение множества троек (No, Nr, No') в множество двухбайтовых кодов, т. е. различным наборам литер, составляющих слог, должны соответствовать разные значения KJIS-кода;
- код должен отражать особенности структуры корейского слога. Ш его значению должно легко определяться, имеет ли он вид С+Г или С+Г+С'; -
- по KJIS-коду должны достаточно просто восстанавливаться номера составляющих его литер;
- KJIS-коды должны занимать связную и достаточно компактную область в пространстве двухбайтовых кодов.
Алгебраическая формула, определяющая KJIS-код корейского слога по внутриалфавитным номерам отдельных букв из табл. 4 и 6 и удовлетворяющая указанными требованиями, имеет вид:
К - Nc*6*l£? +(Nr/4)+(Nr mod 4)*32+Nc'+8080^. (2)
Эта функция раэйещает корейские слоги в прямоугольной области (таблицу корейских кодов с координатами (80,80), (80.FC), (FC.80), (FC,FC), где все числа 16-ричные. Объем этой таблицы
шь незначительно превышает количество корейских слогов, а ее
элюжение в пространстве двухбайтовых кодов хорошо согласуется уже существующими в Восточной Азии системами кодирования.
Из формулы (2) можно легко выразить номера корейских ливр, составляющих слог с кодом К при помощи следующих выраже-ий:
Н - К - 32896, No - (Н/1536), Н' - ((Н rod 1536)/ 256)М Nr = Н* + ((4*Н')/32),
NC - С(4*Н') mod 32)+(((Н mod 4096) mod 256) mod 16), де Н и Н' - рабочие переменные.
В нашей системе представлены все символы кодировочной аблицы IBM, т.е. латинский алфавит, цифры, символы псевдогра-ики и др., а также японские алфавиты, корейские слоги и ие-эглифы.
Прямо совместить предложенную нами систему KJISkoaob с ринятой в Японии SHJIS-системой, однако, не удается, посколь-у возникают частичные наложения кодов. Кроме того, это и у а-елесообразно, т.к. SHJIS-коды обладают целым рядом ограниче-ий и недостатков: эта система не включает русский и корейские зыки; к тому же SHJIS-коды латинских символов плохо согласо-аны с их ASCII-кодировкой и др. Разрешить кофликт, тем не ме-ее, достаточно просто, причем все наши преимущества одновременного размещения четырех алфавитов сохраняются.
Весь набор SHJIS-кодов включается в систему KJIS-кодов ледукщм образом. Пусть ААВВ - произвольный SHJIS-код, a XXYY соответствующий ему KJIS-код, тогда: Н » 188a(AAJ6-81ls) KB^-4q{).-i, • XX = (H/94)+8q6, YY = (Н mod 94)+21,5. . десь i = 0, если. ВВ<7^6 ,а i =■ 1, если BB>7^.
Обратно, по японскому KJIS-коду легко восстанавливаются SHJIS-коды:
Н = 94*(XXH-80 )+(YY,r21 ), АА = (H/ieej+eia, С = (Н mod 188)+40u, ВВ = C+i.
Здесь i = О, если C<7F14,a i = 1, если C>7F<t.
Полученные KJIS-коды хорошо согласуются с ASCI¡-кодировкой, а именно, второй байт KJIS-кода каждого символа совпадав с его ASCII-кодом.
При включении в систему кодов русских букв сохранилась отмеченная связь с ASCII-кодами. Для этого мы разместили русс кие буквы в интервале FC80J6 ... FCF1^6 так, чтобы второй байт совпал с ASCII-кодом соответствующей буквы.
Формирование корейского слога рассмотрено при его вводе виде работы конечного автомата.
Граф переходов конечного автомата для корейского слога изображен на рис. 1, где пары (i/j}, приписанные дугам графа переходов, состоят из двух символов: входа i и выхода j, а символ V обозначает логическую связь ИЛИ. Здесь С и Г - множества согласных и гласных букв из табл. 4 и 5, а П - множес во любых иных букв или символов не из корейского алфавита, с ответствующих клавишам в различных регистрах ЭВМ.
На письме корейский слог занимает одно знакоместо и сос тавлен из образующих его букв нелинейным образом при преимущественном направлении с верхнего левого утла вправо и вниз. Графически сложность корейских слогов требует для своего представления довольно больших матриц. Нам оказалась достатс на матрица 16x13.
t
Рио. Г» Граф переходов автомата корейского олога
- 16 -
Для хранения битозых матриц всех корейских слогов требуется тогда примерно 400 Кбайт памяти.
В данной работе предложен подход, который позволяет существенно снизить этот объем, при той же матрице 16x13.
Используется то, что корейский слог имеет не произвольны вид, а состоит из сходных графических элементов (изображений отдельных литер) и имеет фиксированную структуру СГ или СГС'.
Были созданы парциальные матрицы для корейских графем, а именно матрицы следующих .размеров:
1) 16x13 для отдельных букв;
2) 16x13 для'слогов вида СГ;
3) 1Пх9 для изображения сочетания СГ из слога вида СГС';
4) матрица 18x5 для конечных согласных из слога вида СГС
Если корейский слог имеет вид СГ, то для его отображени
выбирается матрица типа 2, а при вкде СГС' берутся матрицы ти пов 3 и 4, и производится их "склеивание" по столбцам. Девята строка из этой склеенной матрицы представляет собой слияние (логическое ИЛИ) последней строки матрицы типа 3 и первой строки матрицы типа 4. В цедом парциальные матрицы занимают зсего около £0 Кбайт, т.е. примерно.в 20 раз меньше, чем требуется для отображения всех без исключения корейских слогов.
■■ Для работы системы немаловажна скорость отображения слогов на экране и на принтере. Для этого перед сеансом работы файл с парциальными матрицами переносится в оперативную памят ЭЕМ. Объем этого файла позволяет легко это осуществить.
Б четвертой главе излагаются система правил русской транскрипции японского алфавитного и корейского слогового письма с учетом контекста и ввода письма на принтер.
- 17 -
Русская транскрипция японского алфавита представлена в 5л. 1 - 3, но эти правила не всегда справедливы:
1) буква , которая -принадлежит столбцу у и строке Т таблице 1, транслитерируется по русски не как т£, а как щ;
2) буква , находящаяся на пересечении строки X и элбца у, транслитерируется не как х£, а как фу;
3) буквы и находящиеся в строке Д, транслитериру-;я не как ди и щг, а как дай и дз£ соответственно.
4) Когда мы имеем дело с буквами, находящимися в столбце габл. 1, то перед буквами-^ (я), (ю), (е), которые пред-■шлены в строке я табл. 1-2, образующиеся слоги звучат так, с показано в табл. 6.
5) Для букв ^ (у), (ти), (цу), "С (тэ),чг"(дэ)
(фу) транскрипция изменяется, когда за ними следуют буквы
(а), 1л (и), X и ^ (ю)- ^ все такие сочетания
■речаются в языке. Сочетания букв "у" и "а", букв "у" и "э"' >укв "у" и "о" звучат как ва, вэ и во соответственно. Соче-[ие букв "цу" и "а" и сочетание букв "цу" и "э" эйучат как и цэ соответственно. Сочетание букв "дз" и "ю" звучит как Если буквы "а", "и" и "о" следуют за буквой "фу", то их [етания звучат как фа, фи и фо соответственно.
6) Русс!сая транскрипция японской буквы (цу*) и ее аганы (табл. 3) изменяется в зависимости от последующей ласной. Иначе говоря, если согласные буквы из строк Я, С, Т Г табл. 1-2, следуют за буквой "цу*", то транскрипция бук-"цу*" заменяется первой русской согласной из транскрипции дующей японской согласной. Например, "цуку" - кку и "цута" -
7) Русская транскрипция буквы/.(н) и ее катаканы - вариан-Сн) заменяется на м, если за ними стоят буквы, принадлежат
строкам X, Б и П табл. 1-2.
Tafo, 6,
Транскрипция в сочетании японских бухв
* . *(я) ». ¿(ю) i, 3(e)
г. * ски) кя KM ке
га га ГС
V , у (си) ся см се
i |Г . $ Сдзи) ДЗН Аэю дзв
% , * ÍTH) тя ти те
-^Сдэи) дэя A3» дзв
U , * (ни) ня ню не
, b <хи) хя хм хв
if. 1;* (би) бя бю б»
tf, |Г (пн) пя пю пе
3. » (иИ) ия я» m
»> . I) (ри) Р" р» Р*
- 19 -
Русская транскрипция корейского алфавита представлена на 1бл. 4 и Б, но она достаточно часто меняется в зависимости от эчетания слогов, а именно:
1) Когда один слог завершается согласной *7(к), а за следует слог, начинающийся согласной Ь (н), В(р) или
(м), то сама согласная "к" звучит как нь, последующая на- ' 1льная согласная "р" - как н.
2) Когда слог завершается согласной 1»(н) или £ (.л), а
1 ней следует слог, начинающийся согласной в(Р)», транскрипция >" заменяется на л.
3) Если слог завершается согласной С(т), а за ним сле-гет слог о) (и)"", то транскрипция согласной "т" изменяется на
4) Как следует из табл. 4 и 5, согласная ^.(р) эвучит ж л, когда она играет роль конечной согласной в слойе, яи когда она стоит в фамилиях корейских авторов - Ли.
5) Если слог завершается согласной 2, (л) и за ним слезет слог, начинающийся согласной 1.(н), Л (с) или Х(ч),
з согласная "н" изменяется на л, а согласные "с" и "ч" - на чч соответственно.
6) Если слог завершается буквой Л(с), а за ним следует вог с буквы £ (х), то сама буква Чс" звучит как т. шример, корейское слово (похожий) транскрибируется ? как писусхата, а как писутхата..
7) Если слог кончается буквой Й (п) и за ним следует ног, начинающийся буквой Ъ (н), а] (и) или Ь. (м), то сама рква "п" звучит как м, а "и" - как ни.
8) Если слог завершается сочетанием (нх), а за ним педует слог с буквы (т), то само'сочетание "нх" эвучит просто ак н.
ЗАКЛЮЧЕНИЕ
В работе получены, следующие основные результаты:
1) сформирована система правил русской транскрипции японского и корейского слогового письма с учетом контекста;
2) разработаны алгоритмы транскрипции алфавитов указанны; языков;
3) разработана новая система двухбайтового кодирования, позволяющая совместись литеры различных алфавитов (русский,, латинский, корейский, японский) в одном документе. Получены формулы перехода, связывающие новые коды с уже существующими системами кодировёния'(ASCII, SHJIS);
4) исследованы подходы к вводу в ЭВМ текстов на корейское и японском языках с использованием стандартной клавиатуры;
5) предложен подход к формированию корейского слога при его вводе в виде работы конечного автомата;
6) разработаны битовые матрицы для графем разных языков Восточной Азии (японский алфавит, корейские слоги и иероглифы). Для хранения битовых матриц корейских слогов предложены парциальные матрицы, которые позволяют экономить объем необходимой памяти примерно в 20 раз, сохраняя высокую скорость отображения слогов;
7) созданы программные средства, реализующие перечисленные задачи ввода, отображения и транскрипции для японского и корейского письма. Программы написаны на языке Турбо Си++ и содержат более 4500 строк исходного текста.
Основные результаты диссертации отражены в публикациях:
1. Большаков И.А., Рим Дек Сен. Графическое отображение и русская транскрипция японского алфавитного письма на IBM -совместимых компьютерах // Научно-техническая информация. Серия 2, Nä 8, 1991, - С. 27-31.
2. Большаков И.А., Рим Дек Сен. Графическое отображение и русская транскрипция корейского слогового письма на IBM-совместимых компьютерах // Научно-техническая информация. - сер. 2, № 11, 1992 (в печати).
Сдано в набор 17.12.92 Подписано в печать 17.12.92
Формат 60X90 1/16 Печать офсетная Бум.сфс.
Усл.печ.л. 1,25 Усл.кр.-отт. 1,44 Уч.-изд.л. 0,83
Тир. ЮО экз. Зак. 5897
Производственно-издательский комбинат ВИНИТИ 140010, Люберцы 10, Московской обл., Октябрьский проспект, 403
-
Похожие работы
- Организация структур данных и технологическая реализация фактографических информационно-поисковых систем в автоматизированных системах научной и технической информации
- Исследование и разработка методов автоматизации процессов практической транскрипции имен собственных
- Математические основы автоматизированной таджикско-персидской конверсии графических систем письма
- Особенности японских журналов по химии и химической технологии и проблемы их библиографирования
- Библиографическая запись как лингвистическая модель документа в международной электронной коммуникации