автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Моделирование орфографии якутского языка и разработка комплекса программ для проверки правописания якутских текстов в среде WINDOWS

кандидата технических наук
Мигалкин, Василий Васильевич
город
Якутск
год
2005
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Моделирование орфографии якутского языка и разработка комплекса программ для проверки правописания якутских текстов в среде WINDOWS»

Автореферат диссертации по теме "Моделирование орфографии якутского языка и разработка комплекса программ для проверки правописания якутских текстов в среде WINDOWS"

На правах рукописи

УДК 651.926.,025.4

МИГАЛКИН Василий Васильевич

МОДЕЛИРОВАНИЕ ОРФОГРАФИИ ЯКУТСКОГО ЯЗЫКА

И РАЗРАБОТКА КОМПЛЕКСА ПРОГРАММ ДЛЯ ПРОВЕРКИ ПРАВОПИСАНИЯ ЯКУТСКИХ ТЕКСТОВ В СРЕДЕ WINDOWS

Специальность 05.13.17 - Теоретические основы информатики

.АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Якутск-2005

Работа выполнена в Якутском государственном университете им. М.К.Аммосова

Научный руководитель. доктор технических наук, доцент 3 F Петров

Официальные оппоненты: доктор технических наук, профессор Доррер Г.А

кандидат технический наук, профессор Цибульский Г.М.

Ведущая организация: Институт вычислительного моделирования СО РАН

Защита состоится « 26 » апреля 2005 года на заседании диссертационного совета К 212.098.02 при Красноярском государственном техническом университете по адресу: 660074, г.Красноярск, ул.Киренского 26, ауд Г417

С диссертацией можно ознакомиться в научной библиотеке Красноярского государственного технического университета.

Отзывы на автореферат в двух экземплярах, заверенных печатью, просим направлять по адресу: 660074, г.Красноярск, ул.Киренского 26, учёному секретарю диссертационного совета Кузьменко Н.Г Факс КГТУ (3912) 43-06-92

Автореферат разослан « 23 »марта 2004 г.

Учёный секретарь

Кузьменко Н.Г.

_^ ши 0-+

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ ктуальность проблемы. Язык саха (якутский) является одним из древнейших живых тюркских языков, прошедших своеобразный путь развития в условиях почти полной изоляции от других тюркских языков. Своеобразный, почти не тронутый влиянием других языков, язык саха привлекал внимание исследователей с давних пор. Можно назвать имена выдающихся исследователей первой половины XIX века. В. Шотт, О. Бётлингк,

B. Радлов, В Ястремский, Э. Пекарский. В знаменитых экспедициях императорской Академии Наук, возглавляемых академиком О H Бётлингком, в достаточной мере исследовались фонетика, морфология и лексика языка саха. Наиболее полное исследование якутского языка проводили политические ссыльные В.М. Ионов,

C.B. Ястремский, Э К Пекарский, труды которых востребованы и поныне.

Несомненно, работы по установлению нормативной лексики якутского языка (выделению из различных диалектов), детальному исследованию грамматики проводились только в советское время специалистами Института языка, литературы и истории Якутского филиала Сибирского отделения Академии Наук СССР и отдельными специалистами Якутского государственного университета. Синтетический язык саха, обладая минимальным количеством корневых слов, может, тем не менее, благодаря большому количеству аффиксов (от 3000 до 6000 окончаний) образовывать огромное количество лексем (около 50 000 000 словоформ), не имеющих аналогов на русском языке. В силу этого не только в Якутии, но и в других тюркоязычных республиках не было создано средств автоматической проверки орфографии текстов, реализованных на ЭВМ. В настоящее время, когда практически все организации, учреждения и образовательные заведения при изготовлении различного рода документов перешли на компьютерный набор текстов, потребность в автоматической проверке орфографии стала объективной, реальной необходимостью,

В ряде тюркоязычных стран и республик РФ (Азербайджан, Казахстан, Узбекистан, Башкортостан, Республика Алтай) ведутся или планируются разработки лингвистических систем для проверки орфографии и перевода текстов на другие языки.

Автором была создана первая версия программы Sakha Orthography в 1998 г. и зарегистрирована в Международном реестре авторских прав в 2001 г.

Индоевропейские программы по проверке орфографии текста содержат в базе данных эталонные слова в разложенном виде (представляющие одномерный массив). Наиболее распространенным и сложным по грамматике является русский язык, имеющий безличные глаголы, глаголы употребляемые только в третьем лице, существительные используемые исключительно в единственном или во множественном числе, несклоняемые существительные. В русском языке также отсутствуют единые правила перехода глаголов из несовершенной формы в совершенную. Наличие этих и других отступлений от общих правил приводит к преимуществу одномерного массива данных для программы проверки орфографии текста на русском языке.

Словари якутского языка, выпущенные в советское время, не обновлялись и морально устарели. Наиболее известный орфографический словарь имеет 10163 слов Для создания системы якутской орфографии необходимо было рассмотреть весь лексический запас современных якутских литературных произведений и сравнить их с имеющимися словарями. Кроме того, по результатам выборочных проверок оказалось, что в имеющихся словарях отсутствуют многие обиходные слова и фразеологические конструкции. В целом задача усложнилась тем, что для наиболее полного решения вопроса по орфографии необходимо было создать существенно обновлённый в отношении лексики якутский компьютерный словарь, содержащий атрибуты правил склонения и указателей частей речи, которым принадлежит^^^те ^шва'в ОТЯйльнрсти. В настоящее время нет специальной литературы, имеющей :ов к частям речи,

ь рггяж

особенно по побудительным фразам, хотя глаголы изучены достаточно подробно разными исследователями. Для решения этой задачи в настоящей работе систематизированы все имеющиеся работы филологов. Для учёта возможных комбинаций аффиксов потребовалось создать специальную электронную библиотеку форм побуждений, образования наречий, притяжательных форм, а также отдельную библиотеку аффиксов к частям речи.

Выбор модели и алгоритма автоматической проверки орфографии текста на якутском языке значительно упрощается тем, что в якутских словах нет префиксов. Кроме того, наличие в якутской фонетике простейшего правила, согласно которому любое слово может иметь гласные только заднего ряда (а, аа, ы, ыы, ыа, у, уу, уо, о, оо), или только переднего ряда (и, ИИ, Э, ээ, иэ, у, YY> Ye> в> в0)* также упрощает алгоритм В свою очередь, каждый ряд образует по три группы правил склонения слов. Исключение составляют неологизмы, склонение которых зависит от конкретного слова.

Морфология якутского языка использует агглютинативный (прилепляющийся) принцип Все основные значения якутских слов выражаются с помощью аффиксов То есть, для описания якутских словоформ можно применить объектно-ориентированную модель. Учитывая то, что проверка орфографии заключается в сравнении проверяемою слова с эталонным словом, рационально хранение эталонного слова в особо сложенном виде - виде базы данных со связанными таблицами. Следовательно, наиболее подходящей моделью орфографии якутского языка является идентификационная сложная числовая функция связанных таблиц базы данных (иными словами, совокупность абстрактных машинных правил), однозначно определяющая эталонное описание всех доступных аффиксов к любому корневому слову для дальнейшего составления числовых функций с четырьмя аргументами Алгоритм проверки орфографии сводится к поиску корневого слова, а затем продуктивного и завершающего смысл сказанного разрешённых аффиксов по машинным правилам модели.

Для обеспечения максимальной скорости поиска эталонных слов словарь разбит на восемь примерно одинаковых групп. Минимизация по использованию оперативной памяти ЭВМ достигается применением SQL - запросов Алгоритм составлен с учетом особенностей среды Microsoft Office в многоязыковом режиме.

Целью работы является создание программы для ЭВМ по автоматической проверке орфографии текстов на якутском языке, доступной среде Microsoft Office и совместимой с используемыми по умолчанию программами по проверке орфографии английского и русского текстов

Для достижения указанной цели были поставлены и решены следующие задачи.

1. Разработка модели склонения якутского языка в виде базы данных с четырьмя связанными таблицами, составление числовых функций изменения корневых слов по абстрактным машинным правилам, однозначно объединяющие грамматические аксиомы и правнла.

2. Составление специального электронного якутского орфографического словаря с атрибутами правил склонения слов и указателем части речи, которой они принадлежат.

3. Составление специальных библиотек аффиксов по существительным, глаголам, наречиям, притяжательным формам имён существительных и прилагательных, представляющих аргументы числовых функций, а также по формам побуждений; составление таблиц грамматических запретов.

4. Разработка алгоритма проверки орфографии и написание программ на алгоритмическом языке Visual Basic.

5. Разработка программы связи с текстовой программой Microsoft Word и её приложениями по проверке,ор^ог^^ии текстов на английском и русском языках.

» л . Iii* fut5

; «я п

Научная новизна

Разработана модель склонения якутского языка в виде базы данных с четырьмя связанными таблицами, составлены числовые функции изменения корневых слов по абстрактным машинным правилам, однозначно объединяющие грамматические аксиомы и правила. Показана применимость объектной методологии к описанию грамматики якутского языка. Унификация машинных правил модели по шести правилам склонения позволяет упростить математическое описание синтаксиса якутски о языка, что важно для смыслового перевода с якутского языка на другой язык и проверки грамматики в целом

Практические результаты

Впервые в России разработана программа для ЭВМ, способная проверить около пятидесяти миллионов комбинаций спряжения 15442 слов якутского языка, работающая совместно с программами по проверке орфографии текстов на английском и русском языках.

Впервые составлена сводная таблица всех глагольных (побудительных), завершающих смысл сказанного аффиксов якутского языка (аргументов числовых функций) и создан обновленный электронный орфографический словарь.

Основные положения, выносимые на защиту:

модель представления эталонных якутских словоформ и числовые функции их склонения по абстрактным машинным правилам, состоящая из четырёх связанных таблиц базы данных, для проведения орфографии текстов на якутском языке,

- якутский электронный орфографический словарь на 15442 слова,

- полная электронная библиотека глагольных аффиксов и методов побуждений языка саха, представляющих аргументы числовых функций модели,

- алгоритм проверки орфографии текстов на якутском языке и совместная его работа с приложениями Microsoft Word по проверке орфографии текстов на английском и русском языках,

программное обеспечение проверки орфографии якутских текстов

Практическая ценность

Разработанная программа полезна для различных издательств, образовательных учреждений и для тех, кто готовит материалы на языке народа саха.

В рамках освоения и внедрения данной программы Министерством образования Республики Саха (Якутия) проведена экспертиза и принято решение о ходатайстве перед Правительством Республики Саха (Якутия) о закупке программы для распространения среди общеобразовательных школ республики.

Личный вклад автора. Все исследования и разработки выполнены автором лично.

Апробация работы. Основные результаты докладывались на семинарах Института гуманитарных исследований Академии Наук РС(Я) (г.Якутск, 1998, 2000, 2001 гг.), Всероссийской конференции «Космо- и геофизические явления и их математические модели» посвящённой 80-летию профессора А И.Кузьмина (г.Якутск, 2002 г ), четвёртой Всероссийской научной конференции «Электронные библиотеки- перспективные методы и технологии, электронные коллекции» (г.Дубна, 2002 г), Европейской конференции «Philological Disciplines and Digital Technology» (г Пиза, Италия 2003 г.), второй Республиканской научно-практической конференции «Информационные технологии В науке, образовании и экономике» (г.Якутск, 2003 г.).

Публикации. Основные результаты опубликованы в четырёх статьях и защищены четырьмя Авторскими свидетельствами об официальной регистрации в Международном реестре программ для ЭВМ. Российский Фонд Фундаментальных Исследований (РФФИ) дважды поддерживал эту работу трёхлетним грантом. Согласно «Положению РФФИ»

каждый год представлялся отчёт о проведённой работе. Отчёты РФФИ автор имеет право самостоятельно публиковать в печатной и электронной формах

Структура и объём работы Диссертация состоит из введения, четырёх глав, заключения, списка работ автора по теме диссертации и списка используемой литературы, всего из 81 названия.

Общий объём -140 страниц, включая 9 рисунков, 8 таблиц и 5 копий документов

СОДЕРЖАНИЕ РАБОТЫ Во введении обсуждается современное состояние существующих систем автоматической проверки орфографии текстов на других языках. Раскрываются основные различия тюркских языков от индоевропейских языков Показывается актуальность темы, определяется цель настоящей работы. Описывается современное состояние работ филологов по орфографии якутского языка Указываются основные методы решения поставленной цели, которые выносятся автором на защиту.

В первой главе приводится описание различий грамматики русского и якутского языков. Рассматривается объектная ориентированность якутских словоформ. Существует строгая последовательность объект - классы - методы - свойства Объект есть атом словарного слова, классы - омонимы, метод есть способ преобразования части речи или изменение смысла слова. Например: пила - пили гь, ходить - хождение, лес - лесник. Свойство есть местоимение. Могут также существовать конструкции объект - метод, объект - свойство. Объясняется понятие побудительная фраза, например: однословные переводы предложений «охотиться на уток», «ставить сеть». Указывается стандартность методов для всех объектов в зависимости от части речи. Рассматриваются общепринятые правила правописания якутского языка. Обосновывается необходимость четырехмерной модели описания орфографии якутского языка Wrd = F(RootM, RootP, Affl, Aff2) где Affl = y( Rule, Affl", RootM), Aff2 = vj/( Rule, Affl, RootP), где числовая функция Wrd зависит от аргументов RootM и RootP, представляющих ГО числа словарного и действительного значения корневых слов, АЛЛ и Aff2 номера машинных правил словообразующих и завершающих смысл сказанного аффиксов, Rule - номер фонетического правила склонения. Описана модель четырёхмерного представления грамматических правил и аксиом с помощью абстрактных машинных правил, принципы организации машинных правил по орфографии якутского языка, в том числе 26 правил - для существительных (прилагательных), 16 - для глаголов (побудительных форм). Описывается метод составления электронного словаря и принципы организации служебных атрибутов. Приводятся среднестатистические показатели применения корневых слов и побуждений-по выборке из 100 ООО слов современного якутского языка. Это необходимо для систематизации правил и выбора наиболее быстрого способа проверки орфографии якутских текстов, способа построения электронного орфографического словаря, библиотеки аффиксов и обращения к ним. На рис 1 приводятся среднестатистические показатели применения корневых слов якутского языка по законам склонения.

Фонетическое распределение якутских слов

0.6 -,

4|- -

04 —■---

0.3 -

02 -Н-----

*: J. ■

* s

гГ с?'

Законы склонения

Рис. 1 Распределение якутских словоформ по шести фонетическим законам

Если в программировании применение множества логических операций в общем замедляет процесс вычисления, то для наиболее используемой группы слов в целом процесс проверки орфографии ускоряется. Возможно, в «правилах заднего ряда» (1 и 2) определённый вклад вносят неологизмы. Современный якутский язык состоит примерно из 30% введённых «извне» слов (телевизор, реклама, радиоприёмник и т д). Склонение неологизмов по якутским канонам по 4 правилу «свой язык» встречается редко: «председатель», «финиш» и т.д.

На рисунках 2 и 3 приведены вероятности склонения имен существительных (прилагательных) и глаголов (побудительных форм) по машинным правилам.

Распределение по склонению имен существительных и ^

1 3 5 7 9 11 13 15 17 19 21 23 25 Правила склонения

Рис. 2 Распределение по склонению существительных и прилагательных по машинным правилам

Для имён существительных и прилагательных распределение наиболее часто употребляемых аффиксов имеет достаточно сложный характер, поэтому логический выбор методов поиска Find First, Find Next и Find Last производится до четырнадцатого машинного правила.

прилагательных

Правила склонения

Рис. 3 Распределение склонения глаголов и побудительных форм по машинным правилам

Рассматривается метод составления электронного орфографического словаря с атрибутами правил склонения и указателями части речи, которым принадлежит слово, включая неправильные существительные и глаголы, а также непереводимые служебные слова для образования звукоподражательных, образных выражений и превосходных степеней прилагательных (таблица 1)

Таблица 1

Выписка из электронного словаря

Code RootM

1495 барахсан

¡1496 барахсатгар 2060_£>ас-атах

1181 умус

1206 уобуу

1167 умнулун

,777 ,омос

iRootP барахса

¡Quant

Rule 1

!

1

Dash

_ баЬ-ата5 уме

_____^умнулл

778 омсолоох

1664 бил___

1667 билгей ;15___;ehyeH__

!1б~

9

10

0МСОЛ005

;6илгэ

Jehye

«hyn ehep ehec

eceh

LastLett ан

ар он

ус УУ

ос ох ил эй ен ¥л

ее

¡LL

JE

с

У н

-J1 j*

1" |Й _

I"

р

р

lExtRule 108

104 2 112

114000 [l02_ 112000 ¡100 1 ¡112 !104106 ¡102000

......

,104000

J102000 ¡108110

Code - идентификационный номер лексемы (словарного слова), RootM - лексема, RootP - неизменяемая часть лексемы,

Quant - количество (хотя в якутском языке нет слов употребляемых только во множественном (единственном) числе, зато есть неправильные существительные см. строку 1495, которые во множественном числе принимают нестандартную форму (строка 1496).

Rule - фонетическое правило склонения, Dash - составное слово разделенное дефисом, LastLett, LL - атрибуты лексемы, ExtRule - номер машинного правила склонения.

Рассматривается универсальность модели для численного представления смысла предложения на якутском языке с точки зрения русского языка как'

CS = ObjOf Attention ObjOfConclusion.ObjOfïïme где ObjOf Attention - Объект внимания,

ObjOfConclusion - Объект - заключение, ObjOfïïme - Объект время. Обсуждается один из способов проверки синтаксиса (общей грамматики) текста

Надо заметить, что в определении смысла предложения под классом понимается концептуальное название объекта. Например: лось = тайах, заяц = куобах и т д. относятся к классу диких зверей, следовательно, однословные переводы охотиться на лося, охотиться на зайца будут соответственно тайахтаа и куобахтаа (инкапсуляция методов в пределах класса). В тоже время ас = пища, бутугас = напиток из молока и пахты (класс пищи) и они с помощью метода «таа» образуют слова приготовить пищу = астаа, приготовить молочный напиток = бутугастаа. Таким образом, якутский язык подчиняется полиморфизму одних и тех же методов для разных классов. Неологизмы склоняются на правах наследственности в пределах данного класса. Следовательно, окулистаа = работать врачом окулистом, сварщиктаа - работать сварщиком. Преобразование смысла производится так же как, булчуттаа = работать кадровым охотником, как в исконно якутском языке (класс профессии).

Рис. 4 Алгоритм проверки синтаксиса предложения.

Кратко рассматривается, в рамках модели, принцип перевода на русский язык и численного представления смысла предложения. Так как объектно-ориентированные модели процессов в принципе нельзя перевести на процедурно-ориентированную модель без семантического понимания методов применяемых к объектам, поэтому автором впервые предложен способ определения смысла предложения на якутском языке с точки зрения русского языка и представление его в числовом формате для дальнейшего анализа.

Рис.5 Алгоритм перевода и численного представления смысла предложения

Во второй главе рассматриваются законы склонения частей речи и их особенностей, так как разработка компьютерной программы по проверке орфографии невозможна без этой работы Подробно исследуются числовые функции (методы) всех видов побуждений, образования причастий, деепричастий, наречий с атрибутами правил склонения, а также аргументы склонений существительных, притяжательных форм существительных и глаголов

Систематизированы и минимизированы:

- по существительным (прилагательным) 26 машинных правил склонения, 36 машинных подправил побуждения и преобразования в другую форму, 102 аффикса.

- по глаголам 16 машинных правил склонения, 74 машинных подправил побуждения и преобразования в другую часть речи, 550 аффиксов.

Таблица 2

Пример для 25-го правила склонения имён существительных по побудительным формам.

¡Code |Snl25 |Niun_Coliun I Rule |ErrJEnd [

123___: ылаттар __SA_Extl02 '1___0

24 ылтаггарааччы ¡FA__Extl02 1 О

25 ымсае____J PA~Ext212 "l 1

26 ымсах " " 'FA_Extí 12 tf~7~ " Ó"

27 _ "|ымсыг __ i FA~Ext205 Г ___ 1

28 ~ ымсык "" |FÁ~Extl05 ¡1 O " ~

29 ылый _____SA~Ext 102 jl ___O___

30 ,ылар FAJExtl04 ,1 ~ "o "

3 1____ылаЬьшнар lsA_Ext!02 |l ___O___

Code - идентификационный номер метода,

Snl25 - аффиксы (методы) для 25 правила имён существительных (прилагательных), NumColum - коды получаемой части речи в результате применения метода и их машинные правила склонения, Rule - фонетическое правило,

Err End - указатель правильности завершения слова. Указатель 1 (строки 25 и 27) говорит, о том, что слово не до конца напечатано и обязательно должны последовать другие методы и свойства.

Знание законов грамматики и особенностей частей речи позволило достичь цели настоящей работы (разработка электронного орфографического словаря, составление полного перечня аффиксов по глаголам и побудительным фразам).

В третьей главе описывается общий алгоритм работы автоматической проверки орфографии текста на языке Саха на основе среднестатистических показателей применения корневых слов и побуждений Для определения количества слов по фонетическим правилам используются дополнительные коды, часть которых приведена ниже.

' Определение фонетических правил для проверки (определяются позиции букв). Linel5:

Pos(l) = InStrU, Root, "a", 1): Pos(2) = InStr(l, Root, "ы", 1): Pos(3) = InStr(l, Root, "у", 1): Pos(4) = InStr(l, Root, "о", 1)

Pos(S) = InStr(l, Root, "и", 1): Pos(6) = InStr(l, Root, "э", 1): Pos(7) = InStr(l, Root, "e", 1): Pos(8) = InStr(l, Root, "ё", 1)

Pos(9) = InStr(l, Root, "Y", 1). Pos(lO) = InStr(l, Root, "e", 1): Pos(l 1) = InStr(l, Root, "ю", 1): Pos(12) = lnStr(l, Rus, "p", 1)

Pos(13) = InStr(l, Rus, "e", 1): Pos(14) = InStr(l, Rus, "м", 1): Pos(15) = InStr(l, Rus, "с", 1): Pos(16) = InStr(l, Rus, "н", 1)

If (Pos(l) + Pos(2) > 0 Or Pos(l) + Pos(2) > Pos(3) + Pos(l 1)) Or (Pos(l) + Pos(2) = 0_ And Pos(3) = 0 And Pos(l 2) < Pos(l 5)) Then Letter = 1 ' Золотое правило А и "ALIEN WORD"

ElselfPos(3) + Pos(l 1) > 0 And Pos(3) + Pos(ll) > (Pos(l) + Pos(2) + Pos(5) + Pos(6)_ + Pos(7) + Pos(8) And Pos(12) < Pos(15)) Then Letter = 2 ' Золотое правило A - подпункт У и "ALIEN WORD" Elself Pos(4) > 0 And (Pos(l) + Pos(2) + Pos(3) + Pos(5) + Pos(6) Pos(7) + Pos(8)) = 0_ And Pos(12) = 0 Then Letter = 3 ' Золотое правило A - подпункт О

Elself (Pos(5) + Pos(6) + Pos(7) + Pos(8) + Pos(15)) > 0 And (Pos(l) + Pos(2) + Pos(3)_ + Pos(4) + Pos(l 1)) = 0 Then

Letter = 4 1 Золотое правило И

Elself Pos(9) > 0 And Pos(9) > (Pos(5) + Pos(6)) Then

Letter = 5 1 Золотое правило И - подпункт Y

Elself Pos(lO) > 0 And Pos(9) = 0 Then

Letter = 6 ' Золотое правило И - подпункт в

End If

Определение фонетических правил склонения начинается, с выяснения номеров позиций всех гласных букв от начала слова Последний дифтонг или последпяя гласная буква определяют номер фонетического правила склонения.

На рисунке 6 приведена схема общего алгоритма процедуры проверки орфографии без определителя аббревиатур и отработчиков аппаратных и программных ошибок.

В якутском языке кроме омонимов есть большое количество омографов. Омографы - те слова, которые совпадают при склонении. В русском языке слово «три» может быть числом или повелительным наклонением глагола «тереть». В якутском языке

- ат = конь, атта = место около, аттар = сшей из кусков и т.д. Эти же слова применимы к понятию «конь» при определённых склонениях, но при других - имеют разные аффиксы. Поэтому нахождение истинного значения требует специальной процедуры, но в схеме указано одной линией. Примерно 60% (47МЬ) от программных кодов Sakha Orthography занимают коды по согласованному изменению системных реестров и команд Microsoft Windows 9х, а также коды по согласованному изменению внутренних реестров и команд Microsoft Office и реконструкции Microsoft Word.exe, полный алгоритм и коды которых не подлежат разглашению.

База данных словарей и библиотек аффиксов содержит модули определения требуемого номера словаря по первым (1 - 3) буквам проверяемого слова, динамического вызова их для работы процедуры сравнения, а также определения начала поиска эталонного слова в словаре Find First, FindNext и Find Last Кроме того, в базу данных входят процедуры для определения фонетического правила, а также процедура определения грамматических запретов.

Алгоритм исходит из того, что якутские слова делятся на две группы. К первой группе относятся те слова, которые не меняют последний звук корня при любых склонениях. Например' аппа, ей, бар и.т д Ко второй группе относятся слова, меняющие последний звук при склонении. Например: суорат - суоракка - суораппар, бех - бе§у, ыыт

- ыыппыт и.т д. Следовательно, электронный словарь должен иметь, кроме основных понятий (Main Root), и дополнительные (неизменяемые) слова (Perfect Root). Указатель части речи для обеспечения максимальной скорости обработки выбран цифровым, где сотый номер говорит о наличии имени существительного (прилагательного, числительного), а младшие числа говорят о номере правила склонения. Стотысячный номер указывает, что проверяемое слово является глаголом (побудительной фразой). Десятитысячный и тысячные цифры - номер правила склонения глаголов. В якутском языке имеется много слов, часть речи которых определяется только в контексте, в зависимости от их синтаксической функции Например' алтыс (имя числительное или глагол), ый (имя существительное или 1лагол), и.т.д., при этом указатель представляет составное число см. Табл. 1. При этом начало поиска аффиксов зависит от места расположения слова в целом предложении, так как синтаксис якутского языка построен (в большинстве случаев) в глагольном завершении выражении мысли

В первую очередь, слово проверяется на грамматический запрет. Например: тойоннор, кыыстар, toç, н-укаай и.т.д., далее учитывая агглютинативный принцип конструкции якутского языка, а также больший статистический показатель использования в текстах корневых слов, проверяемое слово укорачивается с конца на одну букву и производится поиск в основных словах (Main Root), и укорачивание производится до тех пор пока найдётся слово. При отсутствии слова в Main Root поиск производится в Perfect Root. После нахождения слова в словаре вычисляется суммарный аффикс Например: кыйбаран-натыма (кый-баран-натыма) Словарное слово кый имеет указатель глагола (102000), следовательно, корень побудительной формы ищется в библиотеке побудительных конструкций именно для глаголов фонетического правила 1 (А), укорачивая с конца суммарный аффикс. Для конкретного слова под номером 64

определяется слово бараягнат и дополнительный указатель разрешённого окончательного аффикса (SA_Extl09). Окончательный аффикс «ыма» после подтверждения даёт запрос через интерфейс связи к редактору Word и разрешает снятие подчёркивания ошибки. Конечно, полный алгоритм значительно сложней из-за большого количества отработчиков машинных и программных ошибок, протоколов динамических связей, изменений в системном реестре и внутренних реестрах Microsoft Office, а также реконструкций Microsoft Word.exe.

В четвёртой главе приводится часть кодов на языке Visual Basic касательно самой проверки, а также коды вызова из текстового редактора Microsoft Word. Начинается четвёртая глава с объявления постоянных Global Constant и ссылки к внешним подпрограммам в DLL.

Global wrkJet As Workspace Global OrthoDatabase As Database Global gsDatabase As String Global gsConnect As String Global gsRecordsource As String Global Const AB=1 Global Const BZ = 2 Global Const ZK = 3 Global Const KM-4 Global Const NS = 5 Global Const ST = 6 Global Const TKH = 7 Global Const KHYA = 8 Global Const Noun_A - 9 Global Const NounAO = 10 Global Const Noun_AU = 11 Global Const NounJ = 12 Global Const Noun JO = 13 Global Const Noun JY = 14 Global Const Stn_A = 15 Global Const Stn AO = 16 Global Const Stn_AU = 17 Global Const Stnl = 18 Global Const StnJO = 19 Global Const StnJY = 20 Global Const Stv_A = 21 Global Const Stv_AO = 22 Global Const Stv_AU = 23 Global Const StvJ = 24 Global Const Stv JO = 25 Global Const StvJY = 26 Global Const VerbSt_A = 27 Global Const VerbSt_AO = 28 Global Const VerbSt_AU = 29 Global Const VerbSt J = 30 Global Const VerbSt JO = 31 Global Const VerbStJY = 32 Global Const Allow = 33

'адресное пространство SQL

'декларация базы данных

'«псевдоним» базы данных

'объявление свойства базы данных

'объявление свойств динамических библиотек

'словарь АВ

'словарь ВЗ

'словарь ЗК

'словарь КМ

'словарь НС

'словарь СТ

'словарь ТХ

'словарь ХЯ

'библиотека А, существ , прилаг.

'библиотека А побужд., сущ., прилаг.

'библиотека А побужд., глагол., побуд.ф.

'библиотека А глаголов, побуд. ф.

'библиотека запретов

Global WordForFind As String Global WFF As String Global ExtForFind As String Global EFF As String Global Extension As String Global ExtRule As Long Global LExtension As Long Global PartExtl As String Global PartExt2 As String Global WIS, W2$, W3$, W4$ Global LengthWord As Long Global LE As Long Global LW As Long Global Rule As Long Global Dash As Long Global Term As String Global NonSpell As Long Global ErrN As Long Global ErrS As Long Global ErrT As Long Global ErrV As Long

'расширение 'правило расширения 'длина расширения 'побуждение 'аффикс

'аргументы частей словоформ

'длина проверяемого слова

'«кличка» длины аффикса

'«кличка» длины проверяемого слова

'правило склонения

'дефис

'определение

'ошибки

'ошибки по сущ (прилаг) 'ошибки по глаголам 'ошибки по побужд. сущ. (прилаг) 'ошибки по побужд. глаг. (побуд.ф.)

'проверяемое слово '«кличка» проверяемого слова 'суммарный аффикс '«кличка» суммарного аффикса

Public Declare Function GetFileVersionlnfo Lib "Version" Alias "GetFileVersionlnfoA" (ByVa! IpszFile As String, _ ByVal dwHandle As Long, ByVal cbBuf As Long, _ ByVal lpvData As String) As Long

Public Declare Function GetFileResourceSize Lib "Version" _

Alias "GetFileResourceSizeA" (ByVal IpstrFilename As String, _ ByVal IpstrResType As String, ByVal IpstrResID As String, _ lpdwFileOffset As Long) As Long

Public Declare Function GetFileResource I,ib "Version" _

Alias "GetFileResourceSizeA" (ByVal IpstrFilename As String, _ ByVal IpstrResType As String, ByVal IpstrResID As String, _ ByVal dwFileOffset As Long, ByVal dwResLen As Long, _ lpData As String) As Long

Public Declare Function VerLanguageName Lib "VER DLL" ( _ ByVal wLang As Integer, ByVal szLang As String, _ ByVal nSize As Integer) As Integer

Внешние подпрограммы необходимы для верификации системной среды, определения ресурсов и языка. Далее описывается общий протокол связи внутреннего интерфейса с Microsoft Word. Приводится общие принципы построения средств внутреннего самоконтроля и способы выхода из программы при внешних прерываниях.

Далее приводятся коды вызова программы проверки орфографии с редактора Microsoft Word. Процедура начинается с декларации постоянных, флажков, указателей и методов. В соответствии с протоколом устанавливается готовность к обмену данными.

Производится загрузка словарей и библиотек (SakhaDictionary LoadLibrary) Устанавливаются опции на результат проверки методом подчёркивания ошибочного слова красной волнистой линией. Далее производится генерация метода yRange для активного документа с целью определения применяемого шрифта. Снимается текст с активного документа в виде одной длинной строки и измеряется его длина Производится обнуление всех указателей и определение наличия выделенного текста

Если шрифты соответствуют «Caxahelv», «Caxatime» или «Caxaacad», а также длина текста достаточна, то начинается цикл посимвольного чтения со снятой длинной строки Одновременно начинается обратное сложение букв без специальных символов и знаков. Устанавливается начало проверки орфографии в зависимое ги от того, есть ли выделение части текста Определяется конец слова В случае наличия признака копца слова, оно отправляется в контейнер проверяемых слов и производится генерация метода xRange для активного документа, с целью подчёркивания ошибочных слов красной волнистой линией. Далее результат проверки возвращается для процедуры подчёркивания ошибочных слов Кроме того, производится расчёт объёма выполненных работ, а результат также отправляется в контейнер для последующей индикации на экране монитора. К сожалению, в Якутии существуют шесть типов шрифтов, с разными кодами Настоящая программа работает только на двух типах, наиболее используемых и удачных. Если для активного документа используется шрифт «Times Sakha», то производится его преобразование к первому типу Далее процедура начинает цикл посимвольного чтения как в первом случае. Если используемый шрифт не соответствует вышеназванным, то косвенно определяется, что текст не якутский и процедура выходит из режима проверки.

Заключение

В диссертации получены следующие научные результаты. Разработана модель, состоящая из четырех связанных таблиц базы данных, составлены числовые функции изменения корневых слов по абстрактным машинным правилам Показана применимость объектной методологии к описанию грамматики якутского языка. Модель однозначно описывает эталонное значение корневых слов при любых их склонениях для проведения орфографии текстов на якутском языке, Практические результаты диссертационной работы.

1. Впервые создан обновлённый электронный орфографический словарь якутского языка объёмом 15442 слова.

2. Впервые создана полная электронная библиотека аффиксов для якутских слов, соответствующих любой части речи представляющих аргументы числовых функций модели.

3. Впервые разработан комплекс программ в среде Microsoft Windows, проверяющий орфографию якутского (тюркоязычного) текста при любых включениях английского или русского текстов объёмом 72,9 Mb.

Разработанный комплекс программ полностью совместим с Microsoft Office и может быть вызван любой программой работающей в среде Microsoft Windows и её приложениями по проверке орфографии текстов в других национальных языках, начиная с версии Windows 9х, Ме, 2000. Алгоритм и коды можно использовать при разработке программы по орфографии для любого тюркского языка.

СПИСОК РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Мигалкин В В Саха-русский компьютерный переводчик //Труды Всероссийской конференции «Космо- и геофизические явления и их математические модели», посвящённой 80-летию профессора А.И Кузьмина, Якутск, 2002. с 117-119

2. Мигалкин В В. Саха-русский компьютерный переводчик //Труды четвёртой Всероссийской научной конференции «Электронные библиотеки перспективные методы и технологии, электронные коллекции», Дубна, 2002. с.334-340

3. V Migalkin Sakha (Yakut) Russian computer dictionary 45 000 000 entries // Fifth Euresco Conferences. Philological Disciplines and Digital Technology. Computational Philology: Tradition versus Innovation. Pisa, Italy, 2003. p.82-84

4. Мигалкин В В Компьютерная программа проверки орфографии якутских текстов// Труды 2-ой Республиканской научно - практической конференции «Информационные технологии в науке, образовании и экономике», г Якутск, 2003

г. с.75-76

5. Мигалкин В.В. Программа для ЭВМ Sakha Orthography Авторское Свидетельство №200161137 от 3 декабря 2001

6. Мигалкин В.В. Программа для ЭВМ Sakha. Авторское Свидетельство №200161136 от 3 декабря 2001

7. Мигалкин В В Программа для ЭВМ Russian Sakha dictionary Авторское Свидетельство №2003610961 от 21 апреля 2003

8. Мигалкин В.В , Мигалкина О.В Программа для ЭВМ Sakha abbreviation Авторское Свидетельство №2003610962 от 21 апреля 2003

9. Мигалкин В.В Саха Русский компьютерный словарь на 45 000 000 слов с возможностью обратного перевода Руководитель

д.ф.н. проф. Е.И. Коркина. Проект РФФИ № 98 - 06 - 03952.

10. Мигалкин В В. Саха - Русский компьютерный смысловой переводчик Руководитель д.ф -м н. доц. В.Е Степанов Проект

РФФИ № 03 - 06 - 96002.

Подписано в печать 21 03.2005 Формат 60х 84/16. Бумага тип. №2 Гарнитура «Тайме». Печать офсетная. Печ, л 1,25. Уч.-изд. л. 1,56 Тираж 100 экз. Заказ 51.

Издательство ЯГУ, 677891, г Якутск, ул. Белинского, 58.

Отпечатано в типографии издательства ЯГУ

i i i

11-55 35

РНБ Русский фонд

2006-4 4000

Оглавление автор диссертации — кандидата технических наук Мигалкин, Василий Васильевич

ВВЕДЕНИЕ

ГЛАВА 1. МОДЕЛЬ ОРФОГРАФИИ ЯКУТСКОГО ЯЗЫКА

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Мигалкин, Василий Васильевич

Актуальность проблемы

Язык народа саха (якутский) является одним из древнейших живых языков, прошедших своеобразный путь развития в условиях почти полной изоляции от других тюркских языков. Своеобразный, почти не тронутый влиянием других языков, он привлекал внимание исследователей с давних пор. Можно назвать имена выдающихся исследователей первой половины XIX века: В. Шотт, О. Бётлингк, В. Радлов, В. Ястремский, Э. Пекарский. В знаменитых экспедициях Императорской Академии наук, возглавляемых академиком О.Н. Бётлингком, в достаточной мере исследовались фонетика, морфология и лексика языка саха. Наиболее полное исследование якутского языка проводили политические ссыльные В.М. Ионов, С.В. Ястремский, Э.К. Пекарский, труды которых востребованы и поныне [1].

Работы по установлению нормативной лексики якутского языка (выделение из различных диалектов [2, 3]), по детальному исследованию грамматики проводились только в советское время специалистами Института языка, литературы и истории Якутского филиала Сибирского отделения Академии Наук СССР и отдельными специалистами Якутского государственного университета [4-11]. Синтетический якутский язык, обладая минимальным количеством корневых слов, может тем не менее, благодаря большому количеству аффиксов (от 3000 до 6000 окончаний), образовывать огромное количество лексем (около 50 000 000 словоформ), не имеющих аналогов в русском языке. В силу этого не только в Якутии, но и в других тюркоязычных республиках не было автоматической проверки орфографии текстов, набранных на электронно-вычислительной машине (ЭВМ).

Первая версия программы Sakha Orthography была создана автором настоящей работы в 1998 г., (см. газету Якутия №87 от 16 мая 1998 г.). Из-за отсутствия тогда спонсоров (регистрационный взнос с учётом патентной экспертизы составлял 10000 руб.) и замораживания финансовых обязательств РФФИ из-за обвала национальной денежной единицы России программа была зарегистрирована в Международном реестре авторских прав только в 2001 г.

В 2002 г. в Башкортостане Институт языка и литературы совместно с московской фирмой «Арсеналъ» создали локализованную на башкирский язык версию «Лексикона», выполняющую орфографическую проверку башкирских текстов. Сейчас ведутся работы для MSWord. В том же году в Татарстане Научно - исследовательская лаборатория «Проблемы искусственного интеллекта» Академии наук Татарстана и Казанский государственный университет совместно создали программу «WordCorr» с объёмом более 2500 корневых слов и объёмом файла около 1 мВ, но уже в «теле» MSWord.

Указом Президента Азербайджанской республики от 16 января 2003 г. в статье №13 указывается о создании орфографического и орфоэпического словарей для азербайджанского языка, а статья №18 обязывает их исполнение средствами электронной массовой информации.

Постановлением Правительства Республики Алтай №331 от 30 ноября 2001 г. Республиканская целевая программа «Электронный Алтай на 2002 + 2007 гг. на третьем этапе (2007г.) предусматривает заказ на разработку программы по электронной проверке орфографии алтайского языка.

Решением Государственного комитета по науке и технике Республики Узбекистан коллектив под руководством Георгия Галахова и Анвара Нуриева награжден Государственной премией за создание «программы проверки орфографии узбекского языка в программном обеспечении Microsoft». Создатели этой программы в 2003 г. получили Авторское свидетельство на «Программу проверки орфографии узбекского языка».

Наиболее близким по уровню разработки является компьютерная программа проверки орфографии текста на казахском языке группы разработчиков KazSpelling vl.0, (Казахский национальный университет имени Аль - Фараби и фирма SanaSoft), выполнивших работу по заказу Министерства культуры, информации и общественного согласия Республики Казахстан. Работа выполнялась по Постановлению Правительства Республики Казахстан №1793 от 1 декабря 2001 г. согласно Указу Президента Республики «О государственной программе функционирования и развития языков на 2001 и 2010 годы» и была закончена в 2003 г. Программа KazSpelling vl.O имеет словарную базу данных на 4 500 000 словоформ.

Безусловно, есть республики, автономные тюркоязычные образования, не имеющие государственной поддержки на автоматизацию, и работы по ним не ведутся (Туркменистан, Киргизия, Чувашия и др.).

Индоевропейские программы по проверке орфографии текста содержат в базе данных эталонные слова в разложенном виде (представляющие одномерный массив). Наиболее распространенным и сложным по грамматике является русский язык, имеющий безличные глаголы, глаголы употребляемые только в третьем лице, существительных используемых исключительно в единственном или во множественном числе, несклоняемых существительных, а также отсутствие в русском языке единого правила перехода глаголов из несовершенной формы в совершенную и наличие других отступлений от общих правил приводит к преимуществу одномерного массива данных для программы проверки орфографии текста на русском языке.

К сожалению, из-за постоянной нехватки финансовых ресурсов словари якутского языка, выпущенные в советское время, не обновлялись и морально устарели [12]. Наиболее известный орфографический словарь [13] имеет 10163 слов. Для решения этой проблемы необходимо было рассмотреть весь лексический запас современных якутских литературных произведений [14-39] и сравнить их с имеющимися словарями. Кроме того, по результатам выборочных проверок оказалось, что в имеющихся словарях отсутствуют многие обиходные слова и фразеологические конструкции. В целом задача усложнилась тем, что для наиболее полного решения вопроса по орфографии необходимо было создать существенно обновлённый в отношении лексики якутский компьютерный словарь, содержащий атрибуты правил склонения и указателей частей речи, которым принадлежит каждое слово в отдельности [40-49].

В настоящее время нет специальной литературы, имеющей полный перечень аффиксов к частям речи, особенно по побудительным фразам, хотя глаголы изучены достаточно подробно разными исследователями[4-9]. Для решения этой задачи в настоящей работе систематизированы все имеющиеся работы филологов. Для учёта возможных комбинаций аффиксов потребовалось создать специальную электронную библиотеку форм побуждений, образования наречий, притяжательных форм, а также отдельную библиотеку аффиксов к частям речи.

Выбор модели и алгоритма автоматической проверки орфографии текста на якутском языке значительно упрощается тем, что в якутских словах нет префиксов. Кроме того, наличие в якутской фонетике простейшего правила, согласно которому любое слово может иметь гласные только заднего ряда (а, аа, ы, ыы, ыа, у, уу, уо, о, оо), или только переднего ряда (и, ии, э, ээ, иэ, у> уу5 Y0j е> ©е)> также упрощает алгоритм. В свою очередь, каждый ряд образует по три группы правил склонения слов. Исключение составляют неологизмы, склонение которых зависит от конкретного слова.

Морфология якутского языка заключается в агглютинативном (прилепляющемся) принципе. Все основные значения якутских слов выражаются с помощью аффиксов. Учитывая то, что проверка орфографии заключается в сравнении проверяемого слова с эталонным словом, рационально хранение эталонного слова в особо сложенном виде - виде базы данных со связанными таблицами.

Следовательно наиболее подходящей моделью орфографии якутского языка является идентификационная сложная числовая функция связанных таблиц базы данных (иными словами совокупность абстрактных машинных правил), однозначно определяющая эталонное описание всех доступных аффиксов к любому корневому слову для дальнейшего составления числовых функций с четырьмя аргументами [40-49]. Алгоритм проверки орфографии сводится к поиску корневого слова, а затем продуктивного и завершающего смысл сказанного разрешённых аффиксов по машинным правилам модели. Значения этих аффиксов зависят от последних букв корневого слова, которые при склонении могут изменяться (ассимилироваться). Поэтому эталонный словарь должен иметь под одним номером два значения: собственно словарное слово и его неизменяемое (действительное) значение.

Для обеспечения максимальной скорости поиска эталонных слов словарь разбит на восемь примерно одинаковых групп. Минимизация по использованию оперативной памяти ЭВМ достигается применением SQL -запросов (Structured Query Language). Алгоритм учитывает работу программы в среде наиболее известной в мире программы Microsoft Office в многоязыковом режиме.

Целью работы является создание программы для ЭВМ по автоматической проверке орфографии текстов на якутском языке, доступной среде Microsoft Office и совместимой с используемыми по умолчанию программами по проверке орфографии английского и русского текстов. Для достижения указанной цели были поставлены и решены следующие задачи:

1. Разработка модели склонения якутского языка в виде базы данных с четырьмя связанными таблицами, составление числовых функций изменения корневых слов по абстрактным машинным правилам, однозначно объединяющие грамматические аксиомы и правила.

2. Составление специального электронного якутского орфографического словаря объёмом 15442 слова с атрибутами правил склонения слов и указателем части речи, которой они принадлежат.

3. Составление специальных библиотек аффиксов по существительным, глаголам, наречиям, притяжательным формам имён существительных и прилагательных представляющих аргументы числовых функций, а также по формам побуждений, и составление таблиц грамматических запретов.

4. Разработка алгоритма проверки орфографии и написание программ на алгоритмическом языке Visual Basic.

5. Разработка программы связи с текстовой программой Microsoft Word и её приложениями по проверке орфографии текстов на английском и русском языках.

Научная новизна

Разработана модель склонения якутского языка в виде базы данных с четырьмя связанными таблицами, составлены числовые функции изменения корневых слов по абстрактным машинным правилам, однозначно объединяющие грамматические аксиомы и правила. Показана применимость объектной методологии к описанию грамматики якутского языка. Унификация машинных правил модели по шести правилам склонения позволяет упростить математическое описание синтаксиса якутского языка, что важно для смыслового перевода с якутского языка на другой язык [49] и проверки грамматики в целом.

Практические результаты

Впервые в России разработана программа для ЭВМ, способная проверить около пятидесяти миллионов комбинаций спряжения 15442 слов якутского языка, работающая совместно с программами по проверке орфографии текстов на английском и русском языках.

Впервые составлена сводная таблица всех глагольных (побудительных), завершающих смысл сказанного аффиксов якутского языка (аргументов числовых функций) и создан обновленный электронный орфографический словарь.

Основные положения, выносимые на защиту:

- модель представления эталонных якутских словоформ и числовые функции их склонения по абстрактным машинным правилам, состоящая из четырёх связанных таблиц базы данных, для проведения орфографии текстов на якутском языке,

- якутский электронный орфографический словарь на 15442 слова,

- полная электронная библиотека глагольных аффиксов и методов побуждений языка саха, представляющих аргументы числовых функций модели,

- алгоритм проверки орфографии текстов на якутском языке и совместная его работа с приложениями Microsoft Word по проверке орфографии текстов на английском и русском языках,

- программное обеспечение проверки орфографии якутских текстов.

Практическая ценность

Разработанная программа полезна для различных издательств, образовательных учреждений и для тех, кто готовит материалы на языке народа саха. В рамках освоения и внедрения данной программы Министерством образования Республики Саха (Якутия) проведена экспертиза и принято решение о ходатайстве перед Правительством Республики Саха (Якутия) о закупке программы для распространения среди общеобразовательных школ республики.

Личный вклад автора

Содержанием диссертации являются многолетние исследования автора в области анализа, систематизации якутского языка с точки зрения моделирования и автоматизации проверки орфографии, составления сводной таблицы аффиксов. Создан якутский электронный орфографический словарь на 15442 слов. Разработана модель склонения якутского языка из 78 машинных правил для наиболее быстрого принятия решения о правильности написания текста. Разработан алгоритм и создана компьютерная программа проверки орфографии текста на якутском языке.

Апробация работы

Основные результаты докладывались на семинарах Института гуманитарных исследований Академии Наук РС(Я) (г.Якутск, 1998, 2000, 2001 гг.), Всероссийской конференции «Космо- и геофизические явления и их математические модели» посвященной 80-летию профессора А.И.Кузьмина (г.Якутск, 2002 г.), Четвёртой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (г.Дубна, 2002 г.), 2-й Республиканской научно-практической конференция «Информационные технологии в науке, образовании и экономике» (г.Якутск, 2003 г.), Европейской конференции «Philological Disciplines and Digital Technology» (г.Пиза, Италия 2003 г.).

Публикации. Основные результаты опубликованы в четырёх статьях и защищены четырьмя Авторскими свидетельствами об официальной регистрации в Международном реестре программ для ЭВМ. Российский Фонд Фундаментальных Исследований (РФФИ) дважды поддерживал эту работу трёхлетним грантом. Согласно «Положению РФФИ» каждый год представлялся отчёт о проведённой работе. Отчёты РФФИ автор имеет право самостоятельно публиковать в печатной и электронной формах.

Структура и объём работы

Диссертация состоит из введения, четырёх глав, заключения, списка работ автора по теме диссертации и списка используемой литературы из 81 названия. Общий объём — 140 страниц, включая 9 рисунков, 8 таблиц и 5 копий документов.

Заключение диссертация на тему "Моделирование орфографии якутского языка и разработка комплекса программ для проверки правописания якутских текстов в среде WINDOWS"

ЗАКЛЮЧЕНИЕ Научный результат диссертационной работы:

Разработана модель, состоящая из четырёх связанных таблиц базы данных, составлены числовые функции изменения корневых слов по абстрактным машинным правилам, однозначно описывающим эталонное значение корневых слов при любых их склонениях для проведения орфографии текстов на якутском языке, показана применимость объектной методологии к описанию грамматики якутского языка. Практические результаты диссертационной работы:

1. Создан впервые обновлённый электронный орфографический словарь якутского языка объёмом 15442 слова.

2. Создана впервые полная электронная библиотека аффиксов для якутских слов, соответствующих любой части речи представляющих аргументы числовых функций модели.

3. Разработан впервые комплекс программ в среде Microsoft Windows, проверяющий орфографию якутского (тюркоязычного) текста при любых включениях английского или русского текстов объёмом 72,9 Mb.

Разработанный комплекс программ полностью совместим с Microsoft Office и может быть вызван любой программой работающей в среде Microsoft Windows и её приложениями по проверке орфографии текстов в других национальных языках, начиная с версии Windows 9х, Me, 2000. Алгоритм и коды можно использовать при разработке программы по орфографии для любого тюркского языка.

Выражаю добрую память о моём учителе докторе физико - математических наук, профессоре Юрии Георгиевиче Шафере.

За постоянную помощь благодарю доктора филологических наук, профессора Евдокию Иннокентьевну Коркиной

Отдельно благодарю кандидата физико - математических наук Галину Васильевну Шафер.

Библиография Мигалкин, Василий Васильевич, диссертация по теме Теоретические основы информатики

1. Убрятова Е.И. Историческая грамматика якутского языка. Якутск: ЯГУ. 1985.60 с.

2. Афанасьев П.С., Воронкин М.С., Алексеев М.П. Диалектологический словарь якутского языка. Москва: Наука. 1976. 391 с.

3. Воронкин М.С., Алексеев М.П., Васильев Ю.И. Диалектологический словарь якутского языка. Новосибирск: Наука. 1995. 294 с.

4. Коркина Е.И. Наклонение глагола в якутском языке. Москва: Наука. 1970.307 с.

5. Харитонов JI.H. Современный якутский язык, фонетика и морфология. Якутск: Якутское кн. изд-во. 1947. 312 с.

6. Убрятова Е.И. Исследование по синтаксису якутского языка. М. Л.: Изд-во АН СССР. 1950. 304 с.

7. Алексеев И.Е. Побудительная фраза в якутском языке. Новосибирск: Наука. 1992. 124 с.

8. Петров Н.Е. Модальные сочетания в якутском языке. Москва: Наука. 1988.208 с.

9. Грамматика современного якутского литературного языка. Морфология и фонетика. М: Наука. 1982. 496 с.

10. Дьячковский Н.Д. Звуковой строй якутского языка. Якутск: Якутское кн. изд-во. 1977. 110 с.

11. Самсонова Т.П. Сравнительная характеристика звуковой системы русского и якутского языков. Якутск: Якутское кн. изд-во. 1959. 97 с.

12. Барашков И.И., Григорьев Н.С. Орфографический словарь якутского литературного языка. Якутск: Гос. изд-во ЯАССР. 1942. 126 с.

13. Орфографический словарь /под ред. проф. Л.Н.Харитонова. Якутск: Якутское кн. изд-во. 1963. 181 с.

14. Якутско-русский словарь /под ред. П.А.Слепцова. Москва: Советская энциклопедия. 1972. 605 с.

15. Кулаковский А.Е. (Оксекулээх Олексой). Ырыа xohooH. Якутск: Якутское кн. изд-во. 1924-1925. ч.1 158 с. ч.2 174 с.

16. Кулаковский А.Е. (Оксекулээх Олексей). Ойуун туулэ. Якутск: Бичик. 1994.64 с.

17. Софронов А.И. (Алампа). Талыллыбыт айымньылар. Якутск: Якутское кн. изд-во. 1959. 443 с.

18. Неустроев Н.Д. Талыллыбыт айымньылар. Якутск: Якутское кн. изд-во. 1947. 180 с.

19. Никифоров В.В. (Кулумнуур). Манчаары (Манчаары туекун). Якутск: ООО Литограф. 1996. 40 с.

20. Слепцов П.А. (Ойуунускай). Талыллыбыт айымньылар. Якутск: Якутское кн. изд-во. 1975. т.2 432 с.

21. Кулачиков С.Р. (Эллэй). Талыллыбыт айымньылар. Якутск: Якутское кн. изд-во. 1947. 160 с.

22. Кулачиков С.Р. (Эллэй). Куегэйэр куннэрбэр. Якутск: Якутское кн. изд-во. 1929. 96 с.

23. Мординов Н.Е. (Амма Аччыгыйа). Талыллыбыт айымньылар. Якутск: Якутское кн. изд-во. 1956. т.1 480 с.

24. Мординов Н.Е. (Амма Аччыгыйа). БыИах угун кыстаммыт. Якутск: Якутское кн. изд-во. 1934. 69 с.

25. Мординов Н.Е. (Амма Аччыгыйа). Куну керсе. Якутск: Якутское кн. изд-во. 1947. 298 с.

26. Сивцев Д.К. (Суорун Омоллоон). Талыллыбыт айымньылар. Якутск: Якутское кн. изд-во. 1960. т.2 448 с.

27. Сивцев Д.К. (Суорун Омоллоон). Дьулуруйар Ньургун Боотур. Якутск: Гос. изд-во ЯАССР. 1940. 86 с.

28. Сивцев Д.К. (Суорун Омоллоон). Биэс ынахтаах Бэйбэрикээн эмээхсин. Якутск: Гос. изд-во ЯАССР. 1944. 42 с.

29. Сивцев Д.К. (Суорун Омоллоон). Тыыннаах номохтор. Якутск: Якутское кн. изд-во. 1963. 131 с.

30. Новиков В.М. (Куннук Уурастыырап). УЬуктубут кыраайга. Якутск: кн. изд-во. 1932. 104 с.

31. Новиков В.М. (Куннук Уурастыырап). Нуодалдьын кугас аттаах Тойон Дьадарыма бухатыыр. Якутск: Гос. изд-во ЯАССР. 1941. 104 с.

32. Новиков В.М. (Куннук Уурастыырап). Былыргы дьыллар быыстарыгар. Якутск: Якутское кн. изд-во. 1976. 160 с.

33. Данилов С.П. (Семён Данилов). Халлаан уолун хайьйтрын суола. Якутск: Якутское кн. изд-во. 1975. 208 с.

34. Данилов С.П. (Софрон Данилов). Дьону уердэ сырыттарбын. Якутск: Якутское кн. изд-во. 1967. 84 с.

35. Гоголев И.М. (Кындыл). Олорор мутуккун кэрдимэ. Якутск: Якутское кн. изд-во. 1986. 216 с.

36. Соловьев B.C. (Болот Боотур). Хомурахтаах хоту сирим одолоругар. Якутск: Якутское кн. изд-во. 1992. 96 с.

37. Тарасов С.И. Дьоллоох дьолун Tyhyrap. Якутск: Якутское кн. изд-во. 1969. 64 с.

38. Мигалкин И.В. Улэдэ таптал дьолго таптал. Якутск: Бичик. 1995. 154 с.

39. Старостин А.Г. (Сиэн Кынат). Аал уоппар итэдэлим. Якутск: Якутское кн. изд-во. 1973. 96 с.

40. Мигалкин В.В. Саха-русский компьютерный переводчик //Труды Всероссийской конференции «Космо- и геофизические явления и их математические модели», посвящённой 80-летию профессора А.И.Кузьмина, Якутск, 2002. с. 117-119

41. Мигалкин В.В. Саха-русский компьютерный переводчик //Труды четвёртой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Дубна, 2002. с.334-390

42. V. Migalkin. Sakha (Yakut) Russian computer dictionary 45 000 000 entries // Fifth Euresco Conferences. Philological Disciplines and Digital Technology. Computational Philology: Tradition versus Innovation. Pisa, Italy, 2003. p.82-84

43. Мигалкин В.В. Компьютерная программа проверки орфографии якутских текстов// Труды 2-ой Республиканской научно практической конференции «Информационные технологии в науке, образовании и экономике», г.Якутск, 2003 г. с.75-76

44. Мигалкин В.В. Программа для ЭВМ Sakha Orthography. Авторское Свидетельство №200161137 от 3 декабря 2001.

45. Мигалкин В.В. Программа для ЭВМ Sakha. Авторское Свидетельство №200161136 от 3 декабря 2001.

46. Мигалкин В.В. Программа для ЭВМ Russian Sakha dictionary. Авторское Свидетельство №2003610961 от 21 апреля 2003.

47. Мигалкин В.В., Мигалкина О.В. Программа для ЭВМ Sakha abbreviation. Авторское Свидетельство №2003610962 от 21 апреля 2003.

48. Мигалкин В.В. Саха Русский компьютерный словарь на 45 000 000 слов с возможностью обратного перевода. Руководитель д.ф.н. проф. Е.И. Коркина. РФФИ №98-06-03952.

49. Мигалкин В.В. Саха Русский компьютерный смысловой переводчик. Руководитель д.ф.-м.н. доц. В.Е. Степанов. РФФИ № 03 - 06 - 96002.

50. Russian Language Processor Russicon: Design and applications. In Proceedings, East-West Conference on Artificial Intelligence // From Theory to Practice. EWAIC' 93, September 7-9, 1993, Moscow, Russia. Organized by RAAI Jointly with ICSTI p. 175-180.

51. Зализняк A.A. Грамматический словарь русского языка. 3 т. М.;

52. Русский язык», 1980. 880 с.

53. Нариньяни А.С. Лингвистические процессоры ЗАПСИБ (Часть 1 -Задачи проета). Новосибирск. 1979. 22 с. (препринт/ АН СССР. СО ВЦ № 199).

54. Нариньяни А.С. Модель или алгоритм: новая парадигма информационной технологии // Информационные технологии. 1997. с. 11-16.

55. Koskenninmi К. Two-Level Morphology: a General Computational Model for World-Form Recognition and Production. PhD thesis, University ofHelsenki. Publication of the Department of General Linguistics, University ofHelsenki №11. Helsenki. 1983.

56. Kozima Hidkei, Ito Akira. A scene-based Model of World Prediction. // Proceedings of the Second International Conference on New Methods in Language Processing. Ankara:, 1996., p. 110-117.

57. Pollard C., Sag I.A. Head-Driven Phrase-Structire Grammar. //Center for the Study of Language and Information (CSLI) Lecture Notes. Stanford University Press and University of Chicago Press. 1994.

58. Netter Klaus. Constraint-Based Grammar Models. //In Proceeding of the Eigh Eurepean Summer Scool in Logic, Language and Information ESSLLI-96. August 12-23, 1996, Prague, Czech Republic, p.1-10.

59. Абрамов В.Г., Брябрин B.M., Пховелишвили М.Г. ДИЛОС диалоговая система для взаимодействия на естественном языке. Сообщения по программному обеспечению ЭВМ. - М., 1979. - 41 С.

60. Андрусенко Т.Б. Лингвистические структуры в компьютерных учебных средах. Киев: Наукова Думка, 1994. - 160 С.

61. Апресян Ю.Д. Образ человека по данным языка: попытка системного описания//Вопросы языкознания, Наука, 1995, №1.

62. Ашманов И.С. Архитектура и технология промышленной реализации прикладных лингвистических систем (проверка правописания электронные словари) Автореферат дисс. На соискание ученой степени кандидата технических наук. Преславль - Залесский, 1995. 22С.

63. Ашманов И.С. Грамматический и стилистический корректор русского языка// Труды международного семинара по компьютерной лингвистике. ДИАЛОГ-95. Казань, 1995, С.39-42.

64. Бейлин Дж. Краткая история генеративной грамматики. В сб. обзоров: фундаментальные направления современной американской лингвистики/ под ред. А.А. Кибрика, И.М.Кобозевой, И.А. Секериной. М.: Изд-во МГУ, 1997.-С. 13-57.

65. Братчиков И.Л. Экспертные системы и проблема анализа ответов обучаемых// Бюллетень. Экспертные системы и ПРОЛОГ в учебном процессе // Краткое изложение докладов на школе семинаре. - Йошкар - Ола: ОП СНИО, 1990. - С. 18 - 24.

66. Брябрин В.М., Сенин Г.В. Анализ естественного языка в ограниченном контексте//Вопросы кибернетики.- 1980. 61. - С. 111-117.

67. Бухареев Р.Г., Сулейманов Д.Ш. Подсистема обеспечения интелектуального взаимодействия в диалоговой системе // Тезисыдокладов IV Всесоюзной конференции «Диалог Человек ЭВМ». 4.2. -Киев: ИК им. В.М.Глушкова АН УССР, 1985. - С.11 - 13.

68. Виноградов Т. Программа понимающая естественный язык. М., 1976. -183 С.

69. Ожегов С.И., Шведова Н.Ю. Толковый словарь русского языка. Р.А.Н. Ин-т рус. яз.; Российский фонд культуры. М.: Азъ Ltd., 1992. 960 с.

70. Русский язык. Энциклопедия /под ред. Ю.Н. Караулова. М. Большая российская энциклопедия 1997. 703 с.

71. Гвида Дж., Тассо К. Алгоритмы и эвристики в системе понимания ЕЯ. Сб. научн. тр. под ред. А.С. Нариньяни. Новосибирск. 1982. Прикладные и экспериментальные лингвистические Процессоры, с. 37-59.

72. Ашманов И.С. Архитектура и технология промышленной реализации прикладных лингвистических систем (проверка правописания и электронные словари). Автореферат дисс. На соискание ученой степени кандидата технических наук. Переславль-Залесский. 1995. 22 с.

73. Апресян Ю.Д., Богуславский И.М., Иомдин JI.JI. и др. Лингвистический процессор для сложных информационных систем. М.: Наука. 1992. 256 с.

74. Довгялло A.M. Диалог пользователя и ЭВМ. Основы проектирования и реализации. Киев. 1981. 232 с.

75. Bruse McKinney. Hardcore Visual Basic. Microsoft Press. 1995. pp.520.

76. Зельднер Г.А. Microsoft Basic professional development system 7.1 Руководство для программиста M., ABF, 400 С. 1994.

77. К. Шеннон. Работы по теории информации и кибернетике. М.: Изд-во иностранной литературы. 1963. 827 с.

78. В.Д. Сибилёв Защита данных. SQL // Методическое пособие по дисциплине «Базы данных» для студентов специальностей 220400 и 071900 // Курс лекций. Часть 2. Каф. АСУ ТУСУР 2000.

79. Модели и проектирование баз данных. Под ред. A.M. Корикова. Томск. ТУСУР. каф. АСУ. 1999. 136 с.