автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке
Автореферат диссертации по теме "Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке"
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
На правах рукописи
Ле Чунг Хьеу
МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ МЕТОДОВ РАСПОЗНАВАНИЯ ОБРАЗОВ ПРИ ОБРАБОТКЕ ТЕКСТОВ НА ВЬЕТНАМСКОМ ЯЗЫКЕ
05.13.11 — Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
О О г'1--1 ^ о
УйО ¿011
Санкт-Петербург 2011
4853785
Работа выполнена на кафедре системного программирования Математико-механического факультета Санкт-Петербургского государственного университета.
Научный руководитель: доктор физико-математических наук,
профессор ГРАНИЧИН Олег Николаевич
Официальные оппоненты: доктор технических наук,
профессор ТИМОФЕЕВ Адиль Васильевич, (Санкт-Петербургский институт информатики и автоматизации РАН)
доктор физико-математических наук, доцент КРИВУЛИН Николай Кимович (Санкт-Петербургский государственный университ
Ведущая организация: Санкт-Петербургский государственный университе
информационных технологий, механики и оптики.
Защита состоится " -•)•? " фу. л ГШ. 2011 года в \А~ часов на заседании совета Д 212.232.51 по защите докторских и кандидатских диссертаций при Санкт-Петербургском государственном университете по адресу 198504, Санкт-Петербург, Петродворец, Университетский пр.,28, Математико-механический факультет.
С диссертацией можно ознакомиться в Научной библиотеке им.М.Горького Санкт-Петербургского государственного университета по адресу: 199034, Санкт-Петербург, Университетская наб. 7/9.
Автореферат разослан " Я4- " ае.,-пТл-ъ2010 г.
Ученый секретарь
диссертационного совета /^Л) I Даугавет И. К.
Общая характеристика работы
Актуальность темы. В последние десятилетия методы распознавания образов находят приложения в самых разнообразных областях. Многие из них активно используются при автоматической обработке текстов (ЛОТ). АОТ достигла значительных успехов в лексико-грамматическом анализе, выявлении темы, в поиске информации и т. п. Большинство работ по АОТ были проведены для языков индоевропейской группы. Их результаты не могут быть непосредственно применены к вьетнамскому языку, который, являясь разговорным языком (как китайский, японский и др.), оперирует слогами, а не словами. Границы слова определяются контекстом. Для построения новых лексических единиц или слов используются сочетания различных слогов. Роль приставок и суффиксов также выполняют слоги, что еще более запутывает процесс анализа текста. Похожие проблемы характерны и для распознавания текстов на других восточных языках. Но, например, для китайского они решаются за счет большого объема уже сформированных и подготовленных аннотированных корпусов текстов.
Проблемы распознавания образов слов и словосочетаний во вьетнамских текстах исследовались в современных работах Д. Дьена, Х.Н. Као, Х.П. Ле, К.Т. Нгуе-на, X. Нгуена, Л.А. Ха и др. Основные задачи обработки текстов на вьетнамском языке (лексико-грамматический анализ, синтаксический анализ и т. п.) сложны для вычислительной лингвистики в первую очередь из-за нерешенности проблемы делимитации слова, так как слово во вьетнамском языке не является единицей, которую можно было бы всегда четко выделить по каким-либо формальным признакам. При автоматической обработке вьетнамского языка методы распознавания образов целесообразно использовать не только в традиционных сферах приложений по распознаванию символов и звуков, но и неожиданной с точки зрения обработки индоевропейских текстов сфере — распознавании образов слов и фраз.
Для вьетнамского языка серьезной проблемой для автоматической обработки является отсутствие достаточно полных словарей вьетнамских слов и вьетнамско-язычных корпусов текстов. На протяжении долгого времени вьетнамские, а также иностранные специалисты, решали эту проблему вручную. Однако построение списка слов вручную требует колоссальных усилий и все же не обеспечивает полноты словаря. Одна из причин этого — широкое использование вьетнамского языка в различных сферах со специальными словами, которые редко используется. Другая
— в различных регионах используются разные диалекты и словосочетания. Кроме этого, условия жизни быстро меняются. С развитием новых технологий и увеличением объемов информации постоянно расширяется лексикон вьетнамского языка. Например, новые слова: Интернет, айфон и т. п. надо включать в словари как новые понятия. Все эти причины делают процесс построения списка вьетнамских слов вручную трудновыполнимым. По последним данным самый полный вьетнамский словарь содержит только 75 ООО слов, но в реальности по оценке специалистов количество вьетнамских слов насчитывает уже более 200 ООО. Это означает, что более половины вьетнамских слов нигде не сохранены.
Цель и задачи работы. Создание математического обеспечения, реализующего методы распознавания образов для автоматической разметки текстов на вьетнамском языке, результаты применения которого могут быть использованы для дальнейшей обработки лингвистами или другими программными системами поиска и автоматического перевода.
Цель достигается в диссертации через решение следующих задач:
• разработка и обоснование математических статистических моделей распознавания образов вьетнамских слов и словосочетаний, создание на их основе математического обеспечения для сегментации предложений на слова и фразы, использующего методы теории вероятностей и математической статистики, а также алгоритмы обучения без учителя;
• разработка обеспечения методов графематического анализа вьетнамских текстов, основанных на статистических моделях распознавания образов вьетнамских слов, словосочетаний и фраз и на сопоставлении образцов в большом текстовом массиве данных, позволяющих эффективно выполнять процесс выделения различных лексем вьетнамского текста и присваивать им соответствующие графематические дескрипторы;
• разработка и обоснование теоретико-вероятностной модели, использующей метод скрытых марковских моделей, для выполнения процесса морфологического анализа вьетнамских текстов;
• создание программной системы для автоматической обработки вьетнамских текстов и построение с ее помощью значительных наборов данных, включающих графематический, морфологический и статистический словари, а также
аннотированный корпус вьетнамских текстов.
Методы исследования. В диссертации применяются методы распознавания образов, машинного обучения без учителя, теории вероятностей и математической статистики, имитационного моделирования и системного программирования. Основные результаты. В работе получены следующие основные научные результаты:
1. Предложен, обоснован и реализован метод обучения без учителя для распознавания образов слов, словосочетаний и фраз во вьетнамских текстах, позволяющий производить сегментацию предложений на слова и фразы для последующей автоматической морфологической разметки вьетнамских текстов.
2. Разработано математическое и программное обеспечение, реализующее метод поиска образца, предназначенное для выделения различных лексем вьетнамского текста и присваивания им соответствующих графематических дескрипторов. Исследованы статистические характеристики образования лексем вьетнамского текста.
3. Предложен и реализован метод скрытой марковской модели для распознавания морфологической структуры предложений во вьетнамских текстах, обоснован алгоритм оптимизации его параметров.
4. Разработана новая программная система для автоматической обработки вьетнамских текстов, с помощью которой сформированы графематический, морфологический и статистический словари значительных размеров, а также аннотированный корпус вьетнамских текстов.
Научная новизна. Все основные научные результаты диссертации являются новыми.
Теоретическая ценность и практическая значимость. Теоретическая ценность работы состоит в разработке, обосновании и реализации новых алгоритмов распознавания образов слов, сегментации предложений на слова и фразы, а также автоматической морфологической разметки вьетнамских текстов.
Предложенные новые алгоритмы могут быть эффективно использованы при решении практических задачах обработки текстов на вьетнамском языке, а также на ряде других (китайском, японском, корейском и т. п.). Созданный программный
комплекс для автоматической обработки вьетнамских текстов может быть использовать лингвистами для дальнейшего изучения языка. Результаты автоматической обработки текстов, получаемые с помощью разработанной системы, могут использоваться как лингвистами, так и в других системах поиска и автоматического перевода.
Апробация работы. Материалы диссертации докладывались на семинарах кафедры системного программирования математико-механического факультета СПб-ГУ и на международной конференции: The 2nd Asian Conference on Intelligent Information and Database Systems (Hue, Vietname, March 24—26, 2010).
Результаты диссертации были частично использованы в работе по НИР из средст бюджета "Математическая модель распознавания и процессинга текстов на восточных языках на основе сегментации релевантных составляющих", выполняемой в СПбГУ.
Публикации. Основные результаты диссертации опубликованы в шести работах. Из них две публикации [1, 2] в изданиях из перечня ВАК. Работы [1,2,3] написаны в соавторстве. В работе [1] Граничину О.Н. принадлежит общая постановка задачи, а Jle Ч.Х. реализации и обоснования описываемых методов, создание демонстрационных примеров и программных средств. В работах [2, 3] Ле Ч.Х. предложил новые статистические методы распознавания образов и теоретико-вероятностную модель для автоматической сегментации предложений на вьетнамском языке, а его соавторы участвовали в подготовке наборов текстовых данных для апробации новых методов и выполнили часть работы по созданию и доработке нового словаря вьетнамских слов.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 105 источников. Текст занимает 102 страницы, содержит 10 рисунков и 11 таблиц.
Содержание работы
Во введении обосновывается актуальность тематики диссертационной работы и кратко излагаются ее основные результаты.
В первой главе "Особенности обработки вьетнамских текстов" анализируются общие проблемы автоматической естественных языков, а также представлены
лингвистические характеристики и атрибуты вьетнамского языка.
Одной из серьезных проблем организации человеко-машинного взаимодействия является лингвистический анализ предложения на естественном языке с последующим переводом его на машинный язык вычислительной системы. Общие подходы к решению этой задачи рассматриваются в п. 1.1. Обычно текст подвергается последовательной обработке графематическим, морфологическим, синтаксическим и семантическим анализаторами.
В п. 1.2 описываются лингвистические характеристики вьетнамского языка: фонетика, слог, морфология, синтаксис, лексические категории и предложения. Особенностью вьетнамского языка является то, что он разговорный, и в нем самым важным элементом является слог, а не слово. Автоматический анализ текстов на вьетнамском языке затруднен нерешенностью проблемы делимитации слова. Границы слов могут меняться в зависимости от контекста, что приводит к трудностям их определения. Эти трудности восприятия иллюстрируются следующим примером. В предложении "hoc sinh hoc sinh hoc", которое по-русски означает "школьник учит биологию", все комбинации "hoc sinh", "sinh hoc", "sinh", "hoc" являются вьетнамскими словами:
• "hoc sinh" — школьник,
• "sinh hoc" — биология,
• "hoc" — учиться,
• "sinh" — родиться.
Для разделения предложения на слова важно содержание предложения. Исходя из смысла предложения определяются те комбинации слогов, которые являются словами. В рассматриваемом примере, учитывая его основную мысль, правильная расстановка границ такова: "hoc sinh / hoc / sinh hoc".
Другой трудной проблемой является отстуствие достаточно полных вьетнамских словарей и корпусов текстов.
В п. 1.3 представлены классификация и краткие описания программных продуктов, связанных с анализом текстов и вычислительной лингвистикой, которые исследовались при разработке в ходе работы над диссертацией новой программной системы по автоматическому распознаванию вьетнамских текстов.
Во второй главе "Методы распознавания образов при графематическом анализе" описываются применения методов распознавания, основанные алгоритмах на обучении без учителя и поиска образцов, при выделении лексем во вьетнамских текстах.
Графематический анализ представляет собой начальный этап обработки текста, представленного в виде цепочки ASCII символов, подготавливающий информацию, необходимую для дальнейшей обработки морфологическим и синтаксическим процессорами. При графематическом анализе вьетнамского языка решаются две основные задачи: первая — выделение различных нестандартных элементов текста и присваивание им соответствующих графематических дескрипторов (например, знаков пунктуации, цифровых комплексов, собственных имен, сокращений и т. д.); вторая — распознавание слов и словосочетаний, сегментация предложений на слова.
Для выявления в текстах графематических дескрипторов необходимо иметь правила формирования структуры текстовых сегментов (шаблоны, образцы) и правила извлечения. Первые выявляют лингвистические свойства структуры текстов, тогда как вторые, используют эти свойства для распознавания текстовых фактов. Формирование таких правил в существующих разработках производится вручную, что является причиной сложности настройки системы графематического анализа.
В п. 2.1 предлагается и исследуется модель первичного графематического анализа вьетнамских текстов, основанного на сопоставлении образцов в большом текстовом массиве данных, позволяющая эффективно выполнять процесс выделения различных лексем вьетнамского текста и присваивания им соответствующих графематических дескрипторов. Модель базируется на исследовании и выявлении статистических характеристик образования лексем во вьетнамских текстах и построении набора соответствующих графематических правил.
Пусть Е = {<т;} — алфавит (конечное упорядоченное множество символов). С С Е* = {и = (tJi)\<Ji £ Е, |ш| > 0} — некоторый язык, заданный над этим алфавитом.
Сс = {sb s2,..., «л-} — конечный набор всех текстовых сегментов, где текстовый сегмент s = (Тхсг2 ... <х„ является последовательностью символов алфавитов языка.
Л = {Ai\Ai С С с, Л, ф 0}, — конечная совокупность элементарных атрибутов. Говорят, что текстовый сегмент s 6 С с имеет атрибут Л, если s е А3.
Образец Р = (Ль Лг, • ■., Ак) представляют собой шаблон фразы, состоящий из
элементарных атрибутов. Сд = {Р = {^И^ € -4} — конечный набор образцов.
Т = — дескриптор} — конечное множество дескрипторов. Графемати-
ческий дескриптор Mi = (Р,, Тг) — особый образец, состоящий из шаблона и дескриптора. Ст = {А/; = (Р{, 7|-)} — конечное множество классов графематических дескрипторов.
72. = {Л : (Рс, Ма = (Р„, Т„)) -»■ Г0} — множество правил извлечения, где Рс — образец, Ма = (Р„, Та) — графематический дескриптор.
Пусть задан кортеж М = (Е,Сс,Сд,Ст,И). Тогда основной задачей распознавания графематических дескрипторов в условиях М. будем называть задачу построения для произвольного текстового сегмента й 6 Сц набора графематических дескрипторов Мв.
В п. 2.2 анализируются задачи распознавания слов и словосочетаний и сегментации предложений на слова, словосочетания и фразы. Рассматриваются две проблемы:
• распознавание слов с вероятностной точки зрения;
• построение с помощью процесса обучения без учителя по большому набору предложений адекватной вероятностной модели.
Предлагаемый в работе подход к решению первой проблемы заключается в том, что по изучению большого множества последовательностей слогов выделяются пары слогов, (а, /3), являющиеся словами или частями слов.
Вероятностная модель V определяется как тройка (С, Ее, Рс), в которой набор предложений С={з1,з2,..., яп} является конечной совокупностью предложений, Ес ~ множество слогов, которые являются частями некоторых предложений .5, из набора С, Тс ~ множество вероятностных функций е Тс '■ ££ ^
Функции достоверности — вероятностные функции пары слогов, которые оценивают какова вероятность того, что эта упорядоченная пара слогов являются словом или частью слова.
Определение 1: Функция достоверности /с,м(а>Р) : Е2 и-*- К над вероятностной моделью М и набором С определяется следующим образом:
, , дч Р(аР)2
где се! некоторая константа (например, с = 1).
На основе функций достоверности строятся функции распознавания, которые для пар слогов дают вероятности того, что они могут быть частью слова.
Определение 2: fR : ££ {—1,0,1}, называется функцией распознавания слов над /с и V с параметрами (т sup ) Mgup) Tricon-! Мсоп) если:
/я(«,0) =
1 if (/c(q, 0) > Мсоп) and (N(a/3) > Msup)--1 if (fc(a,P) < гпсоп) or (N(«/3) < msup)\ 0 otherwise,
где fce Тс- функция достоверности, V — вероятностная модель, N (aft) — вероятность появления пары (а/3), msup, Msup, m^, Мсоп 6 Тс — некоторые постоянные функции: 0 < msup < Msup и 0 < mcon < Mcm-
Пусть fc, /д 6 Тс — функции достоверности и универсальная распознавания, Dam € Тс — положительная постоянная; s = a¡a2 ■ ■ - Q-k £ С — предложение в наборе, и w = aiQ¡+i...a¡+m является частью предложения s (1 < I < k,0 < m < к — Í).
Определение 3: Пусть s = а^аг... а^ 6 С — предложение в наборе С. Часть предложения w = a¡a¡+1... a¡+m (1 < ¿ < fc,0 < m < к - l) называется локальной максимально достоверной последовательностью (ЛМДП) в s над Т7, /с, /д и Ду,п, если удовлетворяются следующие условия:
(i) Vi = /,..., т - 1: fR(ai,ai+1) = 1;
(ii) если I > 1 :
/ñ(«¡-i,o¡) = -1 или /¿(a/_i,Q,) = 0 and fc{ahaM) > Jc{<xi-\,a¡) + A^
(iii) если l + m< k: f'n(a¡+m, a¡+m+1) = -1 или
/fí(a(+m,Oí+m+i) = 0 and fc(a¡+m-i, a¡+m) > Мац+т, «¡+m+i) + А™,
где /с, f'R d Тс — функции достоверности и универсальная распознавания, Dcon е
Тс — положительная постоянная.
Обучающая вероятностная модель строится итеративно по процессу соединения слогов. Начальный набор предложений — огромное множество вьетнамских предложений, которое было получено из электронных документов в Интернете. На каждой итерации обучения выполняются следующие шаги: (i) поиск локальных максимально достовернных последовательностей слогов в предложениях; (ii) соединение последовательностей слогов, которые являются локальными максимально достоверными; (iii) пересчет всех вероятностных значений нового набора предло-
жений; (¿111) корректировка параметров и возврат к шагу (1).
Для обоснования предложенных в п. 2.2 методов распознавания образов слов, словосочетаний и фраз доказаны следующие теоремы:
Теорема 1. Процесс соединения слогов с определенными параметрами завершается за конечное число итераций.
Теорема 2. Пусть Л^ — число всех предложений в наборе и М3 — наибольшее число слогов в предложениях, тогда сложность процесса соединения слогов равна
ОД X Л/,).
Теорема 3. Процесс обучения завершается за конечное число итераций.
Процесс обучения сам по себе является алгоритмом сегментации слов. Вводные предложении были сегментированы по алгоритму обучения. Он использует статистические значении, которые определяются из формируемой адекватной вероятностной модели.
В третьей главе "'Оптимизация параметров скрытых марковских моделей при распознавании морфологической структуры" предлагается и обосновывается новый метод распознавания для морфологического анализа. Цель морфологического анализа заключается в определении морфологических признаков слов для использования их на последующих этапах обработки текста.
В проблеме морфологического анализа вьетнамских текстов рассматриваются два основные проблемы.
1. морфологическая разметка корпуса вьетнамских текстов;
2. морфологический анализ вьетнамского предложения — снятие морфологической омонимии.
Пусть С={.5'1, • • •, 5П} — конечная совокупность предложений, Ее — множество всех слов в наборе С, Т = {¿I, £2, • • •, ¿т} ~ конечный набор морфологических признаков.
Первая проблема состоит в том, чтобы по предложению й е С, я = с^ ■ ■. сь — последовательность слогов, сформировать я' = гуЦТ^шгРЬ] • • ■ и'1 [71] помеченное предложение, где ги; = с}... с[' — вьетнамские слова, а [Т,] — множество возможных морфологических признаков слова ш, в этом предложении.
В п. 3.1 описан алгоритм морфологической разметки, который производит ее полуавтоматически с использованием модели сегментации и списков размеченных ранее фраз. Модель сегментирует каждое предложение на фразы, и размечает их
на основе списков размеченных фраз. Алгоритм выполняется в два этапа: парсинг и фильтрование. Парсинг производится автоматически с использованием морфологического словаря. Парсер анализирует каждое слово в узком контексте каждой фразы, и присваивает ему соответствующие морфологические признаки, записывая их в квадратных скобках. Фильтрование производится вручную с участием лингвистов, которые проанализированные фразы — последовательности слов и его соответствующие набор возможных морфологических признаков — проверяют и корректируют.
Для решения второй проблемы морфологического анализа вьетнамских текстов в п. 3.2 диссертации предлагается метод автоматического морфологического анализа вьетнамских текстов с использованием скрытых моделей Маркова.
Пусть Т = {Ti,T2,... ,Tft} — конечное пространство состояний (тегов), W = {Wi, W2,..., Wм} — конечное пространство наблюдений (классов слов), А = {а,;} — матрица вероятностей переходов (или матрица переходов), где
ау = P(ít+1 = Tjltfc = I}), 1 <i,j<N, В = {b¡j} — матрица эмиссии, где
Ьу = P{wk = Wi\tk = 7}) l>i>N, 1 >j>M, Ti = {7T¡} — распределение вероятностей начального состояния, где
щ = P{U = 71), 1 < i < N.
Моделью называется тройка Л = {А, В, 7г}.
Задача морфологического анализа состоит в том, чтобы по имеющейся последовательности наблюдений W = и>2, восстановить последовательность состояний (тегов) Т* = {íb í2,..., í/}, порождающую эти наблюдения с наибольшей вероятностью.
Для решения задачи предлагается воспользоваться методом динамического программирования, который в рассматривваемом контектсе называется алгоритмом Витерби. Определим
Sk(i,W)= тик P(WM|r{li4),
где W[= WiW2 ■ • • Wk и T[i,tj = ¿ií2 • ■ • tk.
Пусть O = {t6»i, г^г,.. •, w¡} — последовательность наблюдений и
N
ak+1(i,0) = ^ 0)а]гЬхи,к, 1 < к < l,
>=1
N
mí, о) = y,
dijbjw t+1 A+i P), 1 <*</',
j=i
ak(i,0)pk(i,0)
lk{Í'0) = />«W
ГУ r
=
0fc + l(j,O)
Задача обучения состоит в том, что взять обучающий набор О = {О1,02,..., О"} последовательностей наблюдений и, соответственно, максимизировать правдоподобие наблюдений Р(0) = ПГ=1 варьируя Л.
Зафиксируем начальный набор параметров модели Ао и будем пытаться увеличить правдоподобие Р(0|А) или, что то же самое, уменьшить E(ü|А) = — 1п(0|А). Обозначив
п
Q{Ot А0, А) = - £ ¿2 А°)ln P(QÍ> TÍW'
i=l Т'
в диссертации получена оценка вида:
Е(0, А) < Q(0, А0, А) - Q(0, А0, А0) + Е(0, А0),
и доказана следующая теорема.
Теорема 4- Минимум функции Q(0, А0, ■) достигается в точке А* с координатами
J п /L^
1=1
EL £(и=аЛ(0',О'')
Е^Е^ЧО',^)
е;=1£
В четвертой главе — "Система автоматической обработки вьетнамских текстов" — в п. 4.1 описана схема функционирования разработанной автором программной системы, которая представляет собой многоуровневый анализатор: гра-фематический, сегментирующий и морфологический.
На вход системы подается текст в виде последовательности предложений на естественном языке.
Программа первичного графематического анализатора выделяет различные нес дартные лексемы вьетнамского текста и присваивает им соответствующие графе-матические дескрипторы. Программа включает в себя лексический словарь и набор графематических правил.
Программа сегментирующего анализатора, предназначена для распознавания вьетнамских слов и сегментации предложений на слова и фразы. База знаний программы включает в себя словари распознанных сегментов.
Программа морфологического анализатора предназначена для морфологического анализа текстов. База знаний программы — морфологический словарь и набор размеченных фраз. Программа выполняется в два этапа. Сначала — морфологическая разметка вьетнамского текста, потом — автоматический морфологический анализ.
В п. 4.2 описано программное средство, которое обеспечивает загрузку и редактирование анализируемых текстов; анализ текста посредством автоматической системы, составленной из разработанных независимо компонентов: графематического, сегментирующего и морфологического анализаторов.
Система была реализована на языке С# в виде приложения под операционную систему Microsoft Windows. Исследовательский стенд предоставляет функциональность работы с системой со стороны пользователя, реализуя такие возможности, как загрузка, отображение и редактирование текста, запуск анализа текста и отображение результатов анализа. Программируемый конвейер — приложение, реализованное на основе технологии Microsoft Framework 3.5, — предоставляет функциональность работы со стендом со стороны исследователя — разработчика алгоритмов анализа, — реализуя такие возможности, как подключение модулей анализатора к программе, а также связывание их в единый конвейер.
В п. 4.3 анализируются результаты анализа текстов каждым из компонентов. Данные для экспериментов были взяты из 250 034 вьетнамских Интернет-документе с веб-сайта "http://www.tuoitre.com.vn/". Начальные данные содержали 18 676 877
фраз и 131 318 974 слогов.
Основные В результате проведенных экспериментов были получены: лексический словарь, содержащий лексемы вьетнамского текста и соответствующие им графематические дескрипторы и статистические характеристики; набор графема-тических правил; словари распознанных сегментов, содержащие слога, пары слогов, соединения слогов вместе с дополнительными характеристиками, включающими количества или вероятности появлений, значения функций достоверности и распознавания; морфологический словарь, содержащий вьетнамские слова, словосочетания и соответствующие им части речи; набор размеченных фраз, состоящий из вьетнамских фраз и соответствующих морфологических разметок.
В заключении диссертации подведены итоги проведенного и завершенного в рамках поставленных задач исследования.
Работы автора по теме диссертации
Статьи в журналах, рекомендованных ВАК:
[1] Ле Ч. X., Граничин О. Н. Статистический способ выделения и словосочетаний из вьетнамских печатных текстов // Вестник СПбГУ. 2009. Серия 10. Вып. 3. С. 161-169.
[2] Le Т. Н., Le А. V., Le Т. К. An unsupervised learning and statistical approach for Vietnamese word recognition and segmentation // Lecture Notes in Computer Science "Intelligent Information and Database Systems. Second International Conference, ACIIDS, Hue City, Vietnam, March 24-26, 2010. Proceedings, Part II" / Ngoc Thanh Nguyen, Manh Thanh Le and Jerzy Swiatek editors. Vol. 5991 — Springer, 2010. P. 195-204.
[On-line] http://www.springerlink.com/content/7q97147rl8158844/
Другие публикации:
[3] Jle Ч. X., Ле А. В., Ле Ч. К. Автоматическое выделение слов и словосочетаний из вьетнамских печатных текстов // Стохастическая оптимизация в информатике. 2008. Т. 4. С. 171-186.
[4| Ле Ч. X. Обучение без учителя и статистический подход для сегментации и распознавания вьетнамских слов // Стохастическая оптимизация в информатике. 2009. Т. 5. С. 193-208.
[5] Ле Ч. X. Модель извлечения графематических дескрипторов в системе обработки вьетнамского языка // Стохастическая оптимизация в информатике. 2010. Т. 6. С. 230-247.
[6] Ле Ч. X. Модель морфологического анализа текстов вьетнамского языка // Стохастическая оптимизация в информатике. 2010. Т. 6. С. 248-263.
Подписано в печать 08.12.2010 г. Формат бумаги 60X90 1/16. Бумага офсетная. Печать ризографическая. Объем 1 усл. п. л. Тираж 100 экз. Заказ N 5015. Отпечатано в отделе оперативной полиграфии химического факультета СПбГУ с оригинал-макета заказчика. 198504, Санкт-Петербург, Старый Петергоф, Университетский пр., 26.
Оглавление автор диссертации — кандидата физико-математических наук Ле Чунг Хьеу
Введение
1 Особенности обработки вьетнамских текстов
1.1 Обработка естественного языка.
1.2 Особенности вьетнамских текстов.
1.2.1 Вьетнамский язык.
1.2.2 Проблемы обработки вьетнамских текстов
1.3 Программные продукты для обработки естественного языка
2 Методы распознавания образов при графематическом анализе
2.1 Извлечение графематических дескрипторов
2.1.1 Графематические дескрипторы.
2.1.2 Модель извлечения графематических дескрипторов.
2.1.3 Графематическая модель вьетнамского языка
2.2 Распознавание слов и сегментация предложений.
2.2.1 Вероятностная модель.
2.2.2 Метод обучения без учителя
2.2.3 Метод распознавания фраз.
3 Оптимизация параметров скрытых марковских моделей при распознавании морфологической структуры
3.1 Морфологическая разметка корпусов текстов.
3.1.1 Основные понятия и формальная постановка задачи
3.2 Автоматический морфологический анализ.
3.2.1 Постановка задачи.
3.2.2 Процесс обучения.
4 Система автоматической обработки вьетнамских текстов
4.1 Описание функционирования программ.
4.2 Состав программного обеспечения.
4.3 Результаты экспериментов
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Ле Чунг Хьеу
Актуальность темы. В последние десятилетия методы распознавания образов находят приложения в самых разнообразных областях. Многие из них активно используются при автоматической обработке текстов (АОТ). АОТ достигла значительных успехов в лексико-грамматическом анализе, выявлении темы, в поиске информации и т. п. Большинство работ по АОТ были проведены для языков индоевропейской группы [58, 59, 75, 82, 83, 84, 94]. Их результаты не могут быть непосредственно применены к вьетнамскому языку, который, являясь разговорным языком (как китайский, японский и др.), оперирует слогами, а не словами. Границы слова определяются контекстом. Для построения новых лексических единиц или слов используются сочетания различных слогов. Роль приставок и суффиксов также выполняют слоги, что еще более запутывает процесс анализа текста. Похожие проблемы характерны и для распознавания текстов на других восточных языках. Но, например, для китайского они решаются за счет большого объема уже сформированных и подготовленных аннотированных корпусов текстов.
Проблемы распознавания образов слов и словосочетаний во вьетнамских текстах исследовались в современных работах Д. Дьепа [68], Х.Н. Као [62, 63], Х.П. Ле [80], К.Т. Нгуена [89], X. Нгуена [90], Л.А. Ха [76] и др. Основные задачи обработки текстов на вьетнамском языке (лексико-грамматический анализ, синтаксический анализ и т. п.) сложны для вычислительной лингвистики в первую очередь из-за нерешенности проблемы делимитации слова, так как слово во вьетнамском языке не является единицей, которую можно было бы всегда четко выделить по каким-либо формальным признакам. При автоматической обработке вьетнамского языка методы распознавания образов целесообразно использовать не только в традиционных сферах приложений по распознаванию символов и звуков, но и неожиданной с точки зрения обработки индоевропейских текстов сфере — распознавании образов слов и фраз.
Для вьетнамского языка серьезной проблемой для автоматической обработки является отсутствие достаточно полных словарей вьетнамских слов и вьетнамскоязычных корпусов текстов. На протяжении долгого времени вьетнамские, а также иностранные специалисты, решали эту проблему вручную. Однако построение списка слов вручную требует колоссальных усилий и все же не обеспечивает полноты словаря. Одна из причин этого — широкое использование вьетнамского языка в различных сферах со специальными словами, которые редко используется. Другая — в различных регионах используются разные диалекты и словосочетания. Кроме этого, условия жизии быстро меняются. С развитием новых технологий и увеличением объемов информации постоянно расширяется лексикон вьетнамского языка. Например, новые слова: Интернет, айфон и т. п. надо включать в словари как новые понятия. Все эти причины делают процесс построения списка вьетнамских слов вручную трудновыполнимым. По последним данным самый полный вьетнамский словарь содержит только 75 ООО слов, но в реальности по оценке специалистов количество вьетнамских слов насчитывает уже более 200 ООО. Это означает, что более половины вьетнамских слов нигде не сохранены. Цель и задачи работы. Создание математического обеспечения, реализующего методы распознавания образов для автоматической разметки текстов на вьетнамском языке, результаты применения которого могут быть использованы для дальнейшей обработки лингвистами или другими программными системами поиска и автоматического перевода.
Цель достигается в диссертации через решение следующих задач:
• разработка и обоснование математических статистических моделей распознавания образов вьетнамских слов и словосочетаний, создание на их основе математического обеспечения для сегментации предложений на слова и фразы, использующего методы теории вероятностей и математической статистики, а также алгоритмы обучения без учителя;
• разработка обеспечения методов графематического анализа вьетнамских текстов, основанных на статистических моделях распознавания образов вьетнамских слов, словосочетаний и фраз и на сопоставлении образцов в большом текстовом массиве данных, позволяющих эффективно выполнять процесс выделения различных лексем вьетнамского текста и присваивать им соответствующие гра-фематические дескрипторы;
• разработка и обоснование теоретико-вероятностной модели, использующей метод скрытых марковских моделей, для выполнения процесса морфологического анализа вьетнамских текстов;
• создание программной системы для автоматической обработки вьетнамских текстов и построение с ее помощью значительных наборов данных, включающих графематический, морфологический и статистический словари, а также аннотированный корпус вьетнамских текстов.
Методы исследования. В диссертации применяются методы распознавания образов, машинного обучения без учителя, теории вероятностей и математической статистики, имитационного моделирования и системного программирования.
Основные результаты. В работе получены следующие основные научные результаты:
1. Предложен, обоснован и реализован метод обучения без учителя для распознавания образов слов, словосочетаний и фраз во вьетнамских текстах, позволяющий производить сегментацию предложений на слова и фразы для последующей автоматической морфологической разметки вьетнамских текстов.
2. Разработано математическое и программное обеспечение, реализующее метод поиска образца, предназначенное для выделения различных лекссм вьетнамского текста и присваивания им соответствующих графематических дескрипторов. Исследованы статистические характеристики образования лексем вьетнамского текста.
3. Предложен и реализован метод скрытой марковской модели для распознавания морфологической структуры предложений во вьетнамских текстах, обоснован алгоритм оптимизации его параметров.
4. Разработана новая программная система для автоматической обработки вьетнамских текстов, с помощью которой сформированы гра-фематический, морфологический и статистический словари значительных размеров, а также аннотированный корпус вьетнамских текстов.
Научная новизна. Все основные научные результаты диссертации являются новыми.
Теоретическая ценность и практическая значимость. Теоретическая ценность работы состоит в разработке, обосновании и реализации новых алгоритмов распознавания образов слов, сегментации предложений на слова и фразы, а также автоматической морфологической разметки вьетнамских текстов.
Предложенные новые алгоритмы могут быть эффективно использованы при решении практических задачах обработки текстов на вьетнамском языке, а также на ряде других (китайском, японском, корейском и т. п.). Созданный программный комплекс для автоматической обработки вьетнамских текстов может быть использовать лингвистами для дальнейшего изучения языка. Результаты автоматической обработки текстов, получаемые с помощью разработанной системы, могут использоваться как лингвистами, так и в других системах поиска и автоматического перевода.
Апробация работы. Материалы диссертации докладывались на семинарах кафедры системного программирования математико-механического факультета СПбГУ и на международной конференции: The 2nd Asian Conference on Intelligent Information and Database Systems (Hue, Vietnamc, March 24-26, 2010).
Результаты диссертации были частично использованы в работе по НИР из средств бюджета "Математическая модель распознавания и процессинга текстов на восточных языках на основе сегментации релевантных составляющих", выполняемой в СПбГУ.
Публикации. Основные результаты диссертации опубликованы в шести работах. Из них две публикации [24, 79] в изданиях из перечня ВАК. Работы [23, 24, 79] написаны в соавторстве. В работе [24] Граничину О.Н. принадлежит общая постановка задачи, а Ле Ч.Х. реализации и обоснования описываемых методов, создание демонстрационных примеров и программных средств. В работах [23, 79] Ле Ч.Х. предложил новые статистические методы распознавания образов и теоретико-вероятностную модель для автоматической сегментации предложений на вьетнамском языке, а его соавторы участвовали в подготовке наборов текстовых данных для апробации новых методов и выполнили часть работы по созданию и доработке нового словаря вьетнамских слов.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 105 источников. Текст занимает 102 страницы, содержит 10 рисунков и 11 таблиц.
Заключение диссертация на тему "Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке"
Основные результаты.
• Создана программа распознавания вьетнамских слогов. Программа по различению вьетнамских и иностранных слогов работает на основе правил структуры вьетнамских слогов, списков вьетнамских согласных и гласных. Список вьетнамских согласных содержит 27 согласных и список вьетнамских конечных звука включает в себя 719 шт. Программа работает только с отдельным слогом, не обращая внимания на соседние , поэтому в некоторых случаях такие иностранные слоги так 1ЧНе, а, ап, ту" ошибочно считаются вьетнамскими. Разрешению этой проблемы способствует повышение качества распознавания иностранных имен, названий, аббревиатур, а также проверки орфографических ошибок.
• Создана автоматически выполняемая программа проверки орфографии. Программа работает на основе списка орфографических ошибок, который включает в себя список слов или конечных звуков с часто встречающимися ошибками и соответствующими правильными вариантами. Список орфографических ошибок создается в процессе экспериментов. В табл. 4.2 представлены некоторые орфографические ошибки вместе с соответствующими правильными вариантами.
• Одним из важнейших результатов является разрешение проблемы распознавания некоторых структурных собственных имен, которая представляет собой традиционно сложную задачу. Это связано с априорной невозможностью описания в словаре всего спектра возможных имен. Модель использует 21 контекстное правило извлечения для распознавания собственных имен, в том числе 117 090 разных имен людей, 258 названий стран, 4 707 названий городов. В
Сл. с ошп, Пра. кор. ut uát uyyfn uyén bien bien diim diém yiép tiép
Сл. С ОШИ. Пра. кор. ut uät jet let chuyén chuyén dien dién xung súng
Сл. с ОШИ. Пра. кор. ау л аУ ieu ieu chyém chiím diíng dúng xuéi SUüi
Заключение
В заключение перечислим основные результаты диссертационного исследования:
1. Предложен, обоснован и реализован метод обучения без учителя для распознавания образов слов, словосочетаний и фраз во вьетнамских текстах, позволяющий производить сегментацию предложений на слова и фразы для последующей автоматической морфологической разметки вьетнамских текстов.
2. Разработано математическое и программное обеспечение, реализующее метод поиска образца, предназначенное для выделения различных лексем вьетнамского текста и присваивания им соответствующих графематических дескрипторов. Исследованы статистические характеристики образования лексем вьетнамского текста.
3. Предложен и реализован метод скрытой марковской модели для распознавания морфологической структуры предложений во вьетнамских текстах, обоснован алгоритм оптимизации его параметров.
4. Разработана новая программная система для автоматической обработки вьетнамских текстов, с помощью которой сформированы гра-фематический, морфологический и статистический словари значительных размеров, а также аннотированный корпус вьетнамских текстов.
Библиография Ле Чунг Хьеу, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Аношкина Ж. Г. Морфологический процессор русского языка // Бюллетень машинного фонда русского языка. Отв. редактор В.М. Андрющенко- М., 1996. Вып. 3. С. 53-57.
2. Антонов А. В., Ваглей С. Г., Мешков В. С., Суханов А. В. Кластеризация документов с использованием метаинформации // Труды международной конференции Диалог'2006. С. 38-45.
3. Апресян Ю. Д., Богуславский И. МИомдин Л. Л. и др. Лингвистический процессор для сложных информационных систем. — М.: Наука, 1992. — 256 с.
4. Бабина О. И. Специфика процедуры автоматического анализа текстов патентов на метод // Объединенный научный журнал. Декабрь 2004. №33(125). С. 62-66.
5. Гладкий A.B. Формальные грамматики и языки. — М., 1973. — 368 с.
6. Глебова И. И., Ву Дат Am. Начальный курс вьетнамского языка. Москва, ИМО, 1963. 244 с.
7. Граничин О. Н., Поляк В. Т. Рандомизированные алгоритмы оценивания и оптимизации при почти произвольных помехах. — М.: Наука. 2003. 291 с.
8. Дао Хонг Тху. К вопросу о синтаксисе научного стиля речи в целях изучения иностранного языка // Вьетнамская русистика. Вып. ХШ, Ханой, 2002. С. 32-38.
9. Дашенко А. И. Искусственный интеллект: Применение в интегрированных производственных системах. — М.: Машиностроение, 1991. 539 с.
10. Евдокимова И. С. Естественно-языковые системы: Курс лекций. -Улан-Удэ: Издательство ВСГТУ, 2006. 92 с.
11. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. — М.: Мир, 1976. — 165 с.
12. Захаров В. П. Корпусная лингвистика: Учебно-метод. пособие. — СПб., 2005. 48 с.
13. Захоров В.П. Поисковые системы Интернета как инструмент лингвистических исследований // Русский язык в Интернете. — Казань, 2003. С. 48-59.
14. Кобзарева Т. Ю., Латути Д. Г., Ноэюов И. М. Сегментация русского предложения // КИИ-2000. Труды конференции — М.: Физ-матлит, 2000. Т.1. С. 339-344.
15. Кобзарева Т. Ю., Лахути Д. Г., Ноэюов И. М. Модель сегментации русского предложения // Труды конференции Диалог'2001 — Аксаково, 2001. — Т.2. С. 185-194.
16. Кормалев Д. А., Кушев Е. П., Сулейманова Е. А., Трофимов И. В. Приложения технологии извлечения информации из текста: теория и практика // Прикладная и компьютерная математика: Вестник
17. Российского унив. дружбы народов. 2003. Серия 2. Вып. 1. С. 120— 127.
18. Кормалев Д. А. Обобщение и специализация при построении правил извлечения информации // Тр. Десятой нац. конф. по искусственному интеллекту с междунар. участием КИИ-2006, Обнинск, 25-28 сентября 2006 г.: ВЗт. М.: Физматлиг, 2006. - Т.2. С. 572579.
19. Ле Ч. X., Ле А. В., Ле Ч. К. Автоматическое выделение слов и словосочетаний из вьетнамских печатных текстов// Стохастическая оптимизация в информатике. 2008.,Вып. 4. С. 171-186.
20. Ле Ч. X., Граничин О. Н. Статистический способ выделения и словосочетаний из вьетнамских печатных текстов // Вестник. СПбГУ. 2009. Серия 10. Вып. 3. С. 161-169.
21. Ле Ч. X. Обучение без учителя и статистический подход для сегментации и распознавания вьетнамских слов // Стохастическая оптимизация в информагике. 2009. Вып. 5. С. 193-208.
22. Леонтьева Н. Н. Информационная модель системы автоматического перевода // НТИ. Сер. 2. М., 1985. - №10. С. 22-29.
23. Леонтьева Н. Н. Автоматическое понимание текста: системы, модели, ресурсы. Учебное пособие. — М.: Издательский центр Академия, 2006. — 304 с.
24. Леонтьева Н. Н. Корпусная лингвистика и системы автоматического понимания текста// Московский лингвистический журнал. 2006. - Т.9/1. - С. 5-15.
25. Мельчук И. А. Опыт теории лингвистических моделей Смысл-Текст. — М.: Наука, 1974. — 314 с.
26. Михаилян А. Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах / / НПЦ Интелтек Плюс. 2001 г. http: / / www.inteltec.ru / publish / articles / textan / natlang/shtml
27. Мхитарян T. T. Фонетика вьетнамского языка. — M., 1959
28. Налимов В. В. Вероятностная модель языка. — 2 изд. — М.: Наука. 1979. 303 с.
29. Найханова Л. В., Евдокимова И. С. Метод и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы: Монография. — Улан-Удэ: Изд-во ВСГТУ, 2004. — 148 с.
30. Найханова Л. В., Евдокимова И. С. Обзор методов синтаксического анализа етественно-языкового предложения // Тезисы VI конференции по проблемам информатизации региона ПИР'2000. — Красноярск. 2000. С. 77-80.
31. Нариньяни A.C. Лингвистические процессоры и представление знаний: Сб. науч. тр. Новосибирск: ВС СО АН СССР, 1981. — 138 с.
32. Ножов И. М. Прикладной морфологический анализ без словаря // КИИ-2000. Труды конференции — М.: Физматлит, 2000. — Т.1. С. 424-429
33. Ножов И. М. Процессор автоматизированного морфологического анализа без словаря. Деревья и корреляция // Труды конференции Диалог'2000. Т.2. С. 284-290.
34. Ножов И. М. Проектирование сегментационного анализатора русского предложения // КИИ-2002. Труды конференции — М.: Физматлит, 2002. — Т.1. С. 212-222.
35. Панфилов В. С. Грамматический строй вьетнамского языка. М., 1993 412 с.
36. Преображенский А. Б. Лингвистический процессор для реализации общения с базами данных // Изв. АН СССР. Техн. кибернетика. 1982. - №5. С. 121-129.
37. Рыков В. В. Корпус текстов как новый тип словесного единства ' // Труды Междурнар. семинара, Диалог-2003. — М.: Наука, 2003.1. С. 15-23.
38. Саввина Г. В., Саввин И. В. Лемматизация слов русского языка в применении к распознаванию слитной речи// Труды международного семинара по компьютерной лингвистике и ее приложениям Диалог'2001. Аксаково, 2001. - Т.2. С. 343-346.
39. Симаков К. В. Метод обучения модели извлечения знаний из естественно-языковых текстов// Вестник МГТУ. Приборостроение. 2007. №3. С. 75-94.
40. Симаков К. В. Модель извлечения знаний из естественноязыковых текстов// Информационные технологии. 2007. — №12. С. 57-63.
41. Седунов А. А. Модель графематического анализа в системе обработки естественного языка// Системный анализ и информационные технологии. Вестник. ВГУ.: Изд-во Воронежский государственного ун-та. 2007. №2. С. 69-77
42. Солнцев В. М. Введение в теорию изолирующих языков. — М.: Восточная литература РАН, 1995 — 352 с.
43. Тестелец Я. Г. Введение в общий синтаксис. — М., РГГУ, 2001. — 800 с.
44. Тузов В. А. Компьютерная семантика русского языка. — СПб.: Изд-во СПбГУ, 2003. 391 с.
45. Федоров Е. Е. Алгоритм синтаксического анализа предложения // Мат-лы Междунар. науч.-технич. конф. СуперЭВМ и многопроцессорные вычислительные системы. — Таганрог: Изд-во ТРТУ. — 2002. С. 343-346.
46. Федоров Е. Е., Шелепов В. Ю. Автоматическое определение начала и конца записи речи // Искусственный интеллект. — 2002. — №4. С. 295-298.
47. Хашан Т. С. Сегментация речевого сигнала // Искусственный интеллект. 2002. — №3. С. 450-458.
48. Abramson N. M. Information Theory and Coding. McGraw-Hill, New York. 1963. 201 p.
49. Bahl L., Mercer E. L. Part-of-speech assignment by a statistical decision algorithm // IEEE International Symposium on Information Theory, 1976. P. 88-89.
50. Baker L. D., Mccallum, A. K. Distributional clustering of words for text categorization //In Proceedings of the 21st, Annual International Conference on Research and Development in Information Retrieval (SIGIR'98), 1998. P. 96-103.
51. Baum L.E\ An inequality and associated maximization technique in statistical estimation on probabilistic functions of a markov process // IEEE Transactions on Pattern Analysis and Machine Intelligence. V.22, Issue: 4, April 2000. P. 371-377.
52. Berger A., Pietra, S. D., Ptetra V. D. A maximum entropy approach to natural language processing // Computat. Ling. 22. 1996. P. 39-71.
53. Brants T. TNT — a statistical part-of-speech tagger //In Proceedings of the 6th Applied NLP Conference (ANLP-2000), Seattle, WA, 2000. P. 224-231.
54. Brill E. Transformation-based error-driven learning and natural language processing: a case study in part of speech tagging // Computational Linguistics. 1995. P. 543-565.
55. Brill E. Some advances in transformation-based part of speech tagging //In Proceedings of A A AI-94, 1994. P. 722-727.
56. Brill E. Unsupervised learning of disambiguation rules for part of specch tagging // In Processing of the 3rd Workshop on Very Large Corpora. Kluwer Academic Press, 1997. P. 1-13.
57. Brill E. Automatic grammar induction and parsing free text: A transformation-based approach //In Processing of the 31st Annual Meeting of the Association for Computational Linguistics, 1993. P. 259265.
58. Cao X. H. Some preliminaries to the syntactic analysis of the Vietnamese sentence //In Proceeding of the Prague Congress of 1990. P. 137-152.
59. Cao X. H. Vietnamese — Some questions on phonetics, syntax and semantics. Nxb Giao due, Hanoi. 2000.
60. Church K. W., Hanks P., Gale W., Hindle D. Using statistics in lexical analysis // In Zernik Lexical Acquisition: Exploiting On-Line Resources to Build a Lexicon. Lawrence Erlbaum Associates, New Jersey, 1991. P. 115-164.
61. Church K. W., Rau L. F. Commercial applications of natural language processing // Communications of the ACM. 1995. — V.38, Ml. P. 7179.
62. Covington M. A. A fundamental algorithm for dependency parsing // In Proceeding of the 39th Annual ACM Southeast Conference. ACM. New York, 2001. P. 95-102.
63. Cutting D.} Kupiec J., Pederson J., Sibun P. A practical part-of-speech tagger //In Proceeding of the Third Conference on Applied Natural Language Processing, ACL, TYento, Italy, 1992. P. 133-140.
64. Dien D., Idem H., Toan N. V. Vietnamese word segmentation // The Sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan. 2001. P. 749-756.
65. Dinh Le Thu. Structure of Vietnamese phonetics. — VNU-HCMC. 1999.
66. Dmitry Z., Chinatsu A. Kernel methods for relation extraction // Journal of Machine Learning Research 3, 2003. P. 1083-1106.
67. Eugene Charniak Statistical Language Learning. The MIT Press, 1993. 170 p.
68. Foo S., Li H. Unsupervised Chinese word segmentation and its effect on information retrieval // Information Processing and Management: An International Journal, 2004. 40(1): P. 161-190.
69. Frederick Jelinek Statistical Methods for Speech Recognition. The MIT Press, 1997. — 283 p.
70. Giap N. T. Til viing hoc tieng Viet. H., Nxb DH va THCN, 2003. — 389 p.
71. Gruñe D., Jacobs C. Parsing techniques: A practical guide. Vrije Universiteit, Amsterdam, 1990. — 318 p.
72. Ha L. A. A method for word segmentation in Vietnamese //In Proceedings of Corpus Linguistics, Lancaster, UK. 2003. P. 282-287.
73. Herve Dejean. Learning rules and their exceptions // Jounrnal of Machine Learning Research 2, 2002. P. 669-693.
74. Kanevsky D. A generalization of the Baum algorithm to functions on non-linear manifolds //In Proceedings Internat. Conf. On Acoustics, Speech and Signal Processing, Detroit, MI, 1995. — V.l. P. 473-476.
75. City, Vietnam, March 24-26, 2010. Proceedings, Part II" / Ngoc Thanh Nguyen, Manh Thanh Le and Jerzy Swiatek editors. Vol. 5991 — Springer, 2010. P. 195-204.
76. On-line. http://www.springeiiink.com/content/7q97147rl8158844/
77. Le H. P., Nguyen T. M. H.r B.oussanaly A., Ho T. V. A hybrid approach to word segmentation of Vietnamese texts // In 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain. 2008. P. 240-249.
78. Joachims T. Text categorization with support vector machines: Learning with many relevant features // European Conferences on Machine Learning ECML'98. 1998. P. 137-142.
79. Jurafsky D. S.} James H. M. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prectice Hall, Englewood Cliffs, New Jersey, 1999. — 934 p.
80. Manaris B. Z. Natural Language Processing: A human-computer interaction perspective // Advances in Computers, Academic Press, New York, 1998. V.47. P. 1-66.
81. Manning C., Schutze H. Foundations of Statistical Language processing. The MIT Press, 1999." — 718 p.
82. Megyesi B. Shallow parsing with pos taggers and linguistic features // Journal of Machine Learning Research 2, Sweden, 2002. P. 639-668.
83. Mikheev A. Automatic rule induction for unknown word guessing //In Computational Linguistics, 1997. — V.23(3) P. 405-423.
84. Mitchell P. M. Building a large annotated corpus of English: The Penn Treebank //In Computational Linguistics, 1993. P. 313-330.
85. Nakagawa T., Kudoh T., Matsumoto Y. Unknown word guessing and part-of-speech tagging using support vector machines //In Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium, 2001. P. 325-331.
86. Nguyen H., Vu T., Tran N., Hoang N. Internet and genetics algorithm-based text categorization for documents in Vietnamese // In Proceedings of 3rd International Conference Research, Innovation and Vision of the Future. 2005. P. 168-172.
87. Orphan os G. S., Christodoulakis D. N. POS disambiguation and unknown word guessing with decision trees //In Proceedings of the ninth conference on European chapter of the Association for Computational Linguistics, Bergen, Norway, 1999. P. 134-141.
88. Palmer, David. A trainable rule-based algorithm for word segmentation // In Proceedings of ACL. Madrid. 1997. P. 321-328.
89. Sag I. A., Wasow T. Syntactic Theory: A Formal Introduction. Stanford University, 1999. — 475 p.
90. Shannon C. E. A mathematical theory of communication // Bell System Technical Journal. 1948. V.27 P. 379-423.
91. Shankar S., Karypis G. Weight adjustment schemes for a eentroid-based classifier // Text Mining Workshop on Knowledge Discovery in Data (KDD'OO). 2000.
92. Sproat R., Shih C. A statistical mathod for finding word boundaries in Chinese text // Computer Processing of Chinese and Oriental Languages, 1990. P. 336-351.
93. Sproat R,., Shih C., Gale W., Chang N. A stochastic finite-state word-segmentation algorithm for Chinese // Computational Linguistics, 1996. — V.22(3). P. 377-404.
94. Stein B., Meyer zu Eissen S. Document categorization with MajorClust //In Proceedings of the 12th Workshop on Information Technology and Systems (WITS-02). Barcelona, Spain: 2002. P. 91-96.
95. Thede S. Tagging Unknown Words using Statistical Methods. Purdue University, 1998.
96. Thede S. M., Harper M. P. Second-order hidden Markov model for part-of-speech tagging //In Proceedings of the 28th Annual Meeting of the Association for Computational Linguistics, June 1999. P. 175
97. Van Guilder L. Automated Part of Speech Tagging: A Brief Overview.
98. Department of Linguistics, Georgetown University, 1995.
99. Vasilakopoulos A. Improved unknown word guessing by decision tree induction for POS tagging with TBL //In Proceedings of CLUK 2003.1. Edinburgh, 2003.
100. Viterbi A. J. Error bounds for convolutional codes and an asymptotically optimal decoding algorithm Recognition // IEEE Trans. Informat. Theory, 1967. V.IT(13). P. 260-269.182.
-
Похожие работы
- Проектирование математического обеспечения для автоматизированной системы распознавания печатных документов на вьетнамском языке
- Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи
- Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями
- Исследование особенностей работы эхоподавляющих устройств на сети мобильной связи Вьетнама
- Выявление голосовых признаков индивидуальной информативности для использования в речевых системах управления доступом
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность