автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний
Автореферат диссертации по теме "Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний"
т
На правах рукописи Гильмуллин Ринат Абрекович
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ В МНОГОЯЗЫКОВЫХ СИСТЕМАХ ОБРАБОТКИ ДАННЫХ НА ОСНОВЕ АВТОМАТОВ КОНЕЧНЫХ СОСТОЯНИЙ
05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Казань-2009
003489525
Работа выполнена на кафедре теоретической кибернетики государственного образовательного учреждения высшего профессионального образования «Казанский государственный университет им. В.И. Ульянова-Ленина»
Научный руководитель:
Научный консультант:
академик АН РТ,
доктор технических наук, профессор Сулейманов Джавдет Шевкетович
доктор физико-математических наук, доктор технических наук, профессор [Бухараев Раис Гатич
Официальные оппоненты: доктор физико-математических наук,
профессор
Елизаров Александр Михайлович
доктор технических наук, профессор Соснин Пётр Иванович
Ведущая организация:
Московский государственный университет, НИВЦ, г. Москва
Защита состоится «21» января 2010 г. в 16:00 на заседании диссертационного совета Д 212.081.24 при Казанском государственном университете им. В.И. Ульянова-Ленина по адресу: 420008, г. Казань, ул. Кремлевская, д. 18, конференц-зал научной библиотеки им. Н.И. Лобачевского.
С диссертацией можно ознакомиться в научной библиотеке им. Н.И. Лобачевского Казанского государственного университета. Автореферат разослан « //» 2009 г.
Учёный секретарь диссертационного совета, к. ф.-м. н., доцент ^ Еникеев А.И.
Общая характеристика диссертации
Актуальность проблемы. В системах обработки естественно-языковых (ЕЯ) текстов, таких как системы машинного перевода, системы автоматизированной коррекции текстов, системы многоязыкового поиска в локальных базах данных и сети Интернет, значительное место занимает процесс математического моделирования лингвистических структур для эффективной целевой обработки данных. Существенные результаты в этих областях получены в работах российских и зарубежных исследователей Д.А. Поспелова, И.А. Мельчука, В.Ф. Хорошевского, Г.С. Осипова, Ю.Д. Апресяна, И.М. Богуславского, Л.Л. Цин-мана, Л.Л. Иомдина, A.C. Нариньяни, М.Г. Мальковского, Б.В. Доброва, Н.В. Лукашевич, Т.А. Гавриловой, Р.Г. Бухараева, Д.Ш. Сулейманоза, П.И. Соснина, O.A. Невзоровой, С.А. Шарова, Ю.Р. Валькмана, Н. Хомского, Р. Каплана, М. Кея, К. Коскенниеми и др.
Математическое моделирование лингвистических структур (разработка математических лингвистических моделей) - это, по сути, научно-прикладная область фундаментальных исследований для анализа, синтеза, интерпретации и трансформации ЕЯ текстов'. Построение систем обработки данных (СОД) на основе универсальных лингвистических моделей практически невозможно ввиду отсутствия универсальной, или даже достаточно полной формальной модели какого-либо языка, и сложности вычислительной реализации универсальных СОД (в общем случае задача является NP полной).
Одним из способов повышения эффективности построения СОД является концепция прагматически-ориентированного подхода к разработке математических лингвистических моделей, определяющий минимальный набор средств
1 Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин и др. Лингвистический процессор для
сложных информационных систем. М.: Наука, 1992.
3
для решения определенного круга лингвистических задач, исходя их принципа достаточности2.
Прагматически-ориентированный подход к построению лингвистических моделей это, прежде всего, концептуально-инструментальная технология, которая позволяет, с одной стороны, осуществлять адекватный подбор средств эффективной обработки ЕЯ-текста, с другой стороны, детерминировать контекст и управлять формированием образа генерируемого или распознаваемого ЕЯ-текста.
В частности, вычислительная сложность разработки алгоритмов может быть снижена за счет учета специфики языковых данных, уровней детализации и глубины разработки математических лингвистических моделей различных языковых уровней. Предметом исследования в диссертации являются математические лингвистические модели родственных языков (на примере тюркских языков), которые характеризуются общим набором параметров описания на всех языковых уровнях. Параметры морфологической модели родственных языков во многом определяют параметры синтактико-семантической модели предложения. Следовательно, актуальной и перспективной является задача разработки математических лингвистических моделей и базовых программных технологий обработки текстов для многоязыковых систем обработки данных одной языковой группы.
Цель и задачи исследования. Целью диссертационной работы является исследование, разработка и реализация математических лингвистических моделей и программного обеспечения систем и технологий обработки многоязыковой информации.
Для достижения поставленной цели в рамках диссертационной работы решаются следующие основные задачи:
2 Сулейманов Д.Ш. Системы и информационные технологии обработки естественно-
языковых текстов на основе прагматически-ориентированных лингвистических моделей. Диссертация на соискание ученой степени доктора технических наук. 2000.
4
■ Исследование и разработка автоматной модели лингвистических формализмов на примере татарской морфологии;
■ Реализация программных модулей генерации и распознавания морфологии тюркских языков;
■ Разработка формальных семантических моделей аффиксальных морфем на основе объектно-предикативных схем и проведение сопоставительного анализа семантических схем для тюркских языков;
■ Разработка формальной модели перевода на основе алгоритмов машинного
обучения, использующих шаблоны переводных соответствий тюркских языков;
■ Реализация программных модулей системы машинного перевода тюркских
языков.
Объект исследования. Объектами исследования являются:
1) Двухуровневая автоматная модель морфологии тюркских языков;
2) Объектно-предикативные схемы для формальных семантических моделей аффиксальных морфем тюркских языков;
3) Формальная модель перевода на основе алгоритмов машинного обучения.
Как отмечалось выше, предметом исследования являются математические лингвистические модели родственных языков на примере татарского и турецкого языков. Выбор этих языков обусловлен их общими типологическими характеристиками, в частности, общей регулярной морфологией, а также общими структурно-функциональными моделями предложений, что является существенным для перевода.
Научная новизна результатов. В процессе исследований получены следующие новые научные результаты, выносимые на защиту.
Полная компьютерная модель татарской морфологии в виде двухуровневой автоматной модели.
Программный инструментарий для морфологического анализа и синтеза татарских текстов на основе двухуровневой автоматной модели морфологии.
Формальные семантические модели аффиксальных морфем на основе объектно-предикативных схем.
Формальные модели перевода на основе алгоритмов машинного обучения, использующие шаблоны переводных соответствий тюркских языков.
Алгоритмы машинного обучения для перевода пары тюркских языков.
Программные модули в составе системы татарско-турецкого машинного перевода.
Работа имеет принципиальную новизну, как в постановке задачи, так и в выборе методов решения поставленной задачи. Эффективность методов и подходов решения поставленной проблемы базируется, прежде всего, на комплексном использовании современных достижений в области искусственного интеллекта, математической лингвистики и компьютерных технологий, связанных с разработкой формальных моделей языка, теории и практики машинного перевода.
Практическая ценность полученных результатов.
Полученные результаты (разработанные математические лингвистические модели) успешно используются в учебном процессе в Казанском государственном университете и в Татарском государственном гуманитарно-педагогическом университете в учебных курсах "Представление и обработка знаний", "Математическая лингвистика" и др., в научных исследованиях, проводимых на факультете татарской филологии и истории КГУ и Института языка, литературы, искусства АНТ им. Г. Ибрагимова, а также в мультимедийных учебных разработках НИИ «Прикладная семиотика» Академии наук РТ и Казанского государственного университета. Разработанные программные модули татарской морфологии внедрены в состав системы оптического распознавания текстов FineReader компании ABBYY, а также в состав Университетской информационной системы РОССИЯ (НИВЦ МГУ) для поддержки многоязычного поиска в татарско-русской электронной коллекции текстов. Разработанная формальная модель турецкой морфологии используется в многоязычном электронном словаре ABBYY Lingvo хЗ.
Предложенная двухуровневая автоматная модель морфологии может быть использована в составе специализированных систем, таких как автоматизированное рабочее место лингвиста.
Одной из главных особенностей построенных систем, обеспечивающих ее эффективность и гибкость, является разделенное представление языконезави-симых и языкозависимых блоков. Это позволяет легко модифицировать лингвистическую базу системы, а также наполнять ее лингвистическими ресурсами, правилами, лингвистическими моделями другого языка, а также модифицировать программные модули без изменения лингвистических ресурсов.
Практические разработки и реализация результатов диссертации осуществлялись в рамках Государственной программы Республики Татарстан по сохранению, изучению и развитию языков народов Республики Татарстан.
Документы, подтверждающие внедрение и практическое использование результатов диссертации, прилагаются.
Методы исследования. При разработке и реализации двухуровневой автоматной модели морфологии использовались теория формальных грамматик и теория конечных автоматов.
Методы структурного и сопоставительного анализа, когнитивного моделирования и математической лингвистики применены при описании объектно-предикативных схем, используемых для перевода.
При разработке математических лингвистических моделей и программных модулей обработки многоязыковых данных использовались современные методы и технологии программирования.
Апробация работы. Результаты работ докладывались автором на международных конференциях и семинарах: на Международной конференции ЬР'2000 по типологии языков (Чехия, г.Прага, 2000), на научном семинаре по ЕЯ-процессорам в Белкентском университете (Турция, г.Анкара, 1997), на Международной конференции "КВ8" (Крым, г.Ялта, 1997), на международных семинарах по компьютерной лингвистике и ее приложениям ДИАЛОГ (г.Таруса, 1998, 1999, г.Протвино, 2000-2003), на Международной конференции "Языко-
7
вая семантика и образ мира" (г.Казань, 1997), на Международной конференции "Интерактивные системы: проблемы человеко-компьютерного взаимодействия" (г.Ульяновск, 2001, 2009), на Казанской школе-семинаре по компьютерной и когнитивной лингвистике TEL (г.Казань, 1999-2009), на Международном симпозиуме "LENCA-2" (г.Казань, 2004), на Международном симпозиуме «Языковые контакты Поволжья» (г. Казань, 2008), на телеконференции "Информационные технологии в гуманитарных науках" (КРУ, 1998), а также на различных республиканских и городских научных семинарах, итоговых научных конференциях КГУ и ИЯЛИ АНТ (1997-2009).
При непосредственном участии автора выполнено шесть научно-исследовательских грантов: 1) Грант Программы "Наука за стабильность" в рамках проекта TU-Language: "Татарский двухуровневый морфологический анализатор" (1996-1998 гг.). 2) Грант НИОКР АН РТ. "Разработка татарско-русского машинного переводчика регистрационных форм" (2001-2003 гг.). 3) Грант НИОКР АН РТ. "Компакт-диск с татарской локализацией об Академии наук Татарстана к 10-летнему юбилею АНТ" (2000-2001 гг.). 4) Грант НИОКР АН РТ "Машинный фонд татарского языка" (2002-2004 гг.). 5) Грант РФФИ (№ 04-06-97501) "Прикладная грамматическая модель татарского языка в задачах информационного поиска в многоязычных корпусах текстов" (2006 г.). 6) Грант РФИИ (№04-06-97501) "Экспериментальная загрузка многоязычной (русско-татарской) текстовой коллекции и адаптация соответствующих программных интерфейсов к татарскому языку на базе программных средств Университетской информационной системы "УИС РОССИЯ" (2007-2008 гг.).
За цикл работ по темам «Построение базовых программных модулей системы татарско-турецкого машинного перевода» и «Татарская локализация операционной системы Windows Vista и пакета Microsoft Office-2007» в 2004 и в 2008 годах соответственно Указом Президента Республики Татарстан и Постановлением Кабинета Министров Республики Татарстан результаты диссертации удостоены Республиканской премии молодых ученых в области «Информатика, вычислительная техника и автоматизация».
8
Инновационный проект «Татсофт 3: информационно-программный комплекс поддержки татарского языка в инфо-коммуникационных технологиях», включающий результаты исследований и разработок диссертанта, стал победителем на Республиканском конкурсе инвестиционно-венчурного фонда «50 лучших инновационных идей 2007 года для Республики Татарстан».
Основные результаты, полученные соискателем в рамках диссертационной работы, вошли в состав научно-образовательной темы «Научное, учебно-методическое и информационно-программное обеспечение реализации татарского языка как государственного в системе образования Республики Татарстан», удостоенной Государственной премии Республики Татарстан в области науки и техники за 2009 год.
Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка использованной литературы и шести приложений. Объем диссертации составляет 150 страниц, 20 таблиц, 15 рисунков.
Краткое содержание диссертации Во введении обоснована актуальность темы, сформулирована цель работы и определен перечень решаемых задач, указана их новизна, отмечены особенности подхода, раскрываемого в диссертационной работе, теоретическая и практическая ценность полученных решений и разработок, а также дан краткий обзор содержания по главам.
В первой главе дается аналитический обзор разработок и литературы по теме диссертации.
Проведен анализ систем и методов в области систем машинного перевода, который позволил сформулировать подход к разработке концепции и методологии программно-концептуальной прагматически-ориентированной технологии для создания систем машинного перевода тюркских языков.
На основе аначиза формальных моделей и средств обработки ЕЯ-текстов сделан вывод о том, что двухуровневая автоматная модель морфологии, являющаяся прагматически-ориентированной формальной моделью, может быть
эффективно использована при разработке систем машинного перевода для тюркских языков.
Раскрывается постановка основных задач диссертации.
Во второй главе описывается математическая лингвистическая модель морфологии на основе двухуровневого формализма и программная реализация моделей в составе двухуровневого морфологического анализатора.
Двухуровневый формализм представляется в нотации двухуровневых правил, которые устанавливают законы соответствия между поверхностным и глубинным уровнями представления символов в зависимости от контекста реализации.
I. Представление двухуровневых правил конечными автоматами.
Основным механизмом представления двухуровневых правил в виде двухуровневой компьютерной модели является технология автоматов конечных состояний (АКС) в виде трансдьюсеров конечных состояний (ТКС). ТКС отличается от АКС тем, что оперирует над двумя входными последовательностями. Он распознает, действительно ли две последовательности являются соответствиями (т.е. переводами друг в друга).
Пример 1. Предположим, что первая входная строка для ТКС является цепочки языка Ь1, содержащего элементы д- и у и определенного как Ы={хуРх\п>0}. Правильно построенными цепочками для этого языка будут: хх, хух, хуух, хууух, и т.д. А в качестве второй входной строки определим цепочки языка Ь2, соответствующие цепочкам языка Ы, в которых каждое второе вхождение элемента^ заменятся на элемента.
На рисунке 1 показана диаграмма ТКС для примера 1. Единственное отличие диаграммы ТКС от диаграммы АКС заключается в том, что дуги помечены парами соответствий, содержащих символы обоих входных языков.
10
Рис. 1. Диаграмма ТКС соответствия между языками Ы и Ь2.
ТКС также могут быть представлены в виде таблиц конечных состояний, с той лишь разницей, что в заголовках столбцов будут указаны пары соответствий, такие как: х:х, у:у и >'.'г. Например, диаграмма, указанная на рисунке 1 может быть представлена в виде следующей таблицы конечных состояний:
X У У
X У z
1. 2 0 0
2. 4 3 0
3. 4 0 2
4: 0 0 0
1.1. Конструкция двухуровневых правил:
RULE L^SfFC^Q Правило RULE состоит из трех частей:
1) Lf:Sf - связь-соответствие, где Lf - это лексический символ, Sf — поверхностный символ;
2) F - оператор (функция переходов в ТКС), определяющий соответствие в зависимости от контекста. Имеется четыре типа оператора: =>, <=, <=> и /<=
F1) => означает, что соответствие проявляется только в этом окружении, но не всегда;
F2) <= означает, что соответствие в этом окружении проявляется всегда, но не только в этом окружении;
F3) <=> означает, что соответствие проявляется в этом окружении всегда и только в этом окружении;
F4) /<= означает, что соответствие никогда не проявляется в этом окружении.
3) С(_СГ - контекст, в котором допускается входное соответствие, где Q обозначает левый контекст, а Сг - правый контекст относительно входного соответствия.
При двухуровневом подходе фонология определяется как связь между лексическим уровнем глубинного представления слов и их реализации на поверхностном уровне.
2. Файл фонологических правил создается пользователем для описания алфавита языка и фонологических правил. Файл состоит из списка объявлений ключевых слов и соответствующего им содержания. В описании файла фонологических правил используются следующие элементы формализации:
ALPHABET — список символов, необходимых для полного представления алфавита того или иного ЕЯ.
NULL 0 - фонологический процесс, который удаляет или вставляет символы в двухуровневую модель соответствующие символу NULL; записываются как 0 (ноль).
ANY @ - обозначает любой символ из списка ALPHABET.
BOUNDARY i' - граничный символ. Обозначает границу слова - либо начало, либо конец.
SUBSET - используется для обозначения определенного множества символов.
RULE - стандартный идентификатор для двухуровневого правила.
END - признак конца файла фонологических правил.
Для описания файла фонологических правил татарского языка используется 47 правил, подробное описание которых приводится в разделах диссертации.
Ниже приведены примеры двухуровневых правил П1 и П2.
П1 - двухуровневое правило, описывающее морфофонемический процесс для сонорных звуков татарского языка:
(П1) RULE " Л:н <=> SONOR +:0 "35
Л Л Sonor + (5),
н @ Sonor 0 @
1: 0 1 2 1 1
2: 0 1 2 3 1
3: 1 0 2 1 1
Правило П1 означает, что лексический символ Л соответствует поверхностному символу л тогда и только тогда, когда ему предшествует сонорные со-
12
гласные из множества SONOR (и, м, ц ), определенные в разделе описания множеств файла фонологических правил. Благодаря этому правилу выводимы следующие поверхностные формы: сан+ЛАр ->саниар, урам+ЛАр -> урамнар, тац+ЛАр ->таннар.
П2 - описывает установление соответствия лексических символов кип поверхностным символам гиб соответственно.
(П2) RULE {к, п}:{г, 6} <=> @:VOWEL_ +:0 (С:0) @:VOWELJVOWEL_ +:0 |р [А:а|А:э] к | [Ы:ы|Ы:е]];
Правило П2 состоит из двух контекстов:
(а) [VOWEL|@:VOWELL +:0 (С:0) @:VOWEL
(б) VOWEL_ +:0 [р [А:а|А:э] к | [Ы:ы|Ы:е]];
Контекст (а) правила П2 утверждает, что лексический символ к
соответствует поверхностному символу г и лексический символ л соответствует поверхостному символу б, если:
1) слева направо им предшествует любой лексический символ, соответствующий любому поверхностному символу из множества гласных букв VOWEL.
2) справа налево от них следует символ +, соответствующий 0, после которого может встретиться любой символ из множества С, также соответствующий символу 0, далее следует любой лексический символ, соответствующий любому поверхностному символу из множества VOWEL.
Контекст (б) правила П2 утверждает, что лексический символ к соответствует поверхностному символу г и лексический символ п соответствует поверхостному символу б, если:
1) слева направо им предшествует любой лексический символ из множества VOWEL.
справа налево от них следует символ +, соответствующий 0, далее символ р, далее лексический символ А, соответствующий любым поверхностным символам а или э, далее символ к, за которым следует лексический символ Ы, соответствующий поверхностным символам ы или е. По данному правилу
выводимы следующие поверхностные формы: китап+Ым ->китабым, ка-лак+Ым -> калагым, встэ+Ып+рАк -> встэбрэк, ак+рАк-> аграк.
3. Файл морфотактических правил также является пользовательским файлом, который содержит список лексических единиц, и описание морфотактических правил. Лексическая единица может быть одной единственной морфемой (такой как корень, префикс или суффикс) или морфологическим комплексом слов (корень плюс префикс и суффикс). При распознавании слов лексические компоненты работают совместно с компонентами правил. Генеральной структурой лексикона является список объявлений ключевых слов. Множество действительных ключевых слов включает ALTERNATION, LEXICON, INCLUDE и END. Объявления могут встречаться в любом порядке за исключением того, что LEXICON должен объявляться после ALTERNATION. Обязательное единственное объявление - это LEXICON INITIAL; то есть, лексический файл как минимум должен содержать поддексикон, называемый INITIAL (начало).
Скелет файла ЛЕКСИКОН выглядит следующим образом: ALTERNATION End End LEXICON INITIAL
0 End "["
LEXICON End
0 # "J"
END
3.1. Файл морфотактических правил для татарского языка разработан на основе морфотактических схем, включая глагольные и номинативные парадигмы и определяет взаимосвязи между основой и аффиксальными группами. Например, фрагмент морфотактических правил для глагольных парадигм выглядит следующим образом:
ALTERNATION BEGIN VERBSPISOK {VERBSPISOK - список глагольных основ, являющихся начальным входом для анализатора}
Пример.
LEXICON VERBSPISOK
сана verb "V(caHa)" уйла verb "У(уйла)"
ALTERNATION verb {далее идет список аффиксальных классов, которые могут следовать за глаголом} REFLEX MODAL NOMINATIVE INFINITIVE PARTICIPAL CONTRARY IMPERATIVE REQUEST CONDITIONAL TENSES CONDJFUTURE1 End {указанные аффиксальные классы должны доопределяться далее вшоть до соответствующей группы аффиксов} ALTERNATION End End {признак конца присоединения аффикса или присоединение нулевого аффикса} LEXICON INITIAL О BEGIN "["
INCLUDE r_verb.Iex; { подключается файл, содержащий глагольные основы} LEXICON REFLEX {группа рефлексивных аффиксов}
В первой части лексикона приводится аффиксальная морфема, далее название класса морфем, которая может следовать за этим аффиксом. Третья составляющая отражает комментарии относительно данного лексического ввода. +Hn COUSATIVE "+REFLEXIVE(blH)" +HS CONTRARY "+REFLEXIVE(bIin)" LEXICON End 0 # "1"
END {признак конца файла Лексикон}.
Морфотактическая схема глагольных парадигм, приведенная на рисунке 2, построена с учетом грамматических категорий наклонения, времени, отрицания, залога, числа и лица глагола. Глагольная основа в словаре представлена в самой краткой форме татарских глаголов, т.е., в форме 2-го лица единственного числа повелительного наклонения: бар - 'иди', кил - 'приходи'. Все аффиксы в
схеме приведены в лексическом представлении (ЛП), то есть в зависимости от окружения они обретают разные поверхностные представления (ГШ). Пример.
ЛП: бар (иди)+ГАн кил (приходи)+ ГАн ПП: барган (сходил) килгэн (приходил)
Как видно из примера, здесь аффикс -ГАн проявляется в двух поверхностных формах: -ган и -гзн.
Рнс.2. Морфотакгическая схема глагольных парадигм Лексикон корневых лексем построен на основе современного татарского языка и состоит из 9 лексиконов, заполненных согласно соответствующих тре-
17
бованиям системы: Имена существительные (Nouns), Глаголы (Verbs), Прилагательные (Adjectives), Наречия (Adverbs), Местоимения (Pronouns), Числительные (Numerals), Послелоги (Postpositions), Союзы (Conjunctions), Междометия (Exclamations). Общий объем словаря - 25 900 корневых слов.
Двухуровневый морфологический анализатор построен с использованием грамматики конечных состояний и предназначен для распознавания и генерации словоформ. Рисунок 3 отражает структурно-функциональную схему анализатора.
бакча - ДАн КмЫ ^ .г,, •• бакчадапмы
сад+исх.п. +вопр. 1 11 ij I а и I из сада?
морфогактичсских правил фонологических правил
Рис. 3. Структурно-функциональная схема двухуровневого анализатора
Генератор, используя файл двухуровневых фонологических правил, лексическую запись, например, (бакча+ДАн+мЫ) переводит в поверхностную форму - (бакчадапмы). Распознаватель, используя оба файла - файл фонологических и файл морфотактических правил, словоформу (поверхностную форму), например, (бакчадан) раскладывает по составляющим и соответствующим им описаниям:(Сущ.(бакча)+[падеж.афф.(дам)]+[вопр.афф.(л<£/)]).
В третьей главе на основе анализа систем и методов в области автоматизированных переводчиков сделан вывод о том, что продуктивной и перспективной является концепция и методология программно-концептуальной праг-
матически-ориентированной технологии для создания переводчиков родственных языков.
Проводится сопоставительный анализ языков на основе объектно-предикативной системы отношений. Описывается методология сопоставления значений аффиксальных морфем на основе объектно-предикативной системы отношений, позволяющая, с одной стороны, эффективно выявлять те или иные различия на глубинном семантическом уровне, с другой стороны, строить лингвистические модели для применения в многоязычных системах обработки данных.
Известно, что значения морфем формируют некий контекст, который наиболее полно раскрывается в семантической ситуации, образуемой словосочетанием, причем каждый аффикс может использоваться в формировании различных контекстов.
Аффиксальные морфемы как минимальные значащие единицы языка, по определению имеют хотя бы одно значение, проявляющееся при использовании его в словоформе. В татарском и турецком языках, зачастую, в зависимости от окружения, аффиксальные морфемы имеют различные интерпретации, т.е. в зависимости от контекста обладают различными значениями, причем одна и та же ситуация не всегда передается одним и тем же классом морфем.
Структура отношений объектно-предикативной системы, используемая для формального представления значений татарских морфем, приведена на рисунке 4.
Для проведения сопоставительного анализа семантики аффиксальных
морфем татарского и турецкого языков разработаны специальные фреймовые модели описания объектно-предикативных ситуаций. Это позволяет наиболее полно отразить значения аффиксальных морфем в некотором фрагменте реального мира и строить лингвистические модели перевода, описывающие определенные ситуационные отношения.
Атрибутивные отношения представляют собой ситуации, которые не сочетаются с показателями времени и длительности и называются нединамическими ситуациями3.
Объектно-ориентированная система, принятая нами за базу сопоставления татарского и турецкого языков, подробно исследуется и описывается в монографии Сулейманова Д.Ш. и Гатиатуллина А.Р.4
Приведем примеры сопоставительного анализа на ряде атрибутивных отношений, которые представляются наиболее интересными в плане сопоставления рассматриваемых языков.
I) Пространственные отношения
Общий вид этих отношений выглядит следующим образом:
object1 —► relation —► object2 (Fj),
Здесь и далее Р| обозначает нумерацию абстрактных семантических схем, глубинных формул, относящихся к определенным типам отношений. <objecti> и <object2> - некоторые объекты, причем, <object,> находится в некотором отношении <reIation> к <object2>. '—- означает направленные отношения (связи) между объектами.
Для пространственных отношений введены следующие обозначения:
1. Совпадать в пространстве equal local
2. Быть справа right of
3. Быть слева left of
4. Быть спереди before of
5. Быть сзади after of
6. Наискосок Slanting
7. Пересекаться в пространстве cross
8. Касаться touch
9. Находиться на be on
10. Быть сверху above
11. Быть снизу below
12. Находиться в be into
Ниже приводится пример сопоставительного анализа для пространственного
отношения Ъе_оп в татарском и турецком языках:
3 Падучева Е.В. Семантические исследования (Семантика времени и вида в русском языке; Семантика наррати-ва). - М.: Школа «Языки русской культуры», 1996. - 464 с.
4 Сулейманов Д.Ш., Гатиатуллин А.Р. Структурно-функциональная компьютерная модель татарских морфем. -Казань: Фзн, 2003. - С. 55-115.
Таблица 1.
Татарский Турецкий 'Стул на столе'
Urwdiq osíáldá Sandafye masada
Ситуационные модели, отражающие соответствующие фразы в таблице 1,
имеют следующие представления:
Xi"" —► be on —Хгы (PSi"") X,tur -*■ be_on —► X2tur (PSitur)
где Xi1"^ Urmdiq, Х2Ы = ostál где ХГ= Sandafye, X2lur = masa
Здесь и далее PS¡'aI и PS¡tur - это нумерация ситуационных моделей, заполненных конкретными примерами из татарского или турецкого языков соответственно.
Рассмотрим модели перевода для выражения Ье оп.
Модель перевода для выражения пространственного отношения Ье_оп может быть представлена следующим образом:
PS,,at <-> PS,tur if
[X,al] <-> [ХГГ] and
[X2tat] <-> [X2'ur], где PS,tat =[X,tel Х2Ш +Case_Local(DE)], PS,tur = [X,tur X2lur +Case_Local(DA)]
Двусторонняя стрелка '<->' означает взаимо-однозначное соответствие составляющих модели.
Модель перевода означает, что ситуационные модели PSLtat татарского языка и PS[tur турецкого языка переводимы друг в друга, если выполняются следующие условия:
а) PSitat=[Xita' X2Bt+Case_LocaI(DE)],PS1tur = [X,tur X2tur+Сазе^Ьоса1(ОА)], при этом
б) значения абстрактных переменных Х/а1 и X2tat должны являться переводами X,tur и X2tur, соответственно.
Как следует их рассмотренных примеров, пространственное отношение be оп
в татарском и турецком языках задается при помощи присоединения к аргументу аффиксов Са5е_1оса1(£)Е) (локатив1) и С1оса1(ОА) (локатив1), соответственно.
Рассмотрим примеры сопоставительного анализа для пространственного отношения Ъе/оге_о/.
Таблица 2
Татарский 1 Турецкий 'Стул перед
Urindiq ostál aldinda | Sandalye masanin onünde столом'
Ситуационные модели фраз для выражения before_of описываются следующими схемами:
Xi'aI —► before_of—► X2lal (Р82и) ХГ -*- before_of-* X2,l,r (PS2to)
где Х,12^ Urmdiq, X2lal = ostál где X!lur= Sandalye, X2№ = masa
Рассмотрим модели перевода для выражения before_of.
Для этих примеров пространственное отношение before_of может быть
представлена следующей моделью перевода:
PS2tat <-> PS2tur
if
Х^ОХ," and
x2ta,<-> x2u,r где PS2tat = [X,la! X2!M +(Case_Gen(nHN)[0) a/+3POSS_Sing(ZH)+CLocal(DE)], PS2,ur = [Х[ШГХ2,иг +CGen(nHn) o«+P3sg(sH)+CLocal(DA)] Данная модель перевода означает, что ситуационные модели PS2ut татарского языка и PS2tttr турецкого языка переводимы друг в друга, если выполняются следующие условия:
а) PS2ut=[X,lat X2tat+(Case_Gen(nHN)|0) a/+3POSS_Sing(ZH)+CLocal(DE)],
а
PS/jr = [XiturX2,ur +CGen(nHn) dn+P3sg(sH)+CLocal(DA)], при этом
б) значения абстрактных переменных X¡tat и Х,ш должны являться переводами Xi'ur и X2tur, соответственно.
Как следует из примеров, отношение before_of для татарского языка выражается при помощи послеложной конструкции 'послелог (а!) + аффикс при-тяжательности + локатив'. В турецком языке это отношение выражается при помощи аналогичной конструкции, при этом, если в татарском языке зависимый аргумент Хг15' может и не конкретизироваться при помощи аффикса Case_Gen(nHn) (генетив), то в турецком языке он всегда конкретизируется. 2) Отношения классификации ,
Отношения классификации - отношения между двумя простыми или множественными объектами.
Данное отношение выглядит следующим образом:
object] —»■ class —object2 (F2)
Для отношений классификаций введены следующие обозначения:
1. Иметь класс name is
2. Класс-подкласс subclass of
3. Часть-целое part of
4. Элемент-класс element of
5. Вышестоящее-нижестоящее Lower
Рассмотрим соответствующие примеры с отношением element_of.
_____Таблица 3
Татарский Турецкий 'Студенты — одна га групп учащихся'
Studentlar — uquçilarnm ber tôrkeme Talipler - âgrencilenn bir grubudur
Фразам из таблицы 3 соответствуют следующие ситуационные модели:
Xitar—► element_of -> X2tur (PS3,ur) Xi'at eleraent_of—► X2ut (РЭз"1')
где Xilur= Talipler, Xj,ur = ogrenciler где Xiш= Studentlar, X2tol = uqugdar
Модель перевода для семантических схем PS3ta! и PS3lllr имеет следующий вид:
PS3tat <-> PS3,ur if
X,tet<->X,tur and
Xtat ^ ^ v tur 2 Л2 ,
где PS3tat = [X,M X2,at+(Case_Gen(nHN) ber ?dr*em+3Poss_Sing(ZH)],
24
PS3tur = [X/l,rX2tur+CGcn(nHn) bir gri(6+3Poss_Sing(sH)+DHr]
Модель перевода означает, что ситуационные модели РБз'а' татарского языка и PS3tur турецкого языка переводимы друг в друга, если выполняются следующие условия:
а) PS3tat = [Х,ш Х2Ш +(Case_Gen(nHN) ber ?öWcew+3Poss__Sing(ZH)], а PS3tur = X2,ur +CGen(nHn) bir grwb+3Poss_Sing(sH)+DHr], при этом
б) значения абстрактных переменных Xi01 и X]<at должны являться переводами X,tur X2,ur, соответственно.
Для татарского и турецкого языков отношение element_of выражается при помощи слов '6er törkem1 и 'bir grup\ падежных аффиксов CGen(nHN), CGen(nHn) и притяжательных аффиксов 3Poss_Sing(ZH), P3Sg(sH), устанавливающих конкретизирующие отношения между аргументами.
Рассмотрим примеры с отношением part_of.
Таблица 4
Татарский Турецкий | 'Рука мальчика'
Malaymn quit Erkek focugun eli j
Фразы из таблицы 4 отображаются в следующие ситуационные модели:
Х2и1—► part_of—► XiM (PS4Ia') X2tur part_of->- X,tur (PS/")
где Х2'" = qui, X,lat = Malay где X2tur = el, X,lur = Erkek gocuk
ps4tat<-> ps4tur if
Xital <-> хГг
and X2tat<-> X2tur,
где PS4ta' = [X,ut+Case_Gen(nHN) X2,aI +3Poss_Sing(ZH)], PS,'"1" = [Х,м +CGen(nHn) + X2tur +P3sg(sH)] Ситуационные модели PS4,2! и PS4tur переводимы друг в друга, если выполняются следующие условия:
a) PS4ut = [Xiut+Case__Gen(nHN) X2,at +3Poss_Sing(ZH)], a PS4,ur = +CGen(nHn) + Х2Ш +P3sg(sH)], при этом
б) значения абстрактных переменных X/125 и Х,м должны являться переводами Х,шг и X2tur, соответственно.
Отношение part of для обоих языков выражается при помощи одинакового типа падежных и притяжательных аффиксов Case_Gen(nHN), P3sg(ZH) и CG en(nHn), P3sg(sH), соответственно, в татарском и турецком языках.
3) Отношения принадлежности
Отношение принадлежности является отношением между двумя объектами и имеет следующий вид:
objecti —► belong —► object2 (F3) Рассмотрим пример сопоставительного анализа для отношения принадлежности belong.
Таблица 5
Татарский Турецкий ] 'Мой стул'
Minem urindiq Sandalyem |
Ситуационные модели для выражений из таблицы 5 с отношением belong имеют следующие представления:
Х2ш->belong(PS5M) X2to-+-part_of--*X,tur, (PSs'") где Х2'"= urindiq, = Min+em где Х2ШГ= Sandalye+m, X,lur = 0
Таким образом, модель перевода, выражающая отношение принадлежности для семантических схем PS5la' и PS5tur, будет иметь следующий вид:
PSjö! <-> PS5tur Х,ш = min
хГг = 0
x2tat <-> x2tur,
где PS5,at = [Xi'at +P1 sg(Hm) X2'at], PS5,ur = [X2tur +Plsg(Hm)] или PSs12' =[X,tat+Plsg(Hm)X2,at+Plsg(Hm)], PS5,ur= [X2tur+Plsg(Hm)] Таким образом, ситуационные PSs" и PSstur переводимы друг в друга, если выполняются следующие условия: а) PS5te' = [X,tat+Plsg(Hm) Х2и],а
PS5tur = [X2,ur +Plsg(Hm)] или PS5tat = [X,'at +Plsg(Hm) X^^PlsgCHm)], а PS5,ur= [Х2ШГ +Plsg(Hm)], при этом б) значение абстрактной переменной Х2Ш должно являться переводом Х2ШГ , а Xi0' = min и ХГ = 0 (пустое значение).
В отличие от татарского языка, в турецком языке при выражении отношения принадлежности между двумя объектами, если объект принадлежности является личным местоимением, само личное местоимение явно не присутствует и выражается лишь наличием аффикса притяжательное™. Отличительной особенностью турецкого языка является также и то, что группа слов, обозначающая названия родственных отношений, в любом контексте употребляется с аффиксом принадлежности.
В диссертации описывается метод и реализуется алгоритм машинного обучения (МО) для перевода в тюркских языках на основе механизмов сопоставления лексических уровней соответствий между языками. Обучающая выборка формируется из множества переведенных пар предложений.
Алгоритм МО предполагает существование моделей перевода, использующих сходные и различные части предложений между двумя переведенными парами (eb ej) из двух параллельных блоков. Формально, переведенный пример составлен из пары предложений, которые являются переводами друг друга из языка LI в язык L2, соответственно.
В двух данных переведенных парах (ei5 ej) мы пытаемся найти сходства между составляющими ei и ej. Предложения рассматриваются как последовательность лексических знаков (т.е. слов или морфем). Если не найдено никаких сходств, то на этих примерах модели не обучаются. Если есть сходные составляющие, то генерируется парная последовательность в следующей форме:
Л, d'o, s1],..., dVb s\, <—> s20, d20, s\,..., d2m.b s2m, где n, m >= 1 s1!! представляет сходства (последовательность общих знаков) между е\ и е1^. Подобным образом, d'k: (d\k, dJj>k) представляют различия между е1; и eJj, где
d\,k) «l'j.k непустые различные знаки между двумя сходными элементами slk и
27
в'к+х. Соответствующие различия не содержат общих знаков. Т.е., для <1к различия, <1|,к, <1)_к не содержат никаких общих знаков. Также, ни один общий знак сходности не появляется ни в одном ранее образованном различии ¿к, для всех к < 1. Любые из в'о, й1,.,, в20 или 52т могут быть пустыми, но для любого 0 < 1 < п и 0 < ] < ш, и не должны быть пустыми. Заметим, что между двумя образцами переведенных пар существует либо одно соответствие, либо ни одного. 4
На основе разработанных математических лингвистических моделей реализованы программные модули системы машинного перевода для тюркских языков, в частности, программные модули системы татарско-турецкого машинного перевода. На рисунке 5 приведена структурно-функциональная схема данного программного комплекса. Модульная структура программного комплекса содержит пользовательскую и алгоритмические части, при этом алгоритмическая часть является языконезависимой, что при необходимости позволяет строить модели перевода для разных языков.
5азз корме©»« ■
л аффиксальных й соответствуй.
Рис. 5. Структурно-функциональная схема татарско-турецкого машинного переводчика
Рассмотрим этапы обработки текста на примере татарско-турецкого перевода. Пусть на вход системы поступает следующая последовательность словоформ, образующая следующее предложение на татарском языке «Мин квзге юлдан бардым» 'Яходил по осенней дороге'. Ниже приведены результаты обработки данной последовательности в порядке выполнения модулей, указанном в структурно-функциональной схеме татарско-турецкого перевода:
1) Двухуровневый морфологический анализатор (ДМА) с функцией распознавания, используя файлы морфотактики и фонологических правил, выдает проанализированные словоформы с приписанными морфологическими характеристиками:
1.мин [Рго1_8^(мин)] 'Мест, (я)'
29
2.1. кезге [N(ks3) +CASE_POINT(rbI)] 'Сущ.(осенъ)+Пад.афф.принадл.(ГЫ)'
2.2. кезге [И(кезге)] 'Сущ.(зеркало)'
3. юлдаи [Ы(юл)+СА5Е_АВЦДАн)] 'Сущ. (дорога)+Исх. над. (ДАи)'
4.1. бардым [V(6ap)+P0ST_DAFWbI)+lPS_Smg(M)] Тл.(иди)+Прош.вр.(ДЫ)+1л.ед.ч.(м)'
4.2. бардым [N(6apÄ>+lPOSS_Smg(blM)] 1Сущ.(бард)+Прит. 1л.ед.ч.(Ым)'
2) Результат морфологического разбора словоформы, как видно из примера, имеет большое число лексических неопределенностей. Конструктор вариантов предложений формирует всевозможные варианты предложений:
а) [Prol_Sing(MHH)] [N(KB3)+CASE_POINT(rbI)] [N(km)+CASE_ABLWAh)] [V(6ap)+P OST_DAF(/lbI)+lPS_Smg(M)]
б) [ProljSing(Mm)] [N(ice3)+CASЕ_РОШТ(ГЫ)] [N(ion)+CASE_ABL^An)] [N(6apÄ)+lPOSS_Sing(blM)]
в) [Prol_Sing(MHH)] [N(K63re)] [N(wn)+CASE_ABLWAH)] [V(6ap)+POST_DAF(flb!)+l PS_Sing(M)]
г) [Prol_Smg(MHn)] [К(козге)] [N(kwi)+CASE_ABL(ÄAh)] [N(6apfl)+lPOSS_Sing(bIM)]
3) Все варианты предложений поступают на вход подсистемы МО, где осуществляется перевод путем выбора наиболее соответствующих моделей перевода.
Для предложенных вариантов подсистема МО выдаст единственную модель перевода в виде:
Мин X,uVCASEPOINT(rbI) Х2а1+СА5Е_АВЦДАн) Xi'ilt+POST_DEF(flbI)+lPS_Sing(M) <=> Ben X,lur Х2Ш +P3sg+Cabl X3te+ TAMlpast(DH)+Pl_sing(m) If Мин=Веп, Х,"" =Xi,ur and Х2Ш[ =X2":rand X3ul=X3№;
Далее происходит замена элементов модели перевода на базе аффиксальных И корневых соответствий: ben sonbaharyol+sH+DAnyürü+DH+m
4) Двухуровневый морфологический анализатор (ДМА) с функцией генерации, используя двухуровневые правила для турецкого языка выдаст следующую сгенерированную последовательность: ben sonbaharyolmdanyürüdüm
5) Модуль подготовки выходных данных позволяет выводить данные с соответствующим форматированием.
Программный комплекс реализован для операционной системы не ниже Windows'98 и представляет собой единый исполняемый модуль в объеме 680,5 КБ. Морфотакгическая база для татарского языка занимает 1664 КБ. Количест-
во двухуровневых автоматных правил для татарского языка составляет 47 правил. Количество лингвистических моделей перевода- 138 моделей.
Заключение
Диссертационная работа посвящена проблеме создания математических лингвистических моделей и их эффективной реализации. В процессе выполнения работы получены следующие результаты:
1. Разработана полная компьютерная модель татарской морфологии в виде двухуровневой автоматной модели.
2. Разработан программный инструментарий для морфологического анализа и синтеза татарских текстов на основе двухуровневой автоматной модели морфологии.
3. Разработаны формальные семантические модели аффиксальных морфем на основе объектно-предикативных схем.
4. Разработаны формальные модели перевода на основе алгоритмов машинного обучения, использующие шаблоны переводных соответствий тюркских языков.
5. Разработаны алгоритмы машинного обучения для перевода пары тюркских языков.
6. Реализованы программные модули в составе системы татарско-турецкого машинного перевода.
В Приложении 1 содержатся акты о внедрениях и справки об использовании программного комплекса, разработанного и реализованного в рамках данной диссертационной работы.
В Приложении 2 приводится полный файл двухуровневых автоматных правил.
В Приложении 3 приводится пример генерации словоформы с падежным аффиксом -ЛАр на базе описанных фонологических правил.
В Приложении 4 приводится полное описание файла морфотактических правил.
В Приложении 5 приводится демонстрационный пример выполнения функции распознавания для поверхностной формы: уйнарга ('играть').
В Приложении 6 приводятся лингвистические модели, полученные в результате выполнения алгоритма МО.
Список публикаций по теме диссертации
v
Публикации в рецензируемых журналах, рекомендованных ВАК:
1.Гильмуллин Р.А. Модуль обучающейся модели татарско-турецкого машинного переводчика // Вестник Казанского государственного технического университета им. А.Н.Туполева. - 2007, № 2(46) - С. 65-67.
Прочие публикации
2. Гильмуллин Р.А. Реализация контекстных соответствий Ы:ы, ЬР.е и Ы:0 в файле фонологических правил // Сборник трудов Математического центра имени Н.И. Лобачевского. Т.4. Компьютерная лингвистика. - Казань: УНИПРЕСС, 1999. -С. 51-58.
3. Гильмуллин Р.А. К разработке татарско-турецкого машинного переводчика // Труды Казанской школы-семинара по компьютерной и когнитивной лингвистике TEL-2001. Выпуск 6. - Казань: Из-во "Отечество", 2001, — С. 12-18.
4. Гильмуллин Р.А. Разработка файла морфотактических правил для глагольных групп татарского языка // Проблемы сохранения языка и культуры в условиях глобализации: Материалы VII Международного Симпозиума "Языковые контакты Поволжья" / Науч.ред. И.А.Гилязов. - Казань: КГУ, 2009. - С. 222-226.
5. Suleymanov D.Sh., Guilmullin R.A., Guilmy A.A. Two-level phonological rules of Tatar morphology // Научные труды YI международной конферен-
32
ции "Знания-Диалог-Решение". -Крым, Ялта. 15-20 сентября 1997. -С. 299305. (в соавторстве, 30% личного участия)
6. Сулейманов Д.Ш., Гильмуллин A.A., Гильмуллин P.A. Двухуровневое описание морфологии татарского языка // Тезисы Международной научной конференции, посвященной 200-летию университета: "Языковая семантика и образ мира". 7-10 октября 1997. Книга 2. - Казань: Изд-во КГУ. - С. 65-67. (в соавторстве, 30% личного участия)
7. Сулейманов Д.Ш., Гильмуллин A.A., Гильмуллин P.A. Файл фонологических правил татарского языка П Электронная конференция информационные технологии в гуманитарных науках 25-31 мая, 1998. - Казань: HTTP://www.kcn.ru/ tat ru/universitet/gum konf/ot7.htm. (в соавторстве, 50% личного участия)
8. Сулейманов Д.Ш., Гильмуллин A.A., Гильмуллин P.A. База морфо-тактических правил для татарского глагола как основа двухуровневого морфологического анализатора // Сборник трудов Международного семинара ДИАЛОГ-98. - Казань, 1-2 июня. - С. 597-609. (в соавторстве, 50% личного участия)
9. Сулейманов Д.Ш., Гильмуллин P.A. Реализация контекстных соответствий А:а, А: ä в файле фонологических правил // Сборник трудов Математического центра имени H.H. Лобачевского. Т.4. Компьютерная лингвистика. - Казань: УНИПРЕСС, 1999. - С. 127-137. (в соавторстве, 50% личного участия)
10. Сулейманов Д.III., Гильмуллин P.A. Реализация контекстных соответствий V:u, V: ü, V:0, Y:I и Y: ö в файле фонологических правил // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2000. Выпуск 5. - Казань: Из-во "Сэлэт", 2001, - С. 162-167. (в соавторстве, 50% личного участия)
11. Сулейманов Д.Ш., Гильмуллин P.A. Реализация контекстных соответствий Д:н, Д: д, Д:т, Л:н, С:с в файле фонологических правил // Сборник трудов Международного семинара ДИАЛОГ-2000: Компьютерная
33
лингвистика и её приложения. Т. 2. Прикладные проблемы. - Протвино, июнь. - С. 396-404. (в соавторстве, 50% личного участия)
12. Сулейманов Д.Ш., Невзорова О.А., Салимов Ф.И., Гильмуллин Р.А. Автоматизированный перевод документов в системах учета и регистрации: концептуально-алгоритмическая модель // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2001. - Казань: Из-во "Отечество", 2001, - С. 108-120. (в соавторстве, 30% личного участия)
13. Гильмуллин Р.А., Ишимов В.В. К разработке татарско-турецкого машинного переводчика // Компьютерная лингвистика и интеллектуальные технологии. Тр. Междунар. семинара Диалог'2002. Т.2.: Прикладные проблемы. - М.: Наука, 2002. - С. 133-138. http://dialog-21 .ru/archive article.asp?param=7544&y=2002&vol=6078. (в соавторстве, 70% личного участия)
14. Suleymanov D.Sh., Guilmoulline R.A., Guilmoulline A.A. Tatar phonological rules as a base of two-level morphological analyzer, in Proceedings of LP'2000, ed. B.Palek and O.Fujimura: 495-504 p., The Karolinum Press, Prague, (в соавторстве, 30% личного участия)
15. Гильмуллин Р.А., Минабова Э.К. Сопоставительный анализ семантики аффиксальных морфем в татарском и турецком языках на основе объектно-предикативной системы отношений // Международный симпозиум «Типология аргументной структуры и синтаксических отношений» Тезисы докладов. Казань, 2004. - С. 323-236. (в соавторстве, 70% личного участия)
16. Сулейманов Д.Ш., Гильмуллин Р.А., Сафина Л.Р. Использование компьютерных технологий в обучении: на примере обучающе-тестирующей программы «Морфологический анализатор» // Международный журнал «Образовательные технологии и общество», том 9,№4,2006.-Казань: http://ifets.ieee.org/russian/depository/v9J4/pdf77.pdf (в соавторстве, 30% личного участия)
17. Сулейманов Д.Ш., Невзорова О.А., Гатиатуллин А.Р., Гильмуллин Р.А., Аюпов М.М., Пяткин Н.В. Основные компоненты прикладной грамма-
34
тической модели татарского языка // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007» (Бекасово, 30 мая - 3 июня 2007 г.) / Под ред. Л.Л. Иомдина, Н.И. Лауфер, А.С. Нариньяни, В.П. Селегея. - М.: Изд-во РГГУ, 2007. 658 е.: ил. - С. 525-530. (в соавторстве, 25 % личного участия)
18. Сулейманов Д.Ш., Хакимов Б.Э., Гильмуллин Р.А. Из опыта татарской локализации ОС Windows и офисных приложений // Проблемы сохранения языка и культуры в условиях глобализации: Материалы VII Международного Симпозиума "Языковые контакты Поволжья" / Науч.ред. И.А.Гилязов. - Казань: КГУ, 2009. - С. 226-230. (в соавторстве, 30% личного участия)
19. Хакимов Б.Э., Гильмуллин Р.А. К разработке системы параметров морфологической разметки для электронного корпуса татарских текстов // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2008. - Казань: Казан, гос. ун-т, 2009. - С. 24-29. (в соавторстве, 50% личного участия)
20. D.Sh. Suleymanov, R.A. Gilmullin Comparative Analysis of Meanings of Affixal Morphemes in the Tatar and Turkish Languages for Machine Translation Tasks // Interactive Systems and Technologies: the Problems of HumanComputer Interaction. Volume III. - Collection of scientific papers. - Ulyanovsk: UISTU, 2009. - 312-320 p. (в соавторстве, 70 % личного участия)
Отпечатано с готового оригинал-макета в типографии Издательства Казанского государственного университета Тираж 100 экз. Заказ 99/12
420008, ул. Профессора Нужина, 1/37 тел.: 233-73-59,292-65-60
Оглавление автор диссертации — кандидата физико-математических наук Гильмуллин, Ринат Абрекович
ВВЕДЕНИЕ.
ГЛАВА 1. Аналитический обзор работ в области систем обработки естественно-языковых текстов.
1.1. Математические лингвистические модели.
1.1.1. Предыстория формальных систем обработки ЕЯ-текстов.
1.1.2. Классификация формальных систем.
1.1.3. Аналитический обзор методов в области машинного перевода
1.1.4. Концептуально-формальные модели морфологии.
ВЫВОДЫ.
ГЛАВА 2. Двухуровневая лингвистическая модель на основе автоматов конечных состояний.
2.1. Описание программно-инструментальной среды РС-К1ММО.
2.1.1. Структура и функции РС-К1ММО.
2.2. Разработка двухуровневых правил.
2.2.1. Связи и вероятные пары.
2.2.2. Конструкция двухуровневых правил.
2.2.3. Выполнение двухуровневых правил в виде автоматов конечных состояний.
2.3. Описание файла фонологических правил для татарского языка.
2.3.1. Структура и содержание файла правил.
2.3.2. Моделирование контекстных соответствий лексичеких и поверхностных уровней в файле правил как основы автоматов конечных состяний.
2.4. Описание файла лексических компонент.
2.4.1. Структура и содержание файла морфотактических правил.
2.4.2. Представление морфотактики в виде автоматов конечных состояний.
2.5. Файл морфотактических правил для татарского языка.
2.5.1. База морфотактических правил для татарского глагола.
2.5.2. База морфотактических правил для татарского имени существительного
2.5.3. Пример работы распознавателя.
ВЫВОДЫ.
ГЛАВА 3. Прагматически-ориентированная технология создания сис- 117 тем машинного перевода.
3.1. Концептуальный прагматически-ориентированный подход к соз- 117 данию многоязыковых систем обработки ЕЯ-данных.
3.2. Средства формального описания лексической семантики.
3.3. Формальная семантическая модель для описания значений аффик- 127 сальных морфем.
3.3.1. Отображение значений аффиксальной морфемы -ГА в формаль- 129 ной семантитческой модели.
3.3.2. Сопоставительный анализ значений татарских и турецких аффиксальных морфем на основе формальных семантических моделей.
3.4. Метод перевода на основе устойчивых схем переводных соответ- 146 ствий в системе татарско-турецкого машинного перевода.
3.4.1. Алгоритм построения эвристической модели перевода.
3.4.2. Программные модули системы татарско-турецкого машинного перевода.
ВЫВОДЫ.
Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Гильмуллин, Ринат Абрекович
Актуальность проблемы. В системах обработки знаний, таких как системы машинного перевода, информационно-поисковые системы, системы автоматизированной коррекции текстов и другие, важное место занимает проблема разработки формальных грамматических конструкций, представляющих собой прагматически-ориентированные математические модели естественноязыковых уровней, позволяющих строить эффективные лингвистических процессоры.
Лингвистические процессоры (ЛП) - это системы, которые анализируют, генерируют, интерпретируют и трансформируют естественно-языковые тексты. Сегодня можно констатировать, что специалистам так и не удалось построить универсальную систему обработки естественно-языковой информации, способную эффективно решать произвольную лингвистическую задачу, без специальной ее предварительной модификации, без перепрограммирования. Это, скорее, связано с тем обстоятельством, что, с одной стороны, не увенчались успехом попытки построения универсальной формальной лингвистической модели хоть какого-либо языка, с другой стороны, из-за того, что, очевидно, реализация такого лингвистического процессора на базе универсальных формальных моделей, даже в условиях применения современных технологий, будет неэффективной и малопригодной по временным и емкостным характеристикам.
Одним из способов повышения эффективности построения ЛП является прагматически-ориентированный подход к разработке лингвистических моделей [54], определяющий минимальный набор средств для решения определенного круга лингвистических задач, исходя их принципа достаточности.
Прагматически-ориентированный подход к построению лингвистических моделей, прежде всего, определяет концептуально-инструментальную технологию, которая, с одной стороны, детерминирует контекст и позволяет определить контуры и направлять формирование ожидаемого ЕЯ-текста, с другой стороны, помогает осуществлять адекватный подбор лингвистических и математических средств для эффективной обработки ЕЯ-текста, поступившего на вход ЛП.
В частности, эффективность системы обработки естественного языка может быть обеспечена еще на уровне формирования лингвистической и математической моделей, за счет учета близости структурных и типовых характеристик языков внутри одной языковой группы, за счет детальности и глубины разработки модели определенного языкового уровня в зависимости от целевой ориентированности разрабатываемой системы, а также от степени важности соответствующего языкового уровня в языковой системе.
Например, в тюркских языках, таких как татарский и турецкий языки, обладающих большим сходством на всех языковых уровнях, информация о морфологической структуре словоформ в предложении во многом характеризует таюке и синтаксическую и семантическую структуры всего предложения, и, соответственно, при построении ЛП важным представляется разработка лингвистической и математической моделей морфологического уровня.
Таким образом, актуальной и перспективной является задача разработки лингвистических и математических моделей обработки текстов в аспекте прагматически-ориентированного подхода и создания и использования многоязыковых систем обработки естественно-языковых текстов внутри одной языковой группы. В частности, применение двухуровневой модели морфологии является таким прагматически-ориентированным подходом к решению этой задачи.
Цель и задачи исследования. Целью диссертационной работы являются исследование, разработка и реализация математических и лингвистических моделей и программного обеспечения систем и технологий обработки многоязыковой информации.
Для достижения поставленной цели в рамках диссертационной работы решаются следующие основные задачи:
1. Анализ систем и технологий обработки естественно-языковой информации.
2. Исследование и математическое моделирование двухуровневых формализмов морфологической генерации и распознавание и реализация их на основе автоматов конечных состояний.
3. Разработка формальной системы в виде формальных семантических моделей для описания значений аффиксальных морфем и проведения сопоставительного анализа значений аффиксальных морфем естественных языков.
4. Разработка формальных моделей перевода на основе алгоритмов машинного обучения, использующих устойчивые схемы переводных соответствий языков.
5. Реализация программных модулей системы татарско-турецкого машинного перевода.
Объект исследования. Объектами исследования являются:
1) Двухуровневая автоматная модель лингвистических составляющих как основа морфологического анализатора и как формальная база машинного перевода родственных языков.
2) Эвристическая модель перевода (ЭМП), основанная на устойчивых схемах переводных соответствий языков.
3) Математические и лингвистические модели и программные модули поддержки перевода на основе ЭМП.
В данной работе в качестве лингвистического материала для содержательной иллюстрации и практической реализации математических моделей и системы машинного перевода используются татарский и турецкий языки. Выбор языков обусловлен тем, что эти языки, во-первых, как языки агглютинативного типа, обладая морфологией, богатой по составу, сложной по содержанию, но простой и регулярной по структуре, представляют большой интерес для пользователей и разработчиков эффективных средств хранения и обработки информации. Во-вторых, татарский и турецкий языки являются родственными языками, входящими в тюркскую группу языков, т.е. служат естественной иллюстрационной базой возможности прагматически-ориентированной технологии в системе перевода родственных пар языков. В-третьих, подобного рода исследования служат развитию рассматриваемых языков, в чем особенно нуждается татарский язык, являющийся вторым языком после русского языка по распространенности в России и государственным языком в Республике Татарстан, наряду с русским языком.
Научная новизна результатов. В процессе исследований получены следующие новые научные результаты, выносимые на защиту.
1. С помощью автоматов конечных состояний разработана и реализована двухуровневая модель морфологии татарского языка, относящаяся к классу прагматически-ориентированных концептуально-формальных моделей и представляющая собой полную компьютерную модель татарской морфологии.
2. Разработаны формальные семантические модели значений аффиксальных морфем на основе объектно-предикативной системы, отображающей реальные языковые ситуации, и на их базе проведен контекстно-сопоставительный анализ соответствия аффиксальных морфем переводимых пар языков.
3. Разработан алгоритм построения эвристических моделей перевода на основе параллельных текстов, представляющих собой устойчивые схемы переводных соответствий языков.
4. Разработана прагматически-ориентированная технология создания переводчиков для пары родственных языков и реализованы программные модули, используемые в системе татарско-турецкого машинного перевода.
Работа имеет принципиальную новизну как в постановке задачи, так и в выборе методов решения поставленной задачи. Эффективность методов и подходов решения поставленной проблемы базируется, прежде всего, на комплексном использовании современных достижений в области искусственного интеллекта, математической лингвистики и компьютерных технологий, связанных с разработкой формальных моделей языка, теории и практики машинного перевода.
Практическая ценность полученных результатов.
Полученные результаты в виде концепции эффективной реализации программ перевода родственных языков, методов сопоставительного анализа лингвистических составляющих на основе объектно-предикативной системы, средств морфологической маркировки произвольных текстов, как основы лин-гвопроцессоров и базы для научных исследований, двухуровневой модели морфологии, двухуровневого морфологического анализатора, а также программных средств поддержки татарско-турецкого перевода активно используются в учебном процессе в Казанском государственном (КГУ) и Казанском государственном педагогическом университетах в учебных курсах «Математическая лингвистика», «Прикладная лингвистика», в научных исследованиях учеными факультета татарской филологии и истории КГУ и Института языка, литературы, искусства АНТ им. Г. Ибрагимова, а также в мультимедийных учебных разработках НИИ «Прикладная семиотика» Академии наук РТ и Казанского государственного университета, в составе распознавателя текстов в OCR FineReader, в составе прикладной грамматической модели татарского языка, внедренной в Университетскую информационную систему (УИС) «Россия» (НИВЦ МГУ), позволяет эффективно поддерживать многоязычный поиск в татарско-русской электронной коллекции текстов, а также как программный инструмент описания турецкой модели морфологии в многоязычном электронном словаре Lingvo хЗ компании ABBYY.
Предложенная двухуровневая модель морфологии, относящаяся к классу прагматически-ориентированных концептуально-формальных моделей и представляющая собой полную компьютерную модель татарской морфологии, может быть использована не только в многоязыковых системах обработки данных и системах автоматизированной коррекции текстов, но и в составе специализированных АРМов, например, как программный инструмент изучения и развития морфологии татарского языка в составе АРМ лингвиста-исследователя, как программа разметки и лемматизации в составе АРМ лексикографа.
Одной из главных особенностей построенной системы, обеспечивающих ее эффективность и гибкость, является разделенность языконезависимых и язы-козависимых блоков. Это позволяет легко модифицировать лингвистическую базу системы, а также наполнять ее лингвистическими ресурсами, правилами, лингвистическими моделями другого языка, а также модифицировать программные модули без изменения лингвистических ресурсов.
Практические разработки и реализация результатов диссертации осуществлялись в рамках Государственной программы Республики Татарстан по сохранению, изучению и развитию языков народов Республики Татарстан.
Документы, подтверждающие внедрение и практическое использование результатов диссертации, находятся в Прилржениях.
Методы исследования. При разработке и реализации двухуровневой модели морфологии использовались теории формальных грамматик и конечных автоматов.
Методы структурного и сопоставительного анализа, когнитивного моделирования и математической лингвистики применены при описании объектно-предикативной системы для отображения контекста и установления взаимосвязей между лексическими единицами татарского и турецкого языков через эту систему.
При разработке лингвистических моделей и программных модулей обработки многоязыковых данных на их основе использовались методы алгоритмического моделирования, структурного и логического программирования.
Апробация работы. Результаты работ докладывались автором на международных конференциях и семинарах: на Международной конференции ЬР'2000 по типологии языков (Чехия, г. Прага, 2000), на научном семинаре по ЕЯ-процессорам в Белкентском университете (Турция, г. Анкара, 1997), на Международной конференции "К1)8" (Крым, г. Ялта, 1997), на международных семинарах по компьютерной лингвистике и ее приложениям ДИАЛОГ (г. Таруса, 1998, 1999; г.Протвино, 2000-2003), на Международной конференции
Языковая семантика и образ мира» (г. Казань, 1997), на Международной конференции «Интерактивные системы: проблемы человеко-компьютерного взаимодействия» (г. Ульяновск, 2001, 2009), на Казанских школах по компьютерной и когнитивной лингвистике TEL (г.Казань, 1999-2008), на Международном симпозиуме «LENCA-2» (г. Казань, 2004), на Международном симпозиуме «Языковые контакты Поволжья» (г. Казань, 2008), на телеконференции «Информационные технологии в гуманитарных науках» (КГУ, 1998), а также на различных республиканских и городских научных семинарах, итоговых научных конференциях КГУ и ИЯЛИ АНТ (1997 - 2009).
При непосредственном участии автора выполнено шесть научно-исследовательских грантов: 1) грант Программы «Наука за стабильность» в рамках проекта TU-Language: «Татарский двухуровневый морфологический анализатор» (1996- 1998 гг.); 2) грант НИОКР АН РТ «Разработка татарско-русского машинного переводчика регистрационных форм» (2001 -2003 гг.); 3) грант НИОКР АН РТ «Компакт-диск с татарской локализацией об Академии наук Татарстана к 10-летнему юбилею АНТ» (2000 - 2001 гг.); 4) грант НИОКР АН РТ «Машинный фонд татарского языка» (2002 - 2004 гг.); 5) грант РФФИ (№ 04-06-97501) «Прикладная грамматическая модель татарского языка в задачах информационного поиска в многоязычных корпусах текстов» (2006 г.); 6) грант РФФИ (№04-06-97501) «Экспериментальная загрузка многоязычной (русско-татарской) текстовой коллекции и адаптация соответствующих программных интерфейсов к татарскому языку на базе программных средств Университетской информационной системы УИС «Россия»» (2007 - 2008 гг.).
За циклы работ по темам «Построение базовых программных модулей системы татарско-турецкого машинного перевода» и «Татарская локализация операционной системы Windows Vista и пакета Microsoft Offíce-2007» в 2004 и 2008 годах, соответственно, Указом Президента Республики Татарстан и Постановлением Кабинета Министров Республики Татарстан диссертант был удостоен республиканской премии молодых ученых в области «Информатика, вычислительная техника и автоматизация».
Основные результаты, полученные соискателем в рамках диссертационной работы, вошли в состав научно-образовательного комплекса «Научное, учебно-методическое и информационно-программное обеспечение реализации татарского языка как государственного в системе образования Республики Татарстан», удостоенного Государственной премии Республики Татарстан в области науки и техники 2009 года.
Публикации. По результатам выполненных исследований опубликовано 20 работ, из них 16 в соавторстве.
Структура и объем работы. Работа содержит введение, 3 главы, заключение, список использованной литературы, 6 приложений.
Во введении обоснована актуальность темы, сформулирована цель работы и определен перечень решаемых задач, указана их новизна, отмечены особенности подхода, раскрываемого в диссертационной работе, теоретическая и практическая ценность полученных решений и разработок, а также дан краткий обзор содержания по главам.
В первой главе дается аналитический обзор разработок и публикаций по теме диссертации. Анализируются формальные модели и средства обработки ЕЯ-текстов и отмечается, что построение прагматически-ориентированных лингвистических моделей на основе двухуровневой модели морфологии может служить эффективным средством при разработке автоматизированных переводчиков родственных языков.
Дается анализ систем и методов в области автоматизированных переводчиков. Отмечается, что интересными и перспективными являются концепция и методология программно-концептуальной прагматически-ориентированной технологии для создания переводчиков родственных языков.
Ставится задача, решение которой описывается в данной диссертации.
Во второй главе описывается формальный аппарат двухуровневых правил, а также дается полное описание двухуровневой модели морфологии татарского языка и морфологического анализатора, относящегося к классу прагматически-ориентированных концептуально-формальных моделей.
Математическая лингвистическая модель морфологии реализуется на основе двухуровневых формализмов программного инструментария PC-KIMMO, модифицированного под задачи, решаемые в рамках данной диссертации. Двухуровневые правила реализованы с помощью автоматов конечных состояний. Математическая модель морфотактических правил является двунаправленной и реализована на основе трансдьюсоров конечных состояний, представляющих собой разновидность АКС.
Отмечается, что морфологический анализатор, созданный на основе двухуровневой модели морфологии и являющийся составной частью системы татарско-турецкого машинного перевода, может быть использован в качестве морфологического модуля в составе других систем обработки естественноязыковой информации, а также как программный инструмент изучения и развития морфологии татарского языка. В частности, в настоящее время модуль татарского морфологического анализа внедрен в такие программные продукты, как УИС «Россия» (НИВЦ, МГУ), Lingvo хЗ (ABBYY, г. Москва).
В главе 3 даются анализ и описание формальных семантических моделей значений аффиксальных морфем, используемых для проведения сопоставления аффиксальных морфем переводимых пар языков. Формальные семантические модели построены на основе объектно-предикативной системы представления прагматически-ориентированных контекстов. Здесь же описывается алгоритм построения эвристичеких моделей перевода, который является обобщением метода шаблонного перевода на основе параллельных текстов. Дается описание основных модулей системы татарско-турецкого машинного перевода и приводится ряд иллюстрационных примеров функционирования системы. Отмечается, что модульная структура программного комплекса содержит пользовательскую и алгоритмические части, при этом алгоритмическая часть является язы-конезависимой, что при необходимости позволяет строить модели перевода для разных языков.
В заключении приводятся основные результаты, полученные в рамках данной диссертационной работы. Отмечается, что разработанная двухуровневая модель морфологии татарского языка, относящаяся к классу прагматически-ориентированной концептуально-формальной модели, представляет собой полную компьютерную модель татарской морфологии. Морфологический анализатор, построенный на ее основе, имеет широкое практическое применение в составе реальных коммерческих приложений.
В Приложении 1 содержатся акты о внедрениях и справки об использовании программного комплекса, разработанного и реализованного в рамках данной диссертационной работы.
В Приложении 2 приводится полный файл двухуровневых правил на основе автоматов конечных состояний.
В Приложении 3 приводится результат генерации словоформы с падежным аффиксом -ЛАр на базе описанных фонологических правил.
В Приложении 4 приводится описание файла морфотактических правил.
В Приложении 5 приводится результат выполнения функции распознавания поверхностной формы:уйнарга ('играть').
В Приложении 6 приводятся формальные семантические модели для описания значений аффиксальных морфем на основе объектно-предикативной системы как основы разработки таблицы соответствия между аффиксальными морфемами, а также лингвистические модели, полученные в результате выполнения алгоритма построения ЭМП.
Заключение диссертация на тему "Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний"
ВЫВОДЫ
1. Разработана технология машинного перевода родственных пар языков на основе двухуровневых моделей морфологий, таблиц соответствия аффиксальных морфем и эвристических моделей перевода.
2. Разработан комплекс формальных семантических моделей для описания значений аффиксальных морфем на основе объектно-предикативной системы представления прагматически-ориентированных контекстов.
3. Разработана и реализована таблица соответствия аффиксальных и корневых морфем на основе формальных семантических моделей для описания морфем.
4. Разработан и реализован алгоритм построения эвристичеких моделей перевода как обобщение метода шаблонного перевода на основе параллельных текстов.
5. Разработаны и реализованы программные модули татарско-турецкого машинного перевода простых предложений.
ЗАКЛЮЧЕНИЕ
Диссертационная работа посвящена математическому моделированию лингвистических структур для эффективной прагматически-ориентированной обработки данных. Особенностью исследований является использование для построения лингвистических моделей методов нечисленной, структурной математики, то есть таких разделов математики, как теории формальных языков, алгоритмов, автоматов.
В процессе выполнения работы получены следующие новые результаты:
1. Разработана и реализована с помощью автоматов конечных состояний двухуровневая модель морфологии татарского языка, относящаяся к классу прагматически-ориентированных концептуально-формальных моделей и представляющая собой полную компьютерную модель татарской морфологии. Морфологический анализатор, построенный на ее основе, имеет широкое практическое применение в составе реальных коммерческих приложений.
2. Разработаны формальные семантические модели значений аффиксальных морфем на основе объектно-предикативной системы, отображающей реальные языковые ситуации. Формальные семантические модели, заполненные соответствующими аффиксальными значениями для конкретных переводных пар языков, являются эффективной технологией для создания таблиц соответствия аффиксальных морфем.
3. Разработан и реализован алгоритм построения эвристических моделей, представляющих собой устойчивые схемы переводных соответствий языков перевода, как обобщение метода перевода на основе параллельных текстов.
4. Разработана прагматически-ориентированная технология машинного перевода родственных пар языков на основе двухуровневых моделей морфологий, таблиц соответствия аффиксальных морфем и эвристических моделей перевода и реализована исследовательская версия системы татарско-турецкого машинного перевода.
Библиография Гильмуллин, Ринат Абрекович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистическое обеспечение системы ЭТАП-2. - М.: Наука, 1989. - 296 с.
2. Апресян Ю.Д. Образ человека по данным языка: попытка системного описания // Вопросы языкознания, Наука, 1995, №1.
3. Апресян Ю.Д. Избранные труды, том I. Лексическая семантика: 2-е изд., испр. и доп. М:: Школа «Языки русской культуры», Издательская фирма «Восточная литература» РАН, 1995. - Ville. - 472 с.
4. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистический процессор для сложных информационных систем. -М.:Наука, 1992. 256 с.
5. Брябрин В.М. и др. ДИЛОС диалоговая система для взаимодействия с ЭВМ на естественном языке. - М.: Изд. ВЦ АН СССР, 1979.
6. Брябрин В.М., Сенин Г.В. Анализ естественного языка в ограниченном контексте // Вопросы кибернетики. -1980. С. 111-117.
7. Бухараев Р.Г., Сулейманов Д.Ш. Семантический анализ в вопросно-ответных системах. Казань: Изд-во Казан, ун-та. - 1990. -124 с.
8. Валькман Ю.Р. Интеллектуальные технологии исследовательского проектирования: формальные системы и семиотические модели. Киев: Port-Royal, 1998. -250 с.
9. Валькман Ю.Р. Целесообразность использования категорий лингвистики в исследовательском проектировании сложных объектов // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-98». Казань, 1998. - С.638-648.
10. Вежбицкая А. Семантические универсалии и описание языков / Пер. с англ. А.Д.Шмелева под ред.Т.В.Булыгиной. М.: «Языки русской культуры», 1999. - I-XII. - 780 с.
11. Виноград Т. Программа, понимающая естественный язык. -М., 1976.-283 с.
12. Волкова И.А., Головин И.Г. Об одном подходе к построению синтаксического модуля в системе распознавания устной речи // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-97». Ясная Поляна, 1997. - С.61-62.
13. Вудс В.А. Сетевые грамматики для анализа естественного языка // Кибернетический сборник. -М., 1976. Вып.13. С.121-158.
14. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб: Питер, 2000. - 384 с.
15. Гильмуллин P.A. Модуль обучающейся модели татарско-турецкого машинного переводчика // Вестник Казанского государственного технического университета им. А.Н.Туполева. 2007, № 2(46) - С. 65-67.
16. Гильмуллин P.A. Реализация контекстных соответствий Ы:ы, Ы:е и Ы:0 в файле фонологических правил // Сборник трудов Математического центра имени Н.И. Лобачевского. Т.4. Компьютерная лингвистика. Казань: УНИПРЕСС, 1999. - С. 51-58.
17. Гильмуллин P.A. К разработке татарско-турецкого машинного переводчика //Труды Казанской школы-семинара по компьютерной и когнитивной лингвистике TEL-2001. Выпуск 6. -Казань: Из-во "Отечество", 2001, -С.12-18.
18. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения (Вступительная статья) // Новое в зарубежной литературе. М.:
19. Прогресс». Вып. XXIV. Компьютерная лингвистика. Под ред. Городецкого Б.Ю. С. 5-31.
20. Григорьев Н.В. Восходящий алгоритм построения дерева зависимостей для системы ЭТАП-3 // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-99». Таруса, 1999.
21. Дракин В.И., Попов Э.В., Преображенский А.Б. Общение конечных пользователей с системами обработки данных. М.: Радио и связь, 1988. -288 с.
22. Закиев М.З. Татарская грамматика. ТЗ. Синтаксис. — Казань: Таткнигоиз-дат. 1992.-488 с.
23. Кибрик А.Е. Для чего нужны формальные модели языка ? // Сборник трудов Формально-логические и компьютерные модели языков в рамках российской конференции по искусственному интеллекту КИИ-96. Казань: Изд-во "Фэн". -1996. - С. 3-5.
24. Кобозева И.М. Лингвистическая семантика: Учебное пособие. М.: Эди-ториал УРСС, 2000. - 352 с.
25. Кулагина О.С. Исследования по машинному переводу. М.: Наука, 1979.
26. Лавров С.С. Архитектура баз знаний // Программное обеспечение вычислительных комплексов новой архитектуры. — Новосибирск НФ ИТН и ВТ АН СССР, 1986.-С. 3-13.
27. Майлопулос Д. и др. TOURUS система для управления данными, понимающая естественный язык // Труды IV Международной объединенной конференции по искусственному интеллекту. - М., 1975. Т.2. - С.42-62.
28. Мальковский М.Г. Диалог с системой искусственного интеллекта. М.: Изд-во МГУ, 1985. - 214 с.
29. Мальковский М.Г., Абрамов В.Г., Субботин A.B. Об автоматизированном формировании лингвистических баз знаний // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диа-лог-98». Казань, 1998. - С. 831-836.
30. Мартынов В.В. Универсальный семантический код: УСК-3. Минск:
31. Наука и техника». 1984. - 131с.
32. Марчук Ю.Н. Проблемы машинного перевода. М., Наука, 1983. 232 с.
33. Мельчук И.А. Опыт теории лингвистических моделей Смысл-Текст. М.: Наука. -1974.-314 с.
34. Минский М. Фреймы для представления знаний. -М.: Энергия, 1979. -152с.
35. Мошкович Ж.Г. Автоматизированная лексикографическая система УНИЛЕКС-2. Издательство Московского университета, 1989.
36. Нариньяни A.C. Автоматическое понимание текста новая перспектива // В сб. Трудов 130. - С. 203-208.
37. Нариньяни A.C. Модель или алгоритм: новая парадигма информационной технологии//Информационные Технологии, 1997. С.11-16.
38. Невзорова O.A. Машинное обучение и задачи обработки естественного языка // Новости Искусственного интеллекта, М.: 1998, N1. — С.5-23.
39. Нильсон Н. Принципы искусственного интеллекта. М.: Радио и связь, 1985.-376 с.
40. Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. — М.: Наука, Физматлит, 1997. — 112 с.
41. Осипов Г.С. Построение моделей предметных областей. Неоднородные семантические сети // Изв. АН СССР, техн. кибернетика, 1990. N5.
42. Падучева Е.В. Семантические исследования (Семантика времени и вида в русском языке; Семантика нарратива). М.: Школа «Языки русской культуры», 1996. -464 с.
43. Пиотровский Р.Г., Билан В.Н., Боркун М.Н., Бобков А.К. Методы автоматического анализа и синтеза текста. Минск: Выш.шк., 1985. - 222 с.
44. Плунгян В.А. Общая морфология: Введение в проблематику: Учебное пособие. М.: Эдиториал УРСС, 2000. - 384 с.
45. Попов Э.В. Общение с ЭВМ на естественном языке. М., Наука. Главная редакция физико-математической литературы, 1982. — 360 с.
46. Поспелов Д.А. Логико-лингвистические модели в системах управления.1. М.: Энергия, 1981.-231 с.
47. Поспелов Д.А. Ситуационное управление: теория и практика. М.: Наука. -Гл.ред. Физматлит., 1986. — 288 с.
48. Рейуорд-Смит В.Дж. Теория формальных языков. Вводный курс: Пер. с англ. -М.: Радио и связь, 1998. 128 е.: ил.
49. Сулейманов Д.Ш. Регулярность морфологии татарского языка и типы нарушений в языке // Серия: Интеллект. Язык. Компьютер. — Вып.1. Казань: Изд-во Казан, ун-та, 1994. - С. 77-106.
50. Сулейманов Д.Ш. К вопросу о числе татарских падежей // Исследования в компьютерной лингвистике. Серия: Интеллект. Язык. Компьютер. Вып.З. -Казань: Изд-во "Фэн". -1996. - С.70-84.
51. Сулейманов Д.Ш., Гильмуллин A.A., Гильмуллин P.A. База морфотакти-ческих правил для татарского глагола как основа двухуровневого морфологического анализатора // Сборник трудов Международного семинара «Диалог», 1998. Казань, - С. 597-609.
52. Сулейманов Д.Ш. Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей: Дис. . доктора технических наук, Казань, 2000. -334 с.
53. Сулейманов Д.Ш., Гатиатуллин А.Р. Структурно-функциональная компьютерная модель татарских морфем. Казань: Фэн, 2003. — 220 с.
54. Татарская грамматика. Том 1. Фонетика. Фонология. Словообразование. -Казань: Таткнигоиздат. 1993, - 584 с.
55. Татарская грамматика. Том 2. Морфология. — Казань: Таткнигоиздат. -1993, 397 с.
56. Теория функциональной грамматики: Введение, аспектуальность, временная локализованность, таксис. 2-е изд. -М.:Эдиториал УРСС, 2001. 348с.
57. Уинстон П. Искусственный интеллект. М., 1980. - 580 с.
58. Филлмор Ч. Дело о падеже // В кн.: Новое в зарубежной лингвистике. Вып. X. Лингвистическая семантика. М.: Прогресс. 1981.
59. Хакимов Б.Э., Гильмуллин P.A. К разработке системы параметров морфологической разметки для электронного корпуса татарских текстов // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2008.-Казань: Казан, гос. ун-т, 2009. С. 24-29.
60. Хомскнй Н. Синтаксические структуры // Пер. с англ.: Chomsky N. Syntactic Structures в сб. «Новое в лингвистике», вып.2. Москва: Изд-во ин. лит., 1962.
61. Хопкрофт, Джон, Э., Мотвани, Раджив, Ульман, Джеффри, Д. Введение в теорию автоматов, языков и вычислений, 2-е изд.: Пер. с англ. М.: Издательский дом «Вильяме», 2002. - 528 е.: ил. - Парал. тит. англ.
62. Шаров С.А. Средства компьютерного представления лингвистической информации. Обзор. URL: http://nl-web/
63. Шенк Р. Обработка концептуальной информации. — М.:Энергия, 1980. -361 с.
64. Шереметьева С.О. Методология минимизации усилий в инженерной лингвистике // НТИ. Ежемесячный научно технический сборник, N4. М., 1998.-С.1-10.
65. Шошитайшвили И.А., Агранат Т.Б. Словарь оборотов системы анализа русских текстов // Исследования в компьютерной лингвистике. Серия: Интеллект. Язык. Компьютер. Вып.З. - Казань: Изд-во "Фэн". -1996. — С. 111-115.
66. Эрик Нюберг, Теруко Митамура. Контролируемый Язык и Машинный Перевод на основе Базы Знаний: Принципы и Практика. Центр Машинного Перевода Карнеги Меллон Университет, Питтсбург, CniA//http ://mt.net/kantru.htm
67. Antworth E.L. PC-KIMMO: a two-level processor for morphological analysis. Technical Report Occasional Publications in Academic Computing No. 16, Summer Institute of Linguistics, Dallas, Texas, 1994.
68. Boitet Ch. Tweilve Problems for Machine Translation. International Conference on Current Issues in Computational Linguistics. University Sains Malaysia, Pe-nang, Malaysia, 1991, Proceedings, P. 45-47.
69. Briscoe E. J. Lexical issues in natural language processing. In Klein, E. And
70. Veltman, F., editors, Natural Language and Speech: Springer-Verlag. 1992. -P. 39-68.
71. Cole Ronald A., Mariani Joseph, Uszkoreit Hans, et al (editors). Survey of the State of the Art Human Language Technology, 1995/ ftp: //speech.cse.ogi.edu /pub/docs/HLT/.
72. Dear B.L. AI and the Authoring Process // IEEE Expert Magazine, Summer, 1987.-P. 17-23.
73. Gtinderdii, Oflazer K. Parsing Turkish using the Lexical-Functional Grammar formalism. Machine Translation, 10:293-319, 1995.
74. Lucchesi C.L., Kowaltowski T. Applications of finite automata representing large vocabularies. Software-Practice and Experience, 23(1): 15-30. 1993.
75. Karttunen L. Constructing Lexical Transducers. //15th International Conference on Computational Linguistics. Coling 94, I, pages 406-411. August 5-9, 1994. Kyoto, Japan.
76. Miiiirisep. Syntactic analysis of Estonian using constraint Grammar // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диалог». 1998. - С.619-625.
77. Rgximova Asia. Terek grammatikasi. Tiirk dilbilgisi. Qazan, 2002.
78. Sanfilippo Antonio. Lexicons for Constraint-Based Grammars // In 86. P. 118-121.
79. Suleymanov D.Sh. Towards a difinition of Tatar cases via the structural-functional morphemic model // Proceedings of the LP'96 Conference on Languages Typology (Prague, 22-24 August, 1996). Prague, 1996. P. 388-395.
80. Tsutsumi J., Nitta Т., Ono K., Nobesawa Sh., Nacanishi M. Multi-Lingual Machine Translation Based on Statistical Information. QUALICO-94, 2nd Intern. Conf. On Quantitative Linguistics. Moscow Lomonosov State Univ., 1994, Proceedings.-P. 147-152.
81. Vendler Z. Linguistics in Philosophy. Ithaca, N.Y., 1967.
82. Xerox, MLTT-95/Application of Finite-State Networks // www.xrce.xerox.com/research.c/
83. Казанский государственный университет1. На правах рукописи
84. Гильмуллин Ринат Абрекович0420105371
85. МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ В МНОГОЯЗЫКОВЫХ СИСТЕМАХ ОБРАБОТКИ ДАННЫХ НА ОСНОВЕ АВТОМАТОВ КОНЕЧНЫХ СОСТОЯНИЙ0513.11 Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
86. Диссертация на соискание ученой степени кандидата физико-математических наукмт
87. Научный руководитель: академик АН РТ, д. т. н., профессор Сулейманов Д.Ш.
88. Научный консультант: д. ф.-м. и., д. т. н^,профессор Бухараев Р.Г.1. Казань 20091. Содержание
-
Похожие работы
- Исследование и разработка математического алгоритмического и программного обеспечения входных многоязыковых трансляторов для САПР СБИС
- Разработка и исследование инструментальных средств многоязыковой трансляции
- Применение универсального конечного автомата в прикладных задачах теории формальных языков
- Разработка фреймово-продукционной модели синтеза цифровых автоматов на основе метода спецификации состояний и ее программная реализация средствами реляционной СУБД
- Некоторые алгоритмы эквивалентного преобразования недетерминированных конечных автоматов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность