автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Адаптивный синтаксический анализатор русского языка

кандидата физико-математических наук
Одинцев, Николай Владимирович
город
Москва
год
2003
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Адаптивный синтаксический анализатор русского языка»

Оглавление автор диссертации — кандидата физико-математических наук Одинцев, Николай Владимирович

Введение

Глава 1. Обзор литературы

1.1. Корпусная лингвистика.

1.2. Синтаксические анализаторы.

1.3. Лингвистические процессоры интегрального и модульного типа

1.4. Пример развитого синтаксического анализатора. Система Link

Grammar Parser.

1.5. Сетевые грамматики.

Глава 2. Описание синтаксиса на основе моделей управления. Методика, алгоритмы и программы формирования описания

2.1. Модели управления как средство описания естественного языка.

2.2. Методика построения множества моделей управления

2.3. Разработка синтаксического анализатора, основанного на РСП.

2.4. Управление работой синтаксического анализатора, основанного на РСП

2.5. Анализ синтаксических структур фрагментов и выделение из них использованных моделей управления

Глава 3. Информационная система для работы с моделями управления

3.1. Требования к информационной системе и ее архитектура.

3.2. Базовая функциональность информационной системы

3.3. Структура xrtl-файла. Редактирование моделей управления

Глава 4. Синтаксический анализатор на основе моделей управления

Глава 5. Примеры работы алгоритмов.

5.1. Примеры формирования моделей управления.

5.2. Пример работы синтаксического анализатора на основе моделей управления

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Одинцев, Николай Владимирович

Актуальность темы

Современный мир характеризуется быстрым ростом глобализации и, как следствие, необходимостью общения людей разных культур и разных национальностей, носителей разных языков. И язык является одновременно и основным связующим, и, как это ни парадоксально, основным разделяющим средством. Одним из способов преодоления языкового барьера является использование систем машинного перевода различных типов, компонентами которых являются синтаксические анализаторы.

Другим фактором, определяющим интерес к развитию лингвистических процессоров различного рода, является растущая необходимость упрощения работы с обширными информационными системами (например, такой системой можно считать Интернет в совокупности с поисковыми серверами). В этом случае возникает потребность обеспечения пользователя средством, которое позволит ему максимально удобно формулировать свои запросы. Самым привычным таким средством является естественный язык. В этом случае лингвистический процессор должен уметь преобразовывать запросы на естественном языке в структуры, отражающие семантику, т.е. смысл, и прагматику, т.е. цели запроса.

Синтаксический компонент в составе лингвистического процессора русского языка необходим достаточно широкому кругу систем автоматической обработки текстов на естественном языке. К ним относятся, кроме уже упомянутых систем машинного перевода и информационных систем, системы автоматического синтеза речи (звуковое воспроизведение текста компьютером), распознавания речи (конвертирование компьютером устной речи в письменный текст), системы определения авторства текста и другие. Существующие в настоящее время синтаксические компоненты обладают рядом существенных недостатков: применяемые способы описания языка, как правило, недостаточно точно фиксируют языковые особенности, не допускается использование неграмматичных конструкций, создание и пополнение описания языка требует существенных трудозатрат. В связи с этим является актуальной задачей создание новых способов описания синтаксиса языка и использующих их синтаксических анализаторов, лишенных этих недостатков.

Если рассматривать лингвистические процессоры в аспекте синтаксиса, то наиболее важными, по-видимому, являются следующие вопросы. Во-первых, это 3 связь синтаксического анализа и анализа на более высоких уровнях. Во-вторых, это выбор способа описания языка, в частности, способ описания синтаксиса. С этими вопросами естественным образом связаны процессы создания и пополнения описания языка и выбор алгоритма анализа.

Сейчас не существует хорошего ответа на эти вопросы. В большинстве систем, ориентированных на глубокое понимание текста, синтаксический компонент в силу ряда причин занимает подчиненное положение, вследствие чего собственно синтаксическая информация, заключенная в тексте, используется далеко не полностью.

Данная работа, посвященная созданию синтаксического компонента лингвистического процессора, предлагает решение этих проблем.

Цели работы

Цель диссертационной работы состоит в разработке новых методов описания синтаксиса языка, позволяющих повысить точность описания по сравнению с традиционными подходами, основанными на использовании различного рода грамматик, а также в создании синтаксического анализатора русского языка, использующего предлагаемые методы и обеспечивающего возможность настройки на стилистические особенности подъязыков.

Поставленная таким образом цель может рассматриваться в рамках более масштабной задачи, а именно задачи создания лингвистического процессора, включающего в себя как синтаксический, так и семантический и прагматический компоненты.

Научная новизна

Предложен новый метод описания синтаксиса естественного языка, основанный на расширенном и адаптированном понятии модели управления, позволяющий учитывать в рамках одной концепции несколько уровней детализации синтаксической связи слов и обеспечивающий фиксирование стилистических особенностей подъязыков.

Разработана методика автоматического формирования множества моделей управления, обеспечивающая постоянную актуальность описания синтаксиса языка и возможность постоянного пополнения этого описания.

Разработан и реализован адаптивный синтаксический анализатор русского языка на основе моделей управления. Используемый алгоритм анализа позволяет получать все возможные варианты структуры входной фразы, при этом наиболее вероятный вариант возвращается первым, за минимальное время, и далее следуют остальные варианты по убыванию вероятности их использования.

Эти качества позволяют рассчитывать как на широкие перспективы использования предлагаемого решения, так и на дальнейшее развитие в этом направлении (например, добавления семантической информации в обобщенные модели управления; в этом случае можно использовать описываемый синтаксический анализатор для семантического анализа практически без изменений).

Апробация работы

Основные научные выводы и результаты работы представлялись и докладывались на международных конференциях Диалог-2000 (Протвино, 2000 г.), Диалог-2001 (Аксаково, 2001 г.), Диалог-2002 (Протвино, 2002 г.) и Диалог-2003 (Протвино, 2003 г.), а также на научных семинарах МГУ в 1999-2003 гг.

Публикации

По теме диссертации автором опубликованы четыре печатные работы. Структура и объем диссертации

Диссертация состоит из введения, 5 глав, заключения и списка использованной литературы. Общий объем работы составляет 101 страницу. Список литературы составляет 50 наименований.

Заключение диссертация на тему "Адаптивный синтаксический анализатор русского языка"

Основные результаты диссертационной работы состоят в следующем:

1. Предложен новый метод описания синтаксиса естественного языка с помощью аппарата моделей управления, позволяющий повысить точность описания и обеспечить фиксирование стилистических особенностей подъязыков.

2. Разработана методика автоматического формирования множества указанных моделей управления и реализованы формальные описания и программные компоненты, поддерживающие эту методику.

3. Разработан и реализован адаптивный синтаксический анализатор русского языка на основе моделей управления.

Необходимо отметить, что, кроме самостоятельной значимости, полученные результаты открывают новые возможности в области создания лингвистических процессоров, например, объединение предлагаемого синтаксического анализатора и способа описания синтаксиса языка с семантическим анализатором и описанием семантики. Предложенный метод описания синтаксиса языка с помощью аппарата моделей управления в перспективе позволяет описывать все языковые аспекты (синтаксический, семантический и прагматический) в рамках одной структуры, что позволит существенно увеличить скорость анализа и повысить его качество.

Заключение

Библиография Одинцев, Николай Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. McEnery, Т. and Wilson, A. Corpus Linguistics, Edinburgh: Edinburgh University Press, 1996.

2. Aarts, J. and Meijs, W. (eds) Theory and Practice in Corpus Linguistics, Amsterdam: Rodopi, 1990.

3. Sinclair, J. Corpus, Concordance, Collocation, Oxford University Press, 1991.

4. Collins COBUILD English Language Dictionary, Collins, London and Glasgow, 1988.

5. Ю. К. Орлов. Динамика частотной труктуры. Тбилиси, 2001.

6. Garside, R. and McEnery, A. Treebanking: the compilation of a corpus of skeleton parsed sentences, in Black et al. 1993, 17-35.

7. А.Я. Шайкевич. О Статистическом словаре языка Достоевского. Москва.

8. Spevack М. A Complete and systematic concordance to the works of Shakespeare. Hildesheim, 1968-70.

9. Словарь языка Пушкина, M., 1956-61.

10. Carroll J.B. e.a. Word frequency book., Boston, 1971.

11. Dictionnaire des frequences. P., 1971.

12. Bobrow D. G., Syntactic Theory in Computer Implementations. H. Borko (Ed.), Automated Language Processing, New York, Wiley, 1967, pp. 217-252.

13. Chomsky, N. Three models for the description of language. IRI Transactions on Information Theory, 1956; Chomsky, N. Syntactic Structures. Mouton, The Hague, 1957.

14. Pollard, C. and Sag, I.A. Head-Driven Phrase Structure Grammar. University of Chicago Press, Chicago, 1994.

15. Lexical-Functional Grammar (Bresnan, J. (Ed.) The Mental Representation of Grammatical Relations. MIT Press, Cambridge, MA, 1982.

16. Chomsky, N. Lectures on Government and Binding. Foris, Dordrecht, 1981.

17. Kay, P. and Fillmore, C.J. Grammatical constructions and linguistic generalizations: The What's X Doing Y, 1999.

18. Naur,P., Backus, J. W., Bauer, F.L., et al. Report on the algorithmic language ALGOL 60. Communications of the ACM, 3(5), 299-314.

19. Mel'cuk, I.A. Studies in dependency syntax. Karoma Publishers, Ann Arbor, 1979.

20. Mel'cuk, I.A. Dependency Syntax: Theory and Practice. SUNY Series in Linguistics, Mark Aronoff, series editor. State University of New York Press, Albany, 1988.

21. Hudson, R.A. Word Grammar. Basil Blackwell, Oxford, 1984.

22. Karlsson, F., et al. Constraint Grammar: A Language-Independent System for parsing Unrestricted Text. Mouton de Gruyter, Berlin, 1995.

23. WordNet: An Electronic Lexical Database. MIT Press.

24. Межъязыковые операции в модели японско-русского автоматического перевода ЯРАП Электронные библиотеки и базы данных по истории Евразии в средние века. Вып. 7. - М.: ИВ РАН, 1999, с. 172-231.

25. В.М.Алпатов. Структура грамматических единиц в современном японском языке. — М.: Наука, 1979.

26. З.М.Шаляпина. Грамматика и ее соотношение со словарем при словоцентрическом подходе к языку (на опыте формализованного лингвистического описания). — Вопросы языкознания, 1991, No.5, с. 42-54.

27. Бирвиш М. Насколько линейно упорядоченной является языковая обработка? // Новое в зарубежной лингвистике. Вып XXIII. М.: Прогресс, 1988. - С. 93152.

28. Городецкий Б. Ю. Компьютерная лингвистика: моделирование языкового общения // Новое в зарубежной лингвистике. Вып XXIV. М.: Прогресс, 1989. -С. 5-31.

29. Дейк Т. А. ван, Кинч В. Стратегия понимания связного текста // Новое в зарубежной лингвистике. Вып XXIII. М.: Прогресс, 1988. - С. 153-211.

30. Моделирование языковой деятельности в интеллектуальных системах. М.: Наука, 1987.-279 с.

31. Селфридж М. Интегральная обработка обеспечивает надежное понимание // Новое в зарубежной лингвистике. Вып XXIV. М.: Прогресс, 1989. - С. 161208.

32. Шенк Р., Бирнбаум JL, Мей Дж. К интеграции семантики и прагматики // Новое в зарубежной лингвистике. Вып XXIV. М.: Прогресс, 1989. - С. 32-47.

33. Шенк Р., Лебовиц М. К, Бирнбаум Л. Интегральная понимающая система // Новое в зарубежной лингвистике. Вып XXII. М.: Радуга, 1983. - С. 401-449.

34. Robert D. Borsley. Syntactic Theory // A Unified Approach. London: Edward Arnold, 1992.

35. Howard Jackson. Grammar and Meaning // A Semantic Approach to English Grammar. London: Longman, 1990.

36. И. П. Кузнецов, А. Г. Мацкевич. Лингвистический процессор для автоматического выявления из текстов значимой информации с ее компоновкой в рамках указанных шаблонов // ДИАЛОГ'2001, Труды межд. семинара. М., 2001.

37. Сокирко А. В. Семантические словари в автоматической обработке текста (по материалам системы Диалинг). Дис. канд. физ.-мат. наук. М., 2000.

38. Temperley D, Lafferty J., Sleator D. 1995.Link Grammar Parser

39. Вудс В. А. Сетевые грамматики ждя анализа естественных языков // Кибернетический сборник. Новая серия, вып. 13. М.: Мир, 1976.

40. Волкова И.А., Головин И.Г. Синтаксический анализ фраз естественного языка на основе сетевой грамматики // ДИАЛОГ'98, Труды межд. семинара. М., 1998.

41. Матвеева Е. И. Независимый автоматический синтаксический анализ русского простого предложения по модели сетевой грамматики. Дис. канд. филол. наук. Л., 1989.

42. Одинцев Н.В. Синтаксический анализатор русского языка на базе сетевой грамматики // Дипломная работа., ВМиК, МГУ, 1999.

43. Одинцев Н.В. Методы улучшения качества синтаксического анализа фраз естественного языка // ДИАЛОГ'2000, Труды межд. семинара. М., 2000.

44. Одинцев Н.В. Обучаемый синтаксический анализатор естественного языка // ДИАЛОГ'2001, Труды межд. семинара. М., 2001.

45. Одинцев Н.В. Обобщенные модели управления. Синтаксический анализатор на основе обобщенных моделей управления. // ДИАЛОГ'2002, Труды межд. семинара. М., 2002.

46. Волкова И.А., Головин И.Г., Кривнова О.Ф. Компьютерный словарь моделей управления русских глаголов (экспериментальный вариант) // ДИАЛОГ'98, Труды межд. семинара. М.} 1998.

47. Т. Б. Агранат, О. С. Кулагина. Об электронном словаре сочетаемости сложносочиненных и сложноподчиненных предложений // ДИАЛОГ'2001, Труды межд. семинара. М., 2001.

48. Т. Ю. Кобзарева, Д. Г. Лахути, И. М. Ножов. Модель сегментации русского предложения // ДИАЛОГ'2001, Труды межд. семинара. М., 2001.

49. А. Шень. Программирование: теоремы и задачи.

50. Эндрю А. Искусственный интеллект. М.:Мир, 1985.