автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Семантические словари в автоматической обработке текста
Оглавление автор диссертации — кандидата технических наук Сокирко, Алексей Викторович
ВВЕДЕНИЕ.
ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ.
I. Некоторые логико-философские исследования.
Универсальный язык И. Ньютона.
Lingua Mentalis Г. Лейбница.
II. Семантический анализ и семантические словари.
Link Grammar Parser (LinkParser).
Формальная семантика.IS
Проект Микрокосмос.
Онтология Микрокосмос.
Реализация концептов в тексте.
Микротеория прилагательных.
Генеративный лексикон.
Система Artwork.
Система UNL (Universal Networking Language).
Система ФРАП.
ГЛАВА 2. ДОСЕМАНТИЧЕСКИЙ АНАЛИЗ РУССКОГО ТЕКСТА.
Графем атический анализ.
Морфологический анализ и лемматизация.
Синтаксический анализ.
Фрагментационный анализ.
Объединение результатов фрагментации и синтаксического анализа.
ГЛАВА 3. ПЕРВИЧНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ РУССКОГО ТЕКСТА.
Русский общесемантический словарь.
Семантическое отношение (поле ВАЛ, ДОП).
Общая категоризация лексики.
Семантические характеристики.
Взаимосвязи семантических характеристик.
Формат словарных статей.
Примеры словарных статей для некоторых классов слов (шаблонные статьи).
Иерархия семантических отношений.
Множественные актанты (МНА).
Словосочетания в проекте ДИАЛИНГ.
Словарь оборотов.
Словарь групп времени (TimeRoss).
Тезаурусы.
Локативный тезаурус.
Финансовый тезаурус.
Компьютерный тезаурус.
Словарь устойчивых словосочетаний.
Первичный семантический анализ.
Введение 2001 год, диссертация по информатике, вычислительной технике и управлению, Сокирко, Алексей Викторович
Вход семантического анализа.77
Выход семантического анализа.78
Алгоритм поверхностно семантического анализа.79
Общая схема работы.79
Инициализация семантических узлов и синтаксических вариантов фрагментов. 80
Построение множества словарных интерпретации узлов.81
Построение групп времени.81
Построение узлов в кавычках.83
Построение узлов типа "друг друга".83
Подключение операторов типа не, только.84
Построение устойчивых словосочетаний.84
Построение лексических функций-параметров.85
Установление отношений между локативными узлами.85
Интерпретация тезаурусных должностей и организаций.86
Процедура инициализации валентной структуры.87
Процедура построения графа гипотетических связей.88
Построение множественных актантов.90
Процедура удаления длинных связей.91
Процедура построения вариантов деревьев.92
Оценка деревьев.92
Проверка отношений по семантическим характеристикам.94
Проективность деревьев.94
Нарушение первой валентности (Р1т1 Уа!епсу УюШюпСое£) и валентности из добавочных статей (Ке1айотЫо1РготКо88СоиШ).95
Построение отношений по умолчанию.95
Межклаузные связи.95
Правило восстановления анафорических местоимений.97
ГЛАВА 4. ПОЛУЧЕНИЕ ЕСТЕСТВЕННОГО ТЕКСТА ПО СЕМАНТИЧЕСКОМУ ПРЕДСТАВЛЕНИЮ (НА ПРИМЕРЕ АНГЛИЙСКОГО ЯЗЫКА).98
ЗАКЛЮЧЕНИЕ.102
ЛИТЕРАТУРА.103
ПРИЛОЖЕНИЕ 1. НЕКОТОРЫЕ ИЗМЕНЕНИЯ В СОСТАВЕ СЕМАНТИЧЕСКИХ ОТНОШЕНИЙ ДЛЯ СИСТЕМЫ ДИАЛИНГ.113
ПРИЛОЖЕНИЕ 2. ПРИМЕРЫ РАБОТЫ МАШИННОГО ПЕРЕВОДЧИКА ДИАЛИНГ НА ТЕСТОВОМ МАССИВЕ.116
Введение
Исследователи в области автоматической обработки текста (АОТ), планомерно продвигаясь от самых простых методов анализа к более сложным, постепенно приближаются к такому смысловому представлению текста, которое соответствует человеческому восприятию, однако, по всей видимости, полностью сымитировать языковое поведение человека на обычных тьюрингоподобных компьютерах нереально. Принципиальную неадекватность современных компьютеров феномену естественных языков мы принимаем за аксиому. Любые алгоритмические модели языка обеспечивают лишь большие или меньшие приближения.
Приближения могут быть частичными и полными. Частичные приближения моделируют только часть языка (один из его механизмов), например, какое-нибудь отдельно взятое морфологическое явление конкретного языка. Вход для частичной модели (приближения) обычно некое идеальное представление текста, а не просто сырой материал (последовательность символов, составляющая текст). Частичные модели не учитывают ошибки во входном представлении, поэтому состыковка частичных моделей в одну полную систему, которая моделирует все механизмы языка сразу (от морфологии до семантики), требует особых усилий.
Полные модели, к которым относятся все большие системы машинного перевода или полного анализа текстов, обычно создаются целой группой лингвистов, которая после долгой совместной работы превращается в научное направление прикладной лингвистики.
Данная диссертационная работа описывает использование семантического анализа в системе русско-английского машинного перевода ДИАЛИНГ, спроектированной на базе полных систем французско-русского автоматического перевода (ФРАП) и анализа политических текстов (ПОЛИТЕКСТ).
Промышленные системы АОТ, в основном, сейчас используют два этапа анализа текста: морфологический и синтаксический. Однако теоретические разработки многих исследователей предполагают существование следующего за синтаксическим этапа - семантического. В отличие от предыдущих шагов семантический этап использует формальное представление смысла составляющих входной текст слов и конструкций. Суть семантического анализа понимается разными исследователями по-разному. Мы считаем, что в сферу семантического анализа входит:
Построение семантической интерпретации слов и конструкций;
Установление «содержательных» семантических отношений между элементами текста, которые уже принципиально не ограничены размером одного слова (могут быть больше или меньше одного слова).
Результирующее представление, в котором решены эти две задачи, является наиболее глубоким и законченным из тех, которые можно достичь только лингвистическими средствами, не прибегая к внешним экстенсиональным источникам, и этим объясняется актуальность семантического анализа. Таким образом, создание полных систем АОТ для русского языка, использующих семантический анализ, является чрезвычайно актуальной задачей.
Базисом для таких разработок мы избрали две системы:
Система французско-русского автоматического перевода (ФРАП), разработанная в ВЦП совместно с МГПИИЯ им. М. Тореза в 1976-1986 гг. (работы Леонтьева [1986]);
Система анализа политических текстов на русском языке (ПОЛИТЕКСТ) (работы Леонтьева [1995]), разработанная в Центре информационных исследований в 1991-97 гг.
Система ФРАП содержала полную цепочку анализа текста, вплоть до семантического, который был реализован только частично. В системе ФРАП был разработан и опробован семантический аппарат, который представляется нам настолько законченным и совершенным, что его можно заимствовать фактически без изменений. В центре семантического аппарата ФРАП находятся два перечня (вернее, две грамматики): семантических характеристик (СХ) и смысловых отношений (СО). Используется минимальное количество семантических характеристик:
ВЕЩВО("вещество"), ИЗМ("изменение"), ИНТЕЛ(«интеллектуальность»), ИНФ("информация") и т.д.; слова характеризуются по признаку принадлежности к одному или нескольким классам. СХ обеспечивают проверку семантического согласования при интерпретации связей в тексте. Вместе с тем ФРАП не содержала механизмов структурных оценок семантического представления, то есть методов взвешивания не просто одного вхождения текстового элемента, а всей структуры в целом.
Система ПОЛИТЕКСТ была направлена на анализ официальных документов на русском языке и содержала полную цепочку анализаторов текста: графематический (первичный анализ), морфологический, синтаксический и частично семантический. Графематический анализ в данной диссертационной работе был частично заимствован (см. [5]), но адаптирован под новые стандарты программирования. Программа морфологического анализа была написана заново1, поскольку скорость работы была низкой, но сам морфологический аппарат не изменился[6] . Синтаксический анализ системы ПОЛИТЕКСТ обладал рядом инженерных недостатков, поэтому его не удалось перенять.
В итоге, цепочка процессоров (графематический, морфологический и синтаксический) была собрана на базе ООО Диалинг. После этого стала актуальной разработка семантического анализа внутри системы ДИАЛИНГ как логического завершения цепочки анализаторов.
Целью настоящей работы является разработка лингвистико-алгоритмического аппарата, обеспечивающего эффективное решение задачи семантического анализа на базе системы ДИАЛИНГ.
Для достижения поставленной цели было необходимо:
Изучить возможности существующих методов автоматического семантического анализа русского языка;
Разработать систему правил, порождающих гипотезы о реализации семантических элементов и правила глобальных оценок семантического представления текстов на русском языке;
Построить алгоритмический аппарат, реализующий семантический анализ текстов на русском языке;
Продемонстрировать эффективность предложенного метода на конкретных языковых примерах на основе соответствующих программных реализаций.
На основе анализа современных семантических методов в целом, а также углубленного исследования семантического аппарата системы ФРАП,
1 Сами морфологические данные были получены из Института русского языка Российской академии наук. с одной стороны, и изучения лингвистических особенностей русских текстов - с другой, в диссертационной работе разрабатывается оригинальный метод семантического анализа - метод полных вариантов. Идея метода состоит в том, что в анализе должны быть четко разделены варианты анализа, возникающие на разных этапах, и декларативные лингвистические правила (частичные модели), которые строят и оценивают отдельные варианты. Такой подход, ранее применяемый только для предсемантических анализаторов, теперь, ввиду развития компьютерных мощностей, можно перенести на семантику, тем самым повысив уровень разделения процедурной и декларативной частей системы. Проще говоря, если раньше лингвистические правила на этапе семантического анализа должны были выбирать интерпретацию участка входного текста из многих альтернатив (ср. т.н. "метод фильтров", реализованный в [8]), то теперь необходимость в этом отпала. Таким образом, стало возможным упростить лингвистические модели благодаря увеличившейся скорости компьютеров. Процедурная часть семантического анализа в идеальном случае сводится к циклам, перебирающим разные лингвистические варианты.
Кроме этого, в диссертационную работу включено описание прототипов двух словарей (словарь временных групп и словарь словосочетаний) и алгоритмы использования этих словарей в системе ДИАЛИНГ.
Основными теоретическими результатами работы, выносимыми на защиту и определяющими научную новизну работы, являются:
Алгоритмы семантического анализа русских текстов с учетом структурных оценок всего семантического представления русского текста;
Структура и алгоритмы использования двух семантических словарей (словарь временных групп и словарь словосочетаний).
Программная система, созданная на базе предложенного метода и словарей, внедрена в первую версию машинного русско-английского переводчика ДИАЛИНГ. Анализ опыта внедрения демонстрирует его достаточно высокую эффективность, что характеризует практическую значимость работы.
Апробация работы. Основные научные выводы и результаты работы докладывались на международной конференции Диалог-2000 (г. Протвино, 1-5 июля 2000 г.), а также на научных семинарах РГГУ и ИСК РАН в 1999-2000 гг.
По теме диссертации автором опубликованы 3 работы. Сдана в печать одна статья.
Структура и объем работы: Диссертация, объемом в 100 страниц, состоит из введения, четырех глав, заключения, списка использованной литературы из 71 наименования.
Заключение диссертация на тему "Семантические словари в автоматической обработке текста"
Заключение
В заключение подведем итоги настоящей работы.
В текстологическом порядке, содержание работы кратко можно охарактеризовать следующим образом:
В первой главе содержится обзор систем АОТ, использующих семантический анализ. Описываются три системы, которые были программно реализованы (LinkParser, Mikrokosmos, Artwork), и три системы, предлагающие оригинальные семантические аппараты (Formal Semantics, Generative Lexicon, Universal Networking Language или UNL). Вторая глава посвящена процессорам, работающим до семантического анализа: графематическому, морфологическому и синтаксическому. Третья глава содержит описание поверхностно семантического компонента системы ДИАЛИНГ. Четвертая глава посвящена описанию использованию семантического представления на этапе перевода и синтеза английской фразы.
Основными теоретическими результатами работы, выносимыми на защиту и определяющими научную новизну работы, являются:
Алгоритмы семантического анализа русских текстов с учетом структурных оценок всего семантического представления русского текста;
Структура и алгоритмы использования двух семантических словарей (словарь временных групп и словарь словосочетаний).
Необходимо отметить основные направления развития семантического анализа на базе системы ДИАЛИНГ:
1. Необходимо расширить сферу анализа с одного предложения до целого текста, после чего качество восстановления анафорических местоимений, обработки эллипсиса и поиска кореферентных элементов заметно возрастет;
2. Необходимо рассмотреть возможность подключения алгоритмов Constraint Logic, использованных в системе Микрокосмос, после чего должно снизиться количество лексических вариантов одной клаузы;
3. Нужно придумать способ установления эквивалентности валентных структур двух словарных интерпретаций одного элемента на данном участке текста. Это позволит снизить количество вариантов, а также поможет создать алгоритм вычисления валентной структуры нового слова при заданных валентных структурах других слов предложения.
Библиография Сокирко, Алексей Викторович, диссертация по теме Теоретические основы информатики
1. Арутюнова Н.Д. Время:модели и метафоры. Логический анализ языка: язык и время. -М., 1979.
2. Апресян Ю.Д. Избранные труды, Том 1. Лексическая семантика: 2-е изд., испр. и доп. М.:Школа "Языки русской культуры" 1995.
3. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. -Москва, «Наука», 1967.
4. Борисова Е.Г. Коллокации. Что это такое и как их изучать.- М.: Филология , 1995. Гершензон Л.М., Панкратов Д.В. Описание фрагментации в системе Диалинг. -www.dialing.ru/docs.1999.
5. Иомдин Л.Л. Симметричные предикаты в русском языке. Проблемы структурной лингвистики 1979, М, Наука, 1981.
6. Кудряшова И.М. О семантическом словаре в системе ФРАП.- МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 271., М.,1986.
7. Кулагина О.С. Исследования по машинному переводу. М.гНаука, 1979. Леонтьева H.H., Никогосов СЛ. Система ФРАП и проблема оценки качества автоматического перевода. - МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 20, М.,1980.
8. Леонтьева H.H. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. МГПИИЯ им. М. Тореза. Сборник научных трудов. Вып. 271, М.,1986.
9. Леонтьева H.H., Кудряшова И.М, Малевич О.Б. Семантические заготовки к пониманию целого текста.- МГПИИЯ им. М. Тореза. Сборник научных трудов. Вып. 271, М.,1986.
10. Леонтьева H.H. Строение семантического компонента в информационной модели автоматического понимания текста. Автореф. и дисс. д.т.н. М, 1990.
11. Леонтьева H.H. «Политекст»: информационный анализ политических текстов. // НТИ. Сер 2. 1995.-N 4.-с 20-24.
12. Леонтьева H.H. Русский общесемантический словарь (РОСС): структура, наполнение. // НТИ. Сер. 2. 1997. -N 12.-С.5-20.
13. Лукашевич Н.В. Автоматизированное формирование информационно-поискового тезауруса по общественно-политической жизни России. // НТИ. Сер.2. М, 1995.-N 7. С.21.24.
14. Лукашевич Н.В, Салий АД. Представление знаний в системе автоматической обработки текстов // НТИ. Сер.2. М, 1997.-N 3.
15. Мельчук И А Опыт теории лингвистических моделей типа «Смысл«Текст»,- М.1974.
16. Никогосов C.Jl. Программное обеспечение машинного перевода. ВЦП. Серия Машинный перевод и автоматизация информационных процессов, вып 9. 1984.
17. Ньютон И. Об универсальном языке. Семиотика и информатика Выпуск 35 М1997.
18. Падучева Е.В. Коммуникативное выделение на уровне синтаксиса и семантики. Сборник "Семиотика и информатика", вып. 36, 1998 год.
19. Панкратов Д.В., Гершензон JIM. Описание синтаксического анализа в системе Диалинг. -www.dialing.ru/docs.1999.
20. Пешковский A.M. Русский синтаксис в научном освещении. 5-е изд. М. 1935. Рудерман М.В. Алгоритм определения словообразовательных пар на основе словарной морфологии.- www.dialing.ru/docs.1999.
21. Салмин П. Проект фразеологического словаря в системе ПОЛИТЕКСТ. РГГУ, ФТИПЛ дипломная работа, 1998.
22. Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика. Киев, Наукова думка, 1981.
23. Семенова С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Труды Международного семинара Диалог'96 по компьютерной лингвистике и приложениям -М., 1996. -С.227-230.
24. Семенова С.Ю. Прилагательные в семантическом словаре одной прикладной системы. // Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. -С.553-564.
25. Сокирко A.B. Обработка локативных групп в системе Политекст. // V национальная конференция с международным участием «Искусственный интеллект-96», Казань 5-11 октября 1996 года, С. 128-132.
26. Сокирко A.B. Программная реализация русского общесемантического словаря. // Дипломная работа., ФТИПЛ, РГГУ, 1997.
27. Сокирко A.B. Программная реализация русского общесемантического словаря. //
28. НТИ. Сер 2. 1997.- N 12,- с 20-24.
29. Сокирко A.B. Исследование слов с характеристиками 'информация' и 'носитель информации' в русском общесемантическом словаре. // Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям.
30. Сокирко A.B. Реализация первичного семантического анализа в системе Диалинг. // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям, Протвино, 1-5 июня 2000 года.
31. Солодуб Ю.П. Сопоставительный анализ структуры лексического и Фразеологического значений //Филологические науки. НДВШ. 1997. №5. С.43-54.
32. Сущанская Н.Ф. Программный препроцессор для естественноязыковых интерфейсов. Автореф. дисс. к.т.н. К.: РИО ИК, 1989.
33. Телия В.Н.Словарь образных выражений русского языка / М., 1995. Телия В.Н. Русская фразеология. Семантический, прагматический илингвокультурологический аспекты. М., 1996. 286 с.
34. Цейтин Г.С. Система обработки текста с процедурным представлением словарной информации перспективы ее применения в машинном переводе. В кн.: Международныйсеминар по машинному переводу 1979.
35. Цейтин Г.С., Откупщикова М.И., Лейкина Б.М., Невлева Т.Н. Система анализатекста с процедурным представлением словарной информации. В кн.: Актуальныевопросы практической реализации систем автоматического перевода. М. 1982.
36. Шалимов О.Ю. Проект новой базы данных локативов. // Дипломная работа.,фТИПЛ, РГГУ, 1996.
37. Bach Е., 1991, Informal Lectures in Formal Semantics
38. Beale Stephen. (1996) Hunter-Gatherer: Applying Constraint Satisfaction, Branch-and-Bound and Solution Synthesis to Natural Language Semantics NMSU CRL Technical Report MCCS-96-292.
39. Benthem, J. van 1983. The Logic of Time, Kluwer Academic Publishers, Dordrecht.
40. Boguslavsky I., Frid N., Iomdin L., Kreidlin L., Sagalova I., Sizov V. Creating a Universal Networking Language Module within an Advanced NLP System. http://proling.iitp.ru. 2000.
41. Fillmore Ch. J. The case for case // Universals in linguistic theory. /Ed. By E.Bach and B.Halms, N.Y., 1968.
42. Fodor, Jerry, Lepore Ernie. The Emptiness of the Lexicon: Criticial Reflections on J. Pusteyovsky The Generative Lexicon. http://rucs.rutgery.edu/faculty/lepore/ leporeSelPub.html
43. Mahesh K. (1996) Ontology development for MT: Ideology and Methology. NMSU CRL Technical Report. MCCS-96-292.
44. Miller, George A., Christiane Felbaum., J. Kegi, and K.Miller 1988. Wordnet: An electronic lexical reference system based on theories of lexical memory. 17. pp 181-211.
45. Montague, Richard 1974. Formal Philosophy. Selected Papers of Rihard Montague. Ed by Richmond Thompson. New Haven. CT: Yale University Press.
46. Nirenburg, S., Raskin, V. and B., Onyshkevych (1994) Apologiae Ontologia. MT Simmit'94.
47. Raskin, V., Nirenburg S., Lexical Semantics of Adjectives, Recent Papers from the Mikrokosmos and Corelli Projects, Vol 2., New Mexico State University, 1996.
48. Partee, B. (1989) "Possible Worlds in Model-Theoretic Semantics: A Linguistic Perspective ". In S. Allen (ed.), Possible Worldsin Humanities, Arts and Sciences:Proceedigs of Nobel Symposium 65. Berlin and New York: Waiter de Gruyter, pp. 93-123.
49. Pusteyovsky James. The Generative Lexicon, p. 69-72. MIT, London.
50. Sapir, Edward 1944. On grading: a study in semantics. Philosophy of Science 2, pp 93116.
51. Temperley D, Lafferty J., Sleator D. 1995.Link Grammar Parser http://www.link.cs.cmu.edu/link
52. Tsang E. 1993. Foundation of Constraint Satisfaction. Academic Press, London.
53. Viegas, E, Gonzalez, M., Longwell., J. (1996) Morpho-semantics and constructive derivational morhology: a transcategorial approach. NMSU CRL Technical Report. MCCS-96-295.
54. Viegas E., Mahesh K., Nirenburg S., Semantics In Action. 1998, http ://cr 1. nmsu.edu/Research/Proj ects/mikro
55. Wiebe J., Farwell D., Villa D., O'Hara T. et al. Artwork: Discourse Processing in Machine Translation of Dialog, 1997.
56. Uchida Hiroshi., Zhu Meiying.,Tarcisio Delia Senta. A Gift for a Millennium. htt^//www.unl.ias.unu.edu. 1996.
-
Похожие работы
- Технология разработки семантического словаря системы информационного мониторинга
- Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа
- Разработка и исследование гибридных нейросетевых моделей для автоматической классификации текстовых документов
- Формирование контента реферата при автоматическом реформировании научного текста
- Автоматизация лингвистической обработки словарей научно-технической информации
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность