автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Программно-информационное обеспечение многоязыковой генерации текстов

кандидата физико-математических наук
Болдасов, Михаил Викторович
город
Москва
год
2004
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Программно-информационное обеспечение многоязыковой генерации текстов»

Автореферат диссертации по теме "Программно-информационное обеспечение многоязыковой генерации текстов"

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА

ФАКУЛЬТЕТ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И КИБЕРНЕТИКИ

На правах рукописи

БОЛДАСОВ Михаил Викторович

ПРОГРАММНО-ИНФОРМАЦИОННОЕ ОБЕСПЕЧЕНИЕ МНОГОЯЗЫКОВОЙ ГЕНЕРАЦИИ ТЕКСТОВ

Специальность 05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Автореферат

диссертации на соискание ученой степени кандидата физико-математических наук

Москва 2004

Работа выполнена на кафедре алгоритмических языков факультета вычислительной математики и кибернетики Московского государственного университета им. М.В. Ломоносова

Научный руководитель:

доктор физико-математических наук, профессор Мальковский Михаил Георгиевич

Официальные оппоненты: член-корреспондент РАН,

доктор технических наук, профессор Арлазаров Владимир Львович

кандидат физико-математических наук Ефимкин Кирилл Николаевич

Ведущая организация:

Институт системного программирования РАН

Защита диссертации состоится 9 апреля 2004 г. в 11 час. на заседании диссертационного совета Д 501.001.44 в Московском государственном университете им. М.В. Ломоносова по адресу: 119992, ГСП-2, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет ВМиК, аудитория 685.

С диссертацией можно ознакомиться в библиотеке факультета ВМиК МГУ.

Автореферат разослан

марта 2004 г.

Ученый секретарь

диссертационного совета

профессор

Н П. Трифонов

Общая характеристика работы

Актуальность темы

Данная работа посвящена проблеме создания эффективных методов и алгоритмов автоматической генерации текстов на естественном языке и реализации на их основе программно-информационного обеспечения, поддерживающего как собственно генерацию текстов, так и процесс разработки и сопровождения многоязыковых генераторов.

Тема работы актуальна. На современном этапе развития компьютерной индустрии роль естественно-языковых технологий выдвигается на первый план. Значительно возросла потребность пользователей программного обеспечения в представлении информации в текстовом виде. В связи с этим особое значение приобретает проблема генерации текстов на естественном языке на основе информации, хранимой во внутреннем представлении компьютера - задача естественно-языковой генерации (ЕЯГ). В условиях расширения международных связей все большое внимание уделяется сейчас исследованиям, связанным с многоязыковой генерацией (МЯТ), позволяющей создавать тексты на нескольких языках на основе представления информации, единого для всех этих языков.

Естественный язык трудно поддается формализации. Для создания генератора, работающего даже в относительно узкой Предметной Области (ПО), требуется привлечение больших массивов знаний о языке, на котором синтезируется результирующий текст. Поэтому наиболее актуальным представляется решение следующих задач:

• формализация знаний о языке, создание массивов языковых ресурсов;

• создание программных средств разработки и эксплуатации таких ресурсов.

Поставленные проблемы решены не в полной мере. В настоящее время они привлекают внимание многих исследователей. Решению этих проблем и посвящена данная диссертация.

Основныецелиработы

Основной целью представленной диссертационной работы является создание программно-информационного обеспечения, предполагающее разработку методов и алгоритмов генерации текстов на ЕЛ, и состоящее из:

• информационного компонента, представленного формальными грамматиками компьютерными словарями и другими языковыми ресурсами;

• программной составляющей - набора инструментальных средств, поддерживающих разработку и эксплуатацию систем ЕЯГ.

Научная новизна

На основе анализа современных систем генерации в работе сформулирован новый подход к созданию адаптивных многоязыковых систем генерации, работающих в ограниченных предметных областях. Стержнем этого подхода является предлагаемая модель генерации, подкрепленная тремя разработанными языками описания действий, проводимых системой ЕЯГ в рамках предложенной модели. Эти языки описывают три основных вида деятельности систем ЕЯГ: структурные преобразования данных, лексический выбор и языковое оформление (согласование и упорядочение слов в предложении). Процесс генерации может быть полностью описан на этих языках с помощью наборов продукционных правил в виде однонаправленного конвейера трансформаций входного представления данных. На основе предложенного подхода была реализована инструментальная среда DEMLinG, поддерживающая разработку и эксплуатацию генераторов текстов на ЕЯ.

Смоделирован и реализован представительный фрагмент формального описания грамматики русского языка, базирующийся на основных концепциях системно-функциональной теории. Созданный ресурс может быть использован в предлагаемой среде DEMLinG с помощью реализованных в ней средств интеграции, как готовый модуль языкового оформления для создаваемых в рамках этой системы генераторов.

Практическаязначимостьработы

Предложенный набор компьютерных средств, поддерживает решение задач создания генераторов, работающих как в узких, так и в широких ПО.

Информационное обеспечение, предложенное в диссертации, оказывает поддержку в создании генераторов, работающих в широких ПО. Разработанное информационное обеспечение было опробовано в системе AGILE, созданной в рамках международного проекта по программе INCO-COPERMCUS под управлением Института Исследования Информационных Технологий (l'1'Kl) Университета города Брайтон.

Предлагаемое программное обеспечение, среда поддержки генерации DEMLinG, позволяет быстро создавать эффективные многоязыковые генераторы, работающие в узких ПО. Среда DEMLinG использует предложенные в диссертации методы генерации, специально разработанные для увеличения скорости работы генератора и уменьшения временных затрат на его создание. Среда DEMLinG была применена для создания и поддержки адаптивного модуля генерации текстов естественно-языкового представления SQL-запросов к БД. Разработанный модуль QGen предназначен для встраивания в естественно-языковой интерфейс к базам данных InBASE, созданный коллективом Российского Института

Искусственного Интеллекта (РОС НИИ ИИ). В настоящее время генератор QGen успешно внедрен и используется в этом Институте.

Апробация

Результаты диссертационной работы докладывались на международных конференциях ДИАЛОГ2000 (Россия), ДИАЛОГ2002 (Россия), TSD 2002 (Чехия), "Искусственный Интеллект 2002" (Украина), ДИАЛОГ2003 (Россия), MLMTA-03 (США), а также на семинаре Lecture Series 18 лингвистического центра Vilem Mathesius (Чехия) и наз'чных семинарах в МГУ, ИСП РАН, ИСА РАН, РОС НИИ ИИ.

Структура и объем работы

Диссертация состоит из введения, трех глав, заключения, списка литературы, включающего 134 названия и девятнадцати приложений. Основной (без приложений) текст занимает 131 машинописную страницу.

Содержаниеработы Введение

Во введении раскрывается тема диссертации, анализируется актуальность проблемы, ее состояние в настоящее время и трудности в ее решении, излагается суть поставленной научной задачи, цели исследований, направления и методы решения, научная новизна и практическая значимость работы.

Глава 1

В первой главе делается обзор состояния дел в области построения систем ЕЯГ, обсуждаются наиболее значительные работы в этой области, и выделяются актуальные задачи, которые решались в данной работе.

В первом параграфе обосновывается применение в системах ЕЯГ лингвистически содержательных технологий. Системы, оперирующие с текстом только как с последовательностью символов, уступают по ряду показателей системам, использующим при построении текста знания о грамматике и семантике естественного языка. К таким показателям относятся сопровождаемость, качество синтезируемых текстов, возможность порождения генератором текстов на нескольких языках из одного входного представления и соответствие стандартам письма.

Во втором параграфе описываются основные подходы к построению систем ЕЯГ. В связи с

тем, что естественный язык плохо поддается формализации, в системах ЕЯГ применены

5

некоторые архитектурные решения, известные из теории экспертных систем. Система ЕЯГ, как и экспертная система, разделяется на две части: ресурсы генерации (знания о естественном языке, на котором производится генерация) и обрабатывающий компонент (интерпретатор ресурсов генерации л организатор всего процесса работы системы ЕЯГ). После того, как создан обрабатывающий компонент, дальнейшие работы над системой ЕЯГ напоминают работу инженера знаний по заполнению экспертной системы знаниями. Ресурсы задаются на языке с мощным декларативным компонентом, что значительно облегчает применение для построения генераторов разработанных лингвистами теорий и описаний конкретных ЕЯ.

Очень важным является вопрос, что должна принимать система ЕЯГ на входе. Исходя из практической необходимости, в каждой конкретной системе ЕЯГ этот вопрос решается индивидуально. На вход системы ЕЯГ может поступать, например, фрагмент БД или семантическое описание структуры создаваемого текста. Однако, для общей задачи построения системы, порождающей по предоставляемой ей на входе информации тексты из любой предметной области любой сложности, считается, что такая система должна принимать на входе четыре составляющих:

• фрагмент системы знаний, из которой будет конструироваться текст - состоит из набора фактов предметной области, содержащих информацию, которая должна быть выражена в создаваемом тексте;

• коммуникативная цель порождаемого текста - описывает назначение генерируемого текста в коммуникативной ситуации, в которой он порождается;

• модель читателя текста - содержит информацию, помогающую системе генерации правильно выбрать стиль и развернутость изложения, а также последовательность подачи материала пользователю;

• контекст повествования - позволяет системе отслеживать, о чем пользователь уже. информирован и какие объекты и их характеристики уже были упомянуты.

Во втором разделе второго параграфа рассматриваются основные особенности Многоязыковой Генерации (МЯТ). Основная задача систем МЯТ - это порождение текстов на нескольких языках из единого входного представления. Наиболее важная особенность систем МЯТ - это языковая инвариантность их входного представления. Входное представление выбирается таким образом, чтобы оно было минимально зависимо от особенностей какого-то отдельного ЕЯ. Зависимость входного представления от одного из языков генерации может усложнить создание текстов на других языках и вывести генерацию на этих языках из общего русла процесса генерации.

Исследования в области МЯТ внесли значительный вклад в изучение процесса генерации. Было обнаружено, что выбор языкового соответствия выражаемой информации лучше организовывать как последовательное ограничение области поиска атьтернатив языкового

оформления. Задача выбора разбивается на этапы, на каждом из которых к синтезируемой структуре текста применяются языковые знания, характерные для данного этапа. В начале применяются знания об организации структуры текста, затем об организации структуры предложения. В конце процесса генерации решаются вопросы согласования и порядка слов внутри предложения. Здесь применяются знания, индивидуальные для каждого конкретного ЕЯ.

В третьем параграфе описываются архитектурные решения, применимые при создании систем ЕЯГ. Процесс генерации описывается как однонаправленный конвейер этапов генерации. На каждом этапе решается отдельный вопрос построения текста на ЕЯ. В большинстве систем ЕЯГ конвейер с возможными небольшими вариациями следует одной общей схеме (см. рис. 1), которая подробно рассматривается в тексте параграфа

. Общая схема генерации

В первом разделе третьего параграфа разбираются основные вычислительные методы реализации задач, решаемых на этапах генерации. Это четыре метода: выдача заранее подготовленного решения (canned method), метод шаблонов (template-based method), метод каскадных единиц (cascaded items) и метод свойств (feature-based method). Выбор конкретного метода для задания ресурсов отдельного этапа зависит от того, насколько подробно генератор должен описывать знания, используемые на этом этапе.

Во втором разделе третьего параграфа обсуждаются промежуточные представления обрабатываемых данных, выделенные в общей схеме генерации (рис. 1): представление структуры текста и представления планов предложений.

В оставшихся разделах третьего параграфа подробно обсуждается каждый из выделенных этапов генерации. На первом этапе из входпой информации выделяются сообщения. Они связываются в риторическую структуру1 текста, состоящую из сообщений и риторических отношений между ними.

1 Риторическая структура - структура текста (план текстаХ построенная согласно лингвистической теории риторических отношения, описывающих прагматику естественного языка.

На втором этапе уточняется, как сообщения структуры текста будут выражены предложениями. Здесь выполняются три основных задачи: объединение сообщений в предложения создаваемого текста, лексический выбор (выбор слов предложения) и грамматический выбор (выбор грамматических конструкций предложения). В результате сообщения заменяются семантическими планами предложений. Эти планы определяют слова предложения и семантические связи между ними. Один из наиболее популярных языков описания таких планов - язык SPL.

На заключительном третьем этапе генерации построенные планы предложений преобразуются в тексты самих предложений. Здесь производятся согласование слов и определение их порядка в предложении. Задача третьего этапа достаточно хорошо изучена традиционной лингвистикой. К настоящему моменту разработан ряд систем, реализующих этот этап. Каждая такая система с заложенными в нее знаниями о языке образует законченный модуль языкового оформления текста. Основное различие между ними состоит в способе формализации знаний о естественном языке согласно соответствующей лингвистической теории. Наиболее популярные и хорошо проработанные из таких систем:

• KPML -основывается на теории системно-функциональной лингвистики;

• Serge - реализует теорию функциокально-укификационной грамматики;

• RealPro - реализует лингвистическую модель Мельчука Смысл-Текст,

• TagGen - реализует теорию построения грамматик TAG (Tree Adjoining Grammar).

В заключительном четвертом параграфе указывается на две из наиболее актуальных на настоящий момент задач, которые решались в этой диссертации:

• Наполнение систем языкового оформления знаниями по русскому языку. Несмотря на то, что к настоящему моменту разработан ряд систем, реализующих этап языкового оформления, в них заложены знания только по отдельным и очень немногим языкам. В частности, знания по русскому языку не были заложены ни в одну из наиболее популярных реализаций этих систем.

• Создание инструментальных средств, в рамках которых можно проводить полную разработку систем ЕЯГ. На сегодняшний момент у исследователей в области ЕЯГ есть достаточно четкое представление, какие задачи, в каком порядке и какими средствами должны решаться в процессе генерации. Однако до сих пор еще не предпринималось попытки создать набор инструментальных средств, поддерживающих разработку и эксплуатацию всех модулей разрабатываемого генератора, соответствующих выделенным этапам генерации, и координацию взаимодействия этих модулей. В тоже время, наличие таких инструментальных средств позволило бы значительно ускорить создание новых систем ЕЯГ.

Глава2

Во второй главе рассматриваются задачи формализации лингвистических знаний о грамматике, семантике, лексике и морфологии языка, и наполнения системы языкового оформления KPML формализованными знаниями о русском языке.

Среда KPML (Komet-Penman Multilingual) - это система разработки и эксплуатации больших многоязыковых системно-функциональных компьютерных моделей ЕЯ. Знания о языке задаются в этой системе в виде лексико-грамматического ресурса - компьютерного воплощения большого многоязыкового лингвистического описания, заданного в формализме системно-функциональных грамматик. Созданный ресурс разрабатывался в рамках международного проекта AGILE, целью которого было создание системы генерации, предназначенной для производства текстов хорошо структурированных ШМЬ-руководств по работе с программной системой AutoCAD. Созданный в рамках данного проекта генератор создает тексты руководств на болгарском, чешском и русском языках. Система генерации названа так же, как и проект, - AGILE. Проект был успешно сдан комиссии программы INCO-COPERNICUS.

В первом параграфе главы излагаются основы системно-функциональной теории, используемой как теоретический базис для формализации описаний лингвистических знаний в системе KPML. Отличительная черта этой теории - это ее взгляд на лингвистическое высказывание, как на результат процесса множественного выбора между вариантами, предоставляемыми взаимосвязанными сетями, которые состоят из систем семантического, грамматического и лексического выбора, ассоциированных с различными уровнями абстрагирования этого выбора.

Во втором параграфе излагаются основные принципы построения ресурсов в системе KPML. Система KPML была разработана в Университете Бремена исследовательским коллективом под управлением Джона Бейтмена К моменту разработки русского лексико-грамматического ресурса система включала в себя восемь больших фрагментов формальных грамматик следующих языков: английского, немецкого, французского, испанского, голландского, греческого, китайского и японского. Ресурсы новых языков разрабатываются в этой системе на базе английской грамматики the English grammar NIGEL, созданной в рамках проекта Penman. Система KPML написана на языке программирования Common Lisp.

На входе KPML получает семантическое описание плана предложения, записанное на языке SPL, которое определяет отдельные слова предложения и семантические (т.е. смысловые) связи между ними. На выходе из этого модуля создаются предложения на ЕЯ.

(S / DIRECTED-ACTION :LEX RISOVATJ

:ACTOR (D / OBJECT :LEX POLJZOVATELJ ) :ACTEE (L / OBJECT :LEX LINIJA )

Рис. 2. SPL-план предложения "Пользователь рисует линию".

Грамматика системы KPML состоит из двух частей: лексического компонента (словаря) и грамматического компонента (сети грамматики). Сеть грамматики классифицирует элементы создаваемого грамматического представления, записываемого в терминах непосредственных составляющих, последовательно уточняющими друг друга семантическими свойствами. Работу системы KPML с заданной грамматической сетью можно представить следующим образом. Вначале сеть классифицирует корневой узел составляемой грамматической структуры. В результате классификации грамматическая структура уточняется - в результате некоторых выборов утоняющих классифицирующих свойств производятся действия по вставке в грамматическую структуру новых узлов, зависимых от обрабатываемого. Затем грамматическая сеть последовательно классифицирует каждый из вставленных элементов.

Грамматическая сеть задается набором правил. Каждое правило состоит из логического выражения над уже выбранными для обрабатываемого элемента классифицирующими свойствами на входе и модуля выбора одного из нескольких вариантов уточняющего свойства на выходе.

I —вопросит."О

—простое—О -п.

—Старт—Q

поеествоеат.-^ —процесс—Л _'—Ф — Дополнение в «О

-предложение—Л |-повелит.-0 винит, палеи

I -сложное-Q

ис. 3

^предложена* фулпа

Ый фрагмент i сети для системы KPML

-именная группа—О

В третьем параграфе расСказывается об ТосОЙейНОСТях создания грамматического ресурса русского языка в системе KPML Ресурс русского языка разработан на основе существующего грамматического ресурса NIGEL: грамматическая сеть английского языка адаптировалась (и дополнялась) к особенностям русского языка.

Существуют два подхода к созданию грамматических ресурсов: системно-ориентированный метод и корпусный подход. Для создания грамматического ресурса русского языка в данной работе использовалась комбинация этих подходов. Системно ориентированный метод

предписывает реализацию языковых явлений в грамматике с позиции их семантики в полной

10

языковой системе. Использование корпусных технологий при разработке грамматического ресурса русского языка помогает на основе анализа набора специально подобранных текстов выделить для реализации только ту часть языковой системы, которая необходима для правильной генерации отобранных примеров.

В ходе разработки грамматического ресурса проводились адаптация английской грамматики, которая сводилась к копированию с возможными небольшими модификациями систем выбора английской грамматики, пригодных для описания аналогичных языковых явлений в русском языке, и реализации новых языковых явлений, специфичных для русского языка и отсутствующих в английской грамматике. В то время как задача копирования представляет собой в основном механическую работу, задача реализации новых языковых явлений требует дополнительного анализа. В тексте диссертации приводится пример реализации новых языковых явлений в грамматике русского языка для задачи согласования внутри именной группы по роду, характерной для русского языка и не использующейся в английском языке.

Объем реализации созданного грамматического ресурса может быть оценен следующими цифрами: грамматическая сеть описана 2245 правилами (макросами языка Лисп), лексический ресурс состоит из 485 правил.

В четвертом заключительном параграфе главы описывается система AGILE, в которой использовался разработанный грамматический ресурс. Эта система полностью реализована в парадигме системно-функционального подхода. Общая цель проекта AGILE - разработать набор программных средств в помощь техническому писателю для создания руководств для программного средства AutoCAD на болгарском, чешском и русском языках. Система была разработана в 2000 году международным коллективом из России Болгарии и Чехии под управлением Института Исследований Информационных Технологий (ITRI) Университета города Брайтон в рамках проекта программы INCO-COPERNICUS. Генерация производится из формального представления содержания текстов инструкций системы AutoCAD, единого для всех трех языков генерации, поддерживаемых системой. Это входное представление создается пользователем системы AGUE, техническим писателем, в графическом интерфейсе, специально разработанном для системы AGILE.

В процессе участия в проекте AGILE автор данной работы принимал активное участие в разработке лексико-грамматических ресурсов русского языка при поддержке лингвиста, который помогал вьзделить и сформулировать необходимые для занесения в систему KPML лингвистические знания.

Среда KPML зарекомендовала себя в проекте AGILE как система, использование которой в генераторе позволяет значительно повысить качество контроля над описываемыми лингвистическими явлениями.

Глава 3

Третья глава посвящена описанию созданных инструментальных средств, поддерживающих разработку всех модулей генератора, соответствующих выделенным этапам генерации, и координацию взаимодействия этих модулей.

В первом параграфе главы обсуждается состав разработанных инструментальных средств. Согласно поставленной цели, инструментальные средства должны:

• поддерживать разработку отдельных модулей генерации «с нуля»;

• при возможности использования уже готовых модулей в системе генерации, поддерживать интеграцию этих модулей с системой;

• включать в себя средство управления всем процессом генерации. Поддерживаемые генераторы содержат ресурсы генерации и обрабатывающий

компонент. Обрабатывающий компонент неизменен для всех генераторов, поддерживаемых предлагаемыми инструментальными средствами. Ресурсы генерации содержат изменяемую часть системы ЕЯ Г и отражают особенности каждой конкретной задачи построения генератора (область приложения, выбранный естественный язык).

Для обеспечения гибкости подхода, входные и обрабатываемые данные должны описываться в едином формализме. В качестве такого формализма был выбран язык структурированного описания данных XML. На сегодняшний момент XML является стандартом обмена информацией между различными приложениями. Четкость синтаксиса и его удобство для описания структур данных, наглядность описаний и высокая популярность этого формализма делают его наиболее подходящим средством для задания входных и обрабатываемых данных генератора.

Для описания действий, проводимых на этапах генерации, были выделены языки определения этих действий. Чтобы определить количество таких языков, оптимальное для описания действий на различных этапах генерации, и их характерные особенности, были выделены основные виды деятельности, проводимые в системах генерации. Каждому виду деятельности был сопоставлен язык его описания:

Вид деятельности Язык описания процесса генерации

Структурные преобразования данных - язык планирования

Выбор слов в предложениях создаваемого текста - язык лексического выбора Согласование и упорядочение слов в предложении - язык грамматического оформления

Выделенные языки были реализованы в инструментальных средствах соответствующими интерпретаторами и отладчиками, которые составили средство поддержки разработки модулей генерации «с нуля».

В связи со сложностью процесса генерации и большими объемами ресурсов, необходимыми для его поддержки, инструментальными средствами должна предоставляться возможность интеграции модулей, разработанных вне предлагаемых инструментальных средств, но пригодных для использования в создаваемом генераторе. Для обеспечения такой возможности, в инструментальные средства включаются абстрактные СОМ-интерфейсы для внешних модулей, реализующих отдельные этапы генерации, и средства взаимодействия с ними. Для интеграции внешнего модуля, реализующего отдельный этап генерации, в набор инструментальных средств, пользователь должен создать для этого модуля СОМ-интерфейс, наследуемый от одного из предлагаемых абстрактных интерфейсов.

Для организации процесса генерации из модулей, созданных в рамках предлагаемого набора инструментальных средств, был создан специальный язык описания сценария генерации. На этом языке прописываются имена файлов, хранящих ресурсы генерации, и пути к ним в файловой структуре. Для модулей, разработанных в других системах, в файле сценария записываются идентификаторы их СОМ-интерфейсов, подключенных к системе. Такой подход упрощает создание новых генераторов с использованием уже имеющихся ресурсов других генераторов. Для создания нового генератора разработчику надо написать новый сценарий и указать в нем ресурсы, которые могут без изменений использоваться в новом генераторе. Заново должны быть созданы только отличающиеся ресурсы.

Предлагаемые инструментальные средства реализованы в единой среде разработки и эксплуатации генераторов текстов на ЕЯ. Эта среда была названа DEMLinG (Development Environment for MultiLingual Generators). Архитектурно система DEMLinG строится на основе технологии СОМ в идеологии клиент-сервер (рис. 4).

Вычислительный компонент представляет собой виртуальную машину, включающую в себя интерпретаторы и отладчики языков планирования, лексического выбора, грамматического оформления и сценария. Виртуальная машина предусматривает также возможное подключение к ней через СОМ-интерфейс модулей генерации, реализованных в других системах (например, модуля языкового оформления, реализованного в системе KPML, или модуля морфологического оформления, реализованного фирмой Dialing).

Рабочее место разработчика генераторов в системе DEMIinG - это клиент виртуальной машины. Оно содержит интерфейс для запуска всего процесса генерации и средства отладки для каждого модуля системы. Дополнительно в рабочее место разработчика включаются средства тестирования создаваемого генератора на корпусе текстов.

Среда DEMLinG была реализована на языке MS Visual J+ + . Объем кода системы составляет 10558 строк.

Во втором параграфе третьей главы рассматриваются две схемы генерации, разработанные для реализации в генераторах, создаваемых в рамках предложенных инструментальных средств:

• модель организации генераторов с использованием системы KPML в качестве модуля языкового оформления для решения задач разработки сложных генераторов

• модель без использования системы KPML для решения задач, где необходима высокая скорость работы генератора и не требуется полного описания ЕЯ.

На рисунке 5 представлена структурная организация генераторов, использующих систему KPML на этапе языкового оформления:

Использование среды KPML как готового модуля языкового оформления значительно

упрощает разработку сложных генераторов. Однако, вследствие подробности и сложности

14

описания русского языка в этом ресурсе, использующий его генератор работает медленно и занимает большой объем в памяти компьютера. Это затрудняет использование приведенной схемы для задач, где необходима высокая скорость работы генератора и не требуется полное описание ЕЯ.

Примером такой задачи может послужить задача создания генератора естественноязыкового представления SQL запроса к БД Система генерации естественно-языкового представления SQL запроса к БД очень полезна для совместного использования с естественно-языковыми интерфейсами к базам данных. Естественно-языковые интерфейсы позволяют пользователю обращаться к БД на своем родном языке. В связи с неоднозначностью языка, такие системы не всегда правильно переводит ЕЯ запрос пользователя на язык запросов SQL. Для решения этой проблемы пользователю необходимо предоставить средство контроля правильности «понимания» его запроса системой. Таким средством является генератор ЕЯ представления составленного системой SQL запроса.

Система ЕЯГ является для ЕЯ-интерфейса лишь вспомогательным средством, улучшающим качество взаимодействия этого интерфейса с пользователем. Поэтому от системы требуется высокая скорость работы, небольшие размеры и легкость в разработке. В то же время синтезируемые системой генерации ЕЯ-интерпретации SQL-запросов к базам данных используют ограниченное количество грамматических конструкций ЕЯ, то есть не требуется полноты описания ЕЯ.

Для решения таких задач схема генерации, приведенная на рис. 5, была модифицирована, и модуль языкового оформления спроектирован заново. Модифицированная схема генерации представлена на рис. 6.

Важное отличие этой схемы от представленной на рис. 4 состоит в том, что модуль языкового оформления получает на входе не семантическое представление SPL, а грамматическое представление синтагм, специально разработанное для этой схемы. Использование грамматического представления для описания структуры предложения значительно упрощает модуль языкового оформления, так как это представление лучше подходит для решения задач согласования и упорядочения слов в предложении.

В связи с наличием большого числа пригодных для применения систем морфологического разбора слов, модуль морфологического оформления удобно реализовывать как внешний для системы модуль, подключаемый к системе через СОМ-интерфейс. В данной работе при реализации генераторов по предложенной схеме использовались разработки фирмы Dialing. Однако, для простых случаев этот модуль может быть реализован на языке лексического выбора, поддерживаемом системой.

В рамках системы DEMLinG была решена описанная выше задача создания модуля генерации естественно-языкового представления SQL запросов к БД. В решении такой задачи оказался заинтересован Институт Искусственного Интеллекта, в котором был реализован ЕЯ-интерфейс к базам данных - система InBASE. Для обеспечения высокой скорости работы и небольших размеров генератора было решено создавать свой генератор для каждой конкретной БД, с которой работает система InBASE. Разрабатываемые модули генерации были названы QGen (Query Generators).

К настоящему моменту разработаны генераторы для двух предметных областей (баз данных отдела кадров предприятия и магазина автомашин). Разработанные генераторы могут по выбору порождать тексты на русском или английском языках. Они разрабатывались по второй из предложенных схем генерации. Объем реализации ресурсов генераторов составил 508 правил. Из них 303 правила словарных правила и 19 правил грамматического оформления.

Для упрощения создания новых генераторов QGen были написаны инструкции по разработке нового генератора. Для создания нового генератора разработчику нужно выполнить следующую последовательность действий:

1. Выделить лексически значимые объекты модели предметной области, в которой должен работать генератор

2. Написать для каждого выделенного объекта по одному правилу лексикализации и подключить созданный словарь к уже имеющимся остальным ресурсам генератора

3. Собрать корпус текстов для настройки генератора

4. Пропустить через генератор примеры из корпуса

5. Расширить словарь синонимией, при необходимости расширить грамматический ресурс

В заключительном третьем параграфе главы делаются выводы о созданных инструментальных средствах, реализованных в системе DEMLinG. Предложенные инструментальные средства соответствуют требованиям, сформулированным в последнем разделе первой главы диссертации. Они обеспечивают:

• Простоту настройки системы на порождение текстов, адекватно описывающих представляемую на входе генератора информацию. Применение лингвистически содержательного подхода для преобразования входного представления информации в текст на ЕЯ позволяет с помощью хорошо теоретически проработанного разделения задачи генерации на последовательность подзадач добиться высококачественной и простой настройки ресурсов генератора на особенности решаемой задачи. Рассмотрим, например, чувствительность генератора к изменениям входного представления. В некоторых случаях, незначительное изменение входного представления может вызвать существенные различия в создаваемом тексте. Так, например, похожие входные представления данных, представленные на рис. 7, выражаются в генераторе QGen разными грамматическими структурами, как того требует особенности ЕЯ-интерпретации SQL запроса к БД.

SQL запрос, подаваемы на вход системе QGen:

SELECT ...

SELECT... FROM Сотрудник WHERE

not ((Сотрудник-Рабочий телефон = "))

Фамилии, имена, должности и рабочие телефоны сотрудников, имеющих рабочий тепефон

FROM Сотрудник WHERE

not ((Сотрудник. Рабочий телефон = •155-55-55')) Результат генерации:

Фамилии, имена, должности и домашние телефоны сотрудников с рабочим телефоном не < '155-55-55">.

Рис 7. Пример генерации текстов SQL-запросов в системе QGen

Скорость работы, достаточную для работы системы генерации в режиме реального времени.

Высокую адаптивность к смене языка и предметной области. Создание нового генератора, с использованием уже разработанных ресурсов других генераторов, занимает несколько дней работы одного или двух разработчиков (лингвистов со знание основ программирования). Создание такого же генератора «с нуля» занимает несколько недель работы того же коллектива

Заключение

В заключении подводятся итоги работы. Формулируются основные выводы по полученным результатам, приводятся сведения об апробации и полноте опубликования в научной печати основного содержания диссертации, ее результатов и выводов. Здесь рассказывается также, где были внедрены результаты диссертационной работы, и где еще они могут быть использованы.

Приложения

В приложения вынесены описания синтаксиса разработанных в диссертации языков описания ресурсов генерации, формальные спецификации разработанных СОМ-интерфейсов, классовые модели системы DEMLinG, полное описание используемых в системе QGen синтагм, а также примеры ресурсов генерации системы QGen.

Основные результаты

Основные результаты диссертационной работы заключаются в следующем:

1. Разработаны методы и алгоритмы генерации текстов естественного языка на основе XML-представления информации. Предложенные методы ориентированы на создание многоязыковых систем генерации, настраиваемых на конкретные предметные области.

2. Построено формальное описание грамматики и лексики русского языка для реализации информационных ресурсов в системах генерации текстов.

3. Создана инструментальная программная среда разработки и эксплуатации систем многоязыковой генерации.

В этой среде реализованы системы генерации текстов естественно-языкового представления SQL запросов к БД на русском и английском языках, выполняющие генерацию для баз данных кадров предприятия и магазина автомобилей.

Публикации

По теме диссертации опубликовано 9 следующих печатных работ, достаточно полно

отражающих основные научные результаты диссертации:

1. Соколова Е.Г., Болдасов М В. Идеационные дискурсные функции и структура задачи при многоязыковой генерации текстов инструкций // Труды Международного семинара ДИАЛОГ2000 по компьютерной лингвистике и ее приложениям, 2000 Т. 2, стр. 335-346.

2. Boldasov M.V., Sharoff SA, Sokolova E.G., Zhigalov VA Towards a GIS-based multimodal question answering system. In Renate Pajusalu and Tiit Hennoste (eds.) ahendusepuudja/Catcher of the meaning. Festschrift for Professor Haldur Oim on the occasion of his 60th birthday. University ofTartu. Tartu. 2002. pp. 42-65.

3. Соколова Е.Г., Болдасов М.В. Генерация текста содержания запроса пользователя системой InBASE в виде естественно языкового высказывания // Труды Международного семинара ДИАЛОГ2002 по компьютерной лингвистике и ее приложениям, 2002, Т.2 стр.49-60.

4. Michael V. Boldasov, Lena G. Sokolova, Michail G. Malkovsky User query understanding by InBASE system as a source for a multilingual NL generation module (first step). Springer Lecture Notes in Computer Science, Vol. 2448,2002, pp. 33-40.

5. Болдасов МБ. О генераторе естественно-языковых высказываний для системы ЕЯ-интерфейсов к базам данных InBASE. Материалы научно-технической конференции "Искусственный Интеллект 2002", т. 2, Таганрог-Донецк, 2002, стр. 23-25.

6. Болдасов М.В. О генераторе естественноязыковых высказываний системы ЕЯ-интерфейсов к базам данных InBASE // Научно-теоретический журнал Искусственный Интеллект47002 (ISSN 1561-5359),НаукаiocBrra2002., стр. 172-179.

7. Michael V. Boldasov, Elena G. Sokolova QGen - Generation Module for the Register Restricted InBASE System. In: A. Gelbukh (Ed), Springer Lecture Notes in Computer Science, Vol. 2588, 2003, pp. 465-476.

8. Болдасов М. В. - Парадигмы генерации ЕЯ текстов в инструментальной среде DEMLinG. // Труды Международной конференции ДИАЛОГ2003 по компьютерной лингвистике и интеллектуальным технологиям, 2003, стр. 66-75.

9. Boldasov М., Sokolova Е. Generation as paraphraising in the NL-interface to a Data Base. In: Proceedings of the International Conference on Machine Learning, Model, Technologies and Applications (MLMTA-03), Hit. Arabnia and E.B. Kozerenko (Ed.),CSREA Press, Las Vegas, USA, 2003, pp. 62-67.

Заказ №342. Объем 1 пл, Тираж 100 экз.

Отпечатано в ООО «Петроруш». г. Москва, ул. Палиха-2а, тел. 250-92-06

p-55ie:

Оглавление автор диссертации — кандидата физико-математических наук Болдасов, Михаил Викторович

Введение.

1. Основы построения систем ЕЯГ.

1.1. Системы ЕЯГ и лингвистически мотивированный подход.

1.2. Подходы к построению систем ЕЯГ.

1.2.1. Входное представление для систем ЕЯГ.

1.2.2. Системы МЯГ.

1.2.3. Модульность и конвейерность схемы генерации систем ЕЯГ.

1.3. Архитектура систем ЕЯГ.

1.3.1. Вычислительные методы реализации этапов генерации.

1.3.2. Промежуточные представления в процессе генерации.

1.3.3. Этап макропланирования.

1.3.3.1. Определение содержания.

1.3.3.2. Структурирование содержания: Теория предикативных схем.

1.3.3.3. Структурирование содержания: Теория риторических структур.

1.3.4. Этап микропланирования.

1.3.4.1. Агрегация.

1.3.4.2. Лексикализация.

1.3.4.3. Вставка ссылочных конструкций.

1.3.5. Этап языкового оформления.

1.3.5.1. Грамматики SFG.

1.3.5.2. Грамматики TAG.

1.3.5.3. Грамматики Смысл-Текст.

1.3.5.4. Двунаправленные грамматики.

1.3.6. Этап физического представления.

1.4. Нерешенные вопросы в построении систем ЕЯГ и выводы для данной работы.

2. Грамматика русского языка в системе KPML.

2.1. Системно-функциональная теория.

2.2. Среда KPML.

2.2.1. Системы.

2.2.2. Входное представление SPL.

2.2.3. Модуль выбора системы.

2.2.4. Модуль Inquiry.

2.2.5. Морфологический блок.

2.3. Лексико-грамматический ресурс русского языка.

2.3.1. Реализация в ресурсе русской грамматики согласования.

2.4. Система AGILE.

2.4.1. Входное представление дескриптивной логики. Т-Вох и А-Вох.

2.4.2. Жанры текстов инструкций системы AGILE.

2.4.3. Реализация стадии языкового оформления.

2.4.4. Выводы из опыта участия в проекте AGILE.

3. Среда поддержки разработки и эксплуатации генераторов DEMLinG и генератор QGen.

3.1. Назначение и состав предлагаемых инструментальных средств.

3.1.1. Обрабатываемые данные.

3.1.1.1. Понятие роли в обрабатываемых данных.

3.1.1.2. Свойства.

3.1.1.3. Описание обрабатываемых данных на языке XML.

3.1.2. Ресурсы.

3.1.2.1. Ресурс сценария.

3.1.2.2. Ресурс планирования.

3.1.2.3. Ресурс грамматического оформления.

3.1.2.4. Ресурс лексического выбора.

3.1.3. Реализация инструментальных средств в системе DEMLinG.

3.1.3.1. Модуль морфологического оформления, интегрируемый в систему

DEMLinG.

3.2. Архитектура генераторов в системе DEMLinG.

3.2.1. Генератор QGen.

3.2.2. Модель генерации в системе QGen.

3.2.2.1. Макропланирование.

3.2.2.2. Микропланировапие. Переход к грамматическому представлению

3.2.2.3. Языковое оформление.

3.2.2.4. Этап морфологического оформления.

3.2.3. Особенности предложенной схемы генерации.

3.2.4. Технология создания генераторов QGen в среде DEMLinG.

3.3. Оценка полученного результата.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Болдасов, Михаил Викторович

Язык лежит в основе человеческой деятельности. Языковую деятельность человека можно поделить на две составляющие: понимание языка и составление высказываний на языке, исходя из целей говорящего. Отсюда две важнейшие задачи, решаемые при компьютерной обработке текстов: аиализ и синтез (генерация) текстов на Естественном Языке (ЕЯ).

Естествешю-языковая Генерация (ЕЯГ) занимается проблемой автоматического порождения текстов на ЕЯ из внутреннего представления информации в компьютере, представленного в формальном виде. Цель исследований в области ЕЯГ - создание интеллектуальных компьютерных систем, которые бы могли производить понятные для человека тексты на различных ЕЯ. Входным представлением таких систем могут быть, например, таблицы БД, формальные спецификации программ, метеорологические карты. Создаваемые системами ЕЯГ тексты - это обычно типовые документы, такие как отчеты, разъяснения и справочная информация.

Данная работа посвящена проблеме создания эффективных методов и алгоритмов автоматической генерации текстов па естественном языке и реализации на их основе программно-информационного обеспечения, поддерживающего как собственно генерацию текстов, так и процесс разработки и сопровождения многоязыковых генераторов.

Тема работы актуальна. На современном этапе развития компьютерной индустрии роль естественно-языковых технологий выдвигается на первый план. Значительно возросла потребность пользователей программного обеспечения в представлении информации в текстовом виде. В связи с этим задача создания программных систем ЕЯГ приобретает особое значение. На сегодняшний момент системы ЕЯГ успешно применяются в таких задачах, как:

Генерация текстовых прогнозов погоды из графических представлений на погодных картах [Goldberg et al. 1994];

Отчеты по статистическим данным, полученным из БД или крупномасштабных таблиц [Iordanskaia et al. 1992];

Интерпретация медицинской информации в понятной для пациентов форме [Buchman et al. 1995; Cawsey et al. 1995]

Описание цепочки принятых решений при работе экспертной системы [Swartout 1983];

Подготовка ответов на вопросы об объектной Базы Знаний (БЗ) [Reiter et al. 1995].

Представленный список задач ни в коей мере нельзя считать полным; в исследовательской литературе описывается также множество других приложений.

В условиях расширения международных связей все большое внимание уделяется сейчас исследованиям, связанным с многоязыковой генерацией (МЯГ) [Соколова, Шаров 1998], позволяющей создавать тексты на нескольких языках на основе представления информации, единого для всех этих языков. Первая коммерческая система МЯГ появилась только в начале 90'х годов XX века в Канаде. Она была предназначена для генерации морских сводок погоды на английском и французском языках. Наиболее типичными системами МЯГ являются:

Средства, помогающие представителям службы сервиса составлять письма своим клиентам [Springeret al. 1991; Coch 1996];

Средства, помогающие инженерам создавать описания к своим чертежам [McKeown et al. 1994]

Средства, помогающие служащим отдела кадров составлять описания вакансий [Caldwell and Korelsky 1994];

Средства, помогающие техническим писателям составлять инструкции по пользованию программным продуктом [Paris et al. 1995] [Kruijff et al. 2000].

Естественный язык трудно поддается формализации. Для создания генератора, работающего даже в относительно узкой Предметной Области (ПО), требуется привлечение больших массивов знаний о языке, на котором синтезируется результирующий текст. Поэтому наиболее актуальным представляется решение следующих задач:

• формализация предметных знаний о языке, создание массивов языковых ресурсов;

• создание программных средств разработки и эксплуатации таких ресурсов. Поставленные проблемы решены не в полной мере. В настоящее время они привлекают внимание многих исследователей. Решению этих проблем и посвящена данная диссертация.

Основной целью представленной диссертационной работы является создание программно-информационного обеспечения, состоящего из: информационного компонента, представленного грамматиками, словарями и другими языковыми ресурсами; программной составляющей - набора инструментальных средств, поддерживающих разработку и эксплуатацию систем ЕЯГ.

Традиционно процесс генерации разделяется на два этапа: этап планирования и этап языкового оформления. На этапе планирования выбирается последовательность изложения в создаваемом тексте и определяются структуры образующих его предложений. На этапе языкового оформления решаются задачи согласования и упорядочения слов в построенных планах предложений.

Теоретическая база для этапа языкового оформления, хорошо проработана лингвистами. К настоящему времени существует ряд лингвистических теорий, и реализующих их систем. Наиболее популярная и хорошо проработанная среди них -это теория системно-функциональной лингвистики и реализующая ее система KPML [Bateman 1996]. В рамках созданных систем разработаны грамматические ресурсы для отдельных языков. Для русского языка таких ресурсов разработано не было. Поэтому первый рассматриваемый в данной диссертации вопрос - это вопрос создания грамматического ресурса русского языка.

Грамматический ресурс русского языка был создан в рамках системы KPML. Ресурс в совокупности с системой KPML образует законченный модуль, полностью реализующий этап Языкового оформления текста. На входе этот модуль получает описание предложения на языке SPL. План предложения, записанный на этом языке, определяет отдельные слова предложения и семантические (т.е. смысловые) связи между ними. На выходе из этого модуля создаются предложения на ЕЯ. Ресурс системы KPML состоит из двух частей: грамматического компонента (сети грамматики) и лексического компонента (словаря).

Ресурс русского языка создавался в рамках европейского проекта AGILE вместе с грамматиками чешского и болгарского языков корпусным методом в расчете на задачу описания текстов руководств по программному обеспечению для пользователей. Созданный в рамках данной работы фрагмент грамматики русского языка полностью реализует грамматические явления, обнаруженные в специально созданном для проекта AGILE корпусе текстов инструкций по использованию инструментальной компьютерной системой Автокад [Zirbel and Combs 1996]. При создании этого фрагмента были смоделированы такие языковые явления, как глагольные характеристики переходности, вида, наклонения и модальности, а также согласование, порядок слов в предложении, конъюнкция, языковое оформление квантитативных конструкций, явления пропуска подлежащего в предложении, языковое оформление сложных предложений.

Этап планирования текста в существующих системах, разработанных другими авторами, проработан значительно слабее. Для этого этапа еще не было реализовано ни ресурсов генерации, пи инструментальных средств, поддерживающих разработку и эксплуатацию соответствующего модуля системы. В диссертации предлагается набор программных средств, поддерживающих создание обоих модулей системы генерации. Предлагаемые инструментальные средства состоят из интерпретаторов и отладчиков языков описания действий процесса генерации, средств координации взаимодействия различных модулей ЕЯГ. Модули генерации могут быть созданы в рамках предлагаемых инструментальных средств или же интегрированы с помощью СОМ-интерфейса. Для выделения языков, необходимых для описания процесса генерации, было проведено исследование архитектур существующих генераторов текстов на ЕЯ, в результате чего были выделены три основных вида деятельности и, соответственно, три языка описания процесса генерации:

Вид деятельности Язык описания процесса генерации

Структурные преобразования данных - язык планирования

Выбор слов в предложениях создаваемого текста - язык лексического выбора

Согласование и упорядочение слов в предложении - язык грамматического оформления

Предлагаемые инструментальные средства реализованы в единой среде разработки и эксплуатации генераторов текстов на ЕЯ. Эта среда была названа DEMLinG (Development Environment for MultiLingual Generators).

Виртуальная машина системы DEMIinG включает в себя интерпретаторы и отладчики языков планирования, лексического выбора, грамматического оформления и сценария. Виртуальная машина предусматривает также возможное подключение к ней через СОМ-интерфейс модулей генерации, реализованных в других системах (например, модуля языкового оформления, реализованного в системе KPML, или модуля морфологического оформления, реализованного фирмой Dialing).

Кроме определения средств описания процесса генерации, очень важен вопрос архитектуры генераторов, создаваемых в системе DEMLinG. Архитектура системы ЕЯГ описывается схемой генерации, настроенной на особенности решения прикладных задач. Она определяет, как создавать новый генератор в предлагаемых инструментальных средствах, какие задачи и в какой последовательности должны решаться в процессе генерации, и какие языки должны использоваться для описания действий, проводимых для решения поставленных задач. В диссертации предлагаются как модель организации генераторов с использованием системы KPML в качестве модуля языкового оформления для решения задач разработки сложных генераторов, так и модель без использования системы KPML для решения задач, где необходима высокая скорость работы генератора и не требуется полного описания ЕЯ. Использование предлагаемых схем генерации предоставляет пользователю системы DEMLinG эффективную технологию разработки систем ЕЯГ.

Поэтому в диссертации предлагаются как модель организации генераторов с использованием системы KPML в качестве модуля языкового оформления для решения задач разработки сложных генераторов, так и модель без использования системы KPML для решения задач, где необходима высокая скорость работы генератора и не требуется полного описания ЕЯ.

Практическая значимость. Разработка реальных приложений, созданных в рамках предложенных инструментальных средств является одним из критериев их возможностей и зрелости. Мощность предлагаемых компонентов инструментальной базы и возможность их использования в реальных задачах подтверждена экспериментально путем построения опытных генераторов в каждом из созданных средств.

Грамматический ресурс русского языка успешно использован при разработке системы AGILE [Kruijff et al. 2000] - генератора в помощь техническому писателю для создания руководств для программного обеспечения AutoCAD на болгарском, чешском и русском языках. Автор принимал активное участие в разработке планирующего ресурса и в адаптации используемого грамматического ресурса к создаваемому генератору. Проведенный эксперимент показал эффективность использования построенной грамматики русского языка в проектах по созданию сложных ЕЯ-генераторов.

Генератор QGen (Query Generator) решает задачу представления SQL запроса к БД на ЕЯ для ЕЯ-интерфейсов InBASE [Жигалов и Соколова 2001], которые позволяют обращаться к реляционным базам данных на ЕЯ. Особенности решаемой задачи требуют от генератора небольших размеров и высокой скорости работы. Поэтому было решено реализовывать отдельные генераторы для каждой конкретной БД, с которой работает система 1пВА5Е. К настоящему моменту система ЕЯГ (^Осп поддерживает два языка генерации (русский и английский) и две базы данных: опытную базу, описывающую кадры предприятия, созданную в качестве примера применения системы ¡пВАБЕ, и базу данных сети автомобильных магазинов, интерфейс для которой разрабатывается сейчас для одного из интернет-магазинов. Генератор строился по заказу РосПИИ ИИ для его интеграции в систему ¡пВАБЕ [Жигалов и Соколова 2001].

Новизна данной диссертационной работы состоит в том, что:

1. На основе анализа современных систем генерации в работе сформулирован новый подход к созданию адаптивных многоязыковых систем генерации, работающих в ограниченных предметных областях. Стержнем этого подхода является предлагаемая модель генерации, подкрепленная тремя разработанными языками описания действий, проводимых системой ЕЯГ в рамках предложенной модели. Предлагаемые языки описывают три основных вида деятельности систем ЕЯГ: структурные преобразования данных, лексический выбор и языковое оформление (согласование и упорядочение слов в предложении). Процесс генерации может быть полностью описан на этих языках с помощью наборов продукционных правил в виде однонаправленного конвейера трансформаций входного представления данных. На основе предложенного подхода была реализована инструментальная среда РЕМЬтв, поддерживающая разработку и эксплуатацию генераторов текстов на ЕЯ.

2. Смоделирован и реализован представительный фрагмент формального грамматического описания русского языка, базирующийся на основных концепциях системно-функциональной теории. Созданный ресурс может быть использован в предлагаемой среде РЕМЬтв с помощью реализованных в ней средств интеграции, как готовый модуль языкового оформления для создаваемых в рамках этой системы генераторов.

Диссертация состоит из трех глав, заключения, списка литературы, включающего 134 названия, и девятнадцати приложений. В первой главе анализируется состояние дел в области построения систем ЕЯГ и приводится обзор наиболее значительных работ в этой области. В конце главы выделяются актуальные задачи, которые решались в дайной работе, и определяются основные методики их решения.

Во второй главе рассматривается задача наполнения системы языкового оформления KPML знаниями по русскому языку. Здесь также приведен обзор системы KPML, и общее описание системы AGILE, в которой использовались созданные ресурсы. В конце главы приведены выводы по использовании системы KPML и разработанного грамматического ресурса.

Третья глава посвящена описанию созданных в рамках данной работы инструментальных средств поддержки разработки и эксплуатации систем ЕЯГ. В начале главы обсуждается состав и основные принципы организации предлагаемых инструментальных средств. Затем рассматривается способ их реализации в среде DEMLinG. Далее рассматриваются две альтернативные схемы генерации, разработанные для реализации в генераторах, создаваемых в рамках этой среды. Подробно обсуждается одна из предложенных схем на примере разработанного в системе DEMLinG генератора QGen. В конце главы приведены выводы об особенностях предложенной схемы генерации и дается оценка полученного результата.

В заключении кратко сформулированы основные теоретические и практические результаты работы. Приведены сведения об апробации и публикациях, в которых отражены основные результаты диссертации.

В приложениях приводятся:

Классификация свойств в системе DEMLinG и описание особенностей каждой группы

Описание синтаксиса ресурса сценария системы DEMLinG.

Описание языка задания ресурса планирования системы DEMLinG.

Описание операций образцов в ресурсе планирования системы DEMLinG

Описание языка описания ресурса грамматического оформления системы DEMLinG.

Описание операций образцов в ресурсе грамматического оформления системы DEMLinG

Описание языка задания словарного ресурса системы DEMLinG.

Описание операций образцов словарного ресурса системы DEMLinG

Описание способа подключения внешнего модуля морфологического оформления к системе DEMLinG.

Спецификация базового СОМ-иптерфейса для наследования интерфейсов морфологических модулей системы DEMLinG

Описание объектной модели виртуальной машины системы DEMLinG

Спецификация СОМ-интерфейса виртуальной машины системы DEMLinG для ее интеграции в другие приложения.

Описание среды разработки ресурсов генерации DEMLinG Development Environment.

Описание предметных групп, используемых в генераторе QGen.

Примеры правил этапа оптимизации в генераторе QGen. * Описание лексического ресурса генератора QGen

Сеть применения каскадных шаблонов для построения грамматической структуры из предметного представления OQL для генератора QGen. Сети NP- и VP-грамматик.

Описание синтагм, реализованных в генераторе QGen

Примеры правилэтапа структурного форматирования в генераторе QGen.

В заключение выражаю глубокую благодарность научному руководителю проф. М.Г. Мальковскому за постановку задачи, постоянную помощь и полезные обсуждения результатов. Значительную помощь в работе над лингвистическими основами применяемого в системе DEMLinG подхода оказала к.ф.н. Е.Г. Соколова. Выражаю ей большую благодарность за полезные консультации в лингвистической стороне вопроса разработки генераторов AGILE и QGen. Также большая благодарность за постановку практической задачи создания ЕЯ генератора QGen директору РосНИИ ИИ к.ф-м.н. A.C. Нарипьяни, руководителю проекта InBASE к.т.н. В.А. Жигалову и руководителю российской части проекта AGILE к.ф-м.н. С.А. Шарову.

Заключение диссертация на тему "Программно-информационное обеспечение многоязыковой генерации текстов"

Основные результаты диссертации были опубликованы в девяти научных статьях [Соколова, Болдасов 2000; Boldasov et al. 2002; Соколова, Болдасов 2002; Boldasov, Sokolova, Malkovsky 2002; Болдасов 2002a; Болдасов 2002b; Boldasov, Sokolova 2003a; Болдасов 2003; Boldasov, Sokolova 2003b]. Сделано более десяти докладов на международных конференциях ДИАЛОГ2000 (Россия), ДИАЛОГ'2002 (Россия), TSD 2002 (Чехия), "Искусственный Интеллект 2002" (Украина), ДИАЛОГ2003 (Россия), MLMTA-03 (США), на семинаре Lecture Series 18 лингвистического центра Vilem Mathesius (Карлов Университет, Прага, Чехия) и научных семинарах в МГУ, ИСП РАН, ИСА РАН, РОС НИИ ИИ.

Заключение

К основным результатам диссертации можно отнести следующее:

• Разработаны методы и алгоритмы генерации текстов естественного языка на основе XML-представления информации. Предложенные методы ориентированы на создание систем генерации текстов, настраиваемых на конкретные предметные области.

• Построено формальное описание грамматики и лексики русского языка для реализации "информационных ресурсов" в системах генерации текстов.

• Создана инструментальная программная среда для разработки и эксплуатации систем многоязыковой генерации.

Разработанная инструментальная среда использовалось при реализации npoeicra InBASE (создание естественно-языкового интерфейса баз данных) для генерации текстов естественноязыкового представления SQL запросов к базам данных на русском и английском языках.

Объем реализации созданного лингвистического ресурса может быть оценен следующими цифрами: грамматическая компонента этого ресурса описана 2245 правилами (макросами языка Лисп), лексическая компонента состоит из 485 правил. Ресурс разрабатывался в рамках международного проекта AGILE (проект № PL961004) по программе INCO-COPERNICUS, и был успешно сдан комиссии этой программы.

Объем кода системы DEMLinG составил 10558 строк. Объем реализации ресурсов систем генерации, разработанных в рамках данной системы, составил 508 правил. Из них 303 правила словарных правила и 19 правил грамматического оформления. Инструментальное средство DEMLinG было внедрено в РосНИИ ИИ, что подтверждено соответствующим актом об использовании результатов диссертационной работы, и успешно используется там для решения прикладной задачи построения модулей естественно-языковой генерации для разработанной в этом институте системы построения ЕЯ-интерфейсов к базам данных InBASE.

Библиография Болдасов, Михаил Викторович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Соколова Е.Г., Болдасов М.В. 2000 Идеационпые дискурспыс функции и структура задачи при многоязыковой генерации текстов инструкций // Труды Международного семинара ДИАЛОГ'2000 по компьютерной лингвистике и ее приложениям Т. 2, Протвино 2000

2. Michael V. Boldasov, Lena G. Sokolova, Michail G. Malkovsky 2002, User query understanding by InBASE system as a source for a multilingual NL generation module (first step). Springer Lecture Notes in Computer Science, Vol. 2448, pp. 33-40.

3. Болдасов М.В. 2002a О генераторе естественно-языковых высказываний для системы ЕЯ-интерфейсов к базам данных InBASE. Материалы научно-технической конференции "Искусственный Интеллект 2002", т. 2, Таганрог-Донецк, 2002, стр. 23-25.

4. Болдасов М.В. 2002b О генераторе естественноязыковых высказываний системы ЕЯ-интерфейсов к базам данных InBASE // Научно-теоретический журнал Искусственный Интеллект 4'2002 (ISSN 1561-5359), Наука i осв5та 2002., стр. 172179

5. Michael V. Boldasov, Elena G. Sokolova 2003a: QGen Generation Module for the Register Restricted InBASE System. In: A. Gelbukh (Ed.), Springer Lecture Notes in Computer Science, Vol. 2588,2003, pp. 465-476.

6. Болдасов M. B. 2003 Парадигмы генерации ЕЯ текстов в инструментальной среде DEMLinG. // Труды Международной конференции ДИАЛОГ'2003 по компьютерной лингвистике и интеллектуальным технологиям стр. 66-75 Протвино 2003

7. Жигалов В.А., Соколова Е.Г. 2001: InBASE: ТЕХНОЛОГИЯ ПОСТРОЕНИЯ ЕЯ-ИНТЕРФЕЙСОВ К БАЗАМ ДАННЫХ. Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям, т.2, стр. 123-135 Аксаково 2001.

8. Зализняк, А. (1977). Грамматический словарь русского языка, Русский язык, Москва.

9. Караулов Ю.Н. (ред.) Русский язык. Энциклопедия. 2-е изд., псрсработ. и дополн. М. «Большая Российская Энциклопедия»; Издательский дом «Дрофа», 199713