автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Технология построения естественно-языковых интерфейсов к структурированным источникам данных

кандидата технических наук
Жигалов, Владислав Анатольевич
город
Москва
год
2000
специальность ВАК РФ
05.13.13
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Технология построения естественно-языковых интерфейсов к структурированным источникам данных»

Оглавление автор диссертации — кандидата технических наук Жигалов, Владислав Анатольевич

ВВЕДЕНИЕ.

1 ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ИНТЕРФЕЙСЫ ККТУРИРОВАННЫМ ИСТОЧНИКАМ ДАННЫХ.

1.1 Основные характеристики и составляющие части ЕЯ-интерфейсов.

1.2 Подходы к анализу ЕЯ-запросов к СИД.

1.3 Средства описания предметной области.

1.4 Наиболее распространенные типы СИД.

1.5 Языки запросов к СИД.

Выводы к разделу 1.

2 МЕТОД ПОСТРОЕНИЯ ЕЯ-ИНТЕРФЕЙСОВ К СТРУКТУРИРОВАННЫМ ИСТОЧНИКАМ ДАННЫХ.

2.1 Основные принципы.

2.2 Этапы создания ЕЯ-интерфейса.

2.3 Общая диаграмма построения ЕЯ-интерфейса.

Выводы к разделу 2.

3 СИСТЕМА АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА.

3.1 Реализация семантически-ориентированного подхода в системе анализа ЕЯ.

3.2 Концептуализации в семантически-ориентированном подходе.

3.3 Реализация продукционой программы.

Выводы к разделу 3.

4 МОДЕЛЬ ПРЕДМЕТНОЙ ОБЛАСТИ.

4.1 Основные принципы построения МПО.

4.2 Структура МПО.

4.3 Представление МПО в виде семантической сети.

4.4 Реализация.

Выводы к разделу 4.

5 СТРУКТУРА Q-ЯЗЫКА.

5.1 Принципы построения Q-языка.

5.2 Состав классов узлов Q-дерева.

5.3 Генерация конечного синтаксического представления запроса.

Выводы к разделу 5.

6 ИНТЕГРИРОВАННАЯ СРЕДА ПОСТРОЕНИЯ ЕЯ-ИНТЕРФЕЙСОВ К РЕЛЯЦИОННЫМ БД

6.1 Основной цикл работы ЕЯ-интерфейса.

6.2 Архитектура системы.

6.3 Интегрированная среда для построения и отладки ЕЯ-интерфейсов к реляционным базам данных.

6.4 Основные характеристики системы.

6.5 Преимущества и недостатки системы:. выводы к разделу 6.

Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Жигалов, Владислав Анатольевич

Усиливающаяся тенденция к хранению информации в компьютерных структурированных источниках данных (СИД), с одной стороны, и широкое распространение глобальной компьютерной сети Интернет и средств доступа к ней, с другой, делают вопрос доступа к информации, хранящейся в СИД, одним из первостепенных в мире информационных технологий. Особенно остро этот вопрос стоит для класса пользователей, не являющихся специалистами в информационных технологиях, которые составляют большинство современных пользователей Интернет. Среди многих типов пользовательских интерфейсов к СИД естественно-языковые интерфейсы (ЕЛИ) являются актуальным, быстроразвивающимся способом доступа к СИД. Очевидно, естественноязыковые интерфейсы к СИД должны быть востребованы в ситуации, когда пользователь обращается к источнику данных, расположенному в Интернет, например, используя Web-браузер.

Широкому применению ЕЯ-интерфейсов для доступа к источникам данных препятствует ряд проблем. Основной проблемой является качество работы ЕЯ-интерфейсов, улучшение которого ограничено прежде всего сложностью анализа запросов на естественном языке, которая неизбежно упирается в проблему автоматического понимания естественного языка как такового. Вторая проблема связана с объемом усилий по созданию ЕЯИ и с высокой стоимостью построения пригодных к использованию естественноязыковых интерфейсов к произвольному источнику данных. В совокупности эти две проблемы можно охарактеризовать как требование снижения трудоемкости построения и поддержки ЕЯИ при повышении качества понимания ЕЯ-запросов и интеллектуальности ЕЯ-интерфейса в целом.

Отдельно следует обозначить требование мультиязычности в современных ЕЯ-интерфейсах, поскольку в условиях глобализации современного информационного мира потребность в обращении пользователей к СИД на различных естественных языках является столь же высокой, сколь и неудовлетворенной именно в области ЕЯ-запросов к СИД. По вполне понятным причинам английский язык в этом смысле находится в привилегированном положении, и интернационализация автоматического понимания естественного языка является благодатной точкой приложения усилий, и в рамках данной работы рассматривается как необязательность совпадения языков СИД и запросов.

Анализ работ по тематике построения ЕЯ-интерфейсов к СИД показал, что основное внимание при разработке ЕЛИ уделяется прежде всего качеству понимания ЕЯ для определенной предметной области и для определенного языка, в то время как вопросам возможности портирования системы анализа на другой естественный язык, другую предметную область и другие платформы уделяется минимум внимания. Проблема портируемости тесно связана также с вопросами трудоемкости построения ЕЯ-интерфейса к заданному структурированному источнику.

Были поставлены следующие цели: минимизация количества и трудоемкости операций по созданию ЕЯ-интерфейса; повышение надежности понимания ЕЯ в интерфейсах к реальным базам данных различной сложности и в различных предметных областях; увеличение независимости системы анализа от конкретного естественного языка, конкретного типа СИД, конкретной предметной области и конкретной целевой платформы исполнения ЕЯ-интерфейса;

Для достижения поставленных целей выполнялись следующие задачи: анализ архитектур и методов построения ЕЯ-интерфейсов к структурированным источникам данных различных типов; анализ особенностей различных типов СИД и языков запросов к ним, влияющих на возможность построения ЕЯ-интерфейсов к ним; выбор архитектуры системы построения ЕЯ-интерфейсов. Рассмотрение типов СИД было ограничено только теми типами, которые: а) наиболее распространены в настоящее время или имеют явную тенденцию к распространению, и б) имеют стандартные универсальные языки запросов. В результате в рассмотрение попали реляционные СУБД, объектные СУБД, XML-данные и ресурсы, описываемые в нотации RDF (Resource Description Framework).

• разработка технологии построения мультиязычных ЕЯ-интерфейсов к структурированным источникам данных на основе семантически-ориентированного подхода с применением методологии отделения предметной области от регистра ЕЯ-запросов к базам данных и дополнением анализа обработкой концептуальных структур;

• разработка компонентов анализатора ЕЯ-запросов, включающая: структуру сетевого представления модели предметной области (МПО), отражающей логическую и концептуальную структуру ПО; структуру сетевого представления промежуточного языка запросов в терминах модели предметной области (Q-язык); продукционную программу анализа естественного языка на основе семантически-ориентированного подхода, использующей логическую и концептуальную информацию МПО.

• разработка экспериментальной версии системы построения ЕЯ-интерфейсов к реляционным базам данных. Данная задача была необходима для того, чтобы оценить преимущества разработанного метода построения ЕЯ-интерфейсов на реальных примерах, к реальным базам данных различной сложности и в различных предметных областях. В качестве целевого типа СИД были выбраны реляционные СУБД как наиболее распространенный тип структурированных источников данных на сегодняшний день.

Новизна данной работы состоит в создании средств и методов, целенаправленно повышающих тестируемость системы анализа на различные естественные языки и предметные области, и ставящих качество работы анализатора (надежность понимания) в прямую зависимость от усилий, затраченных на создание ЕЯ-интерфейса настройщиком (т.е. подготовленным пользователем).

Одним из таких методов является дополнение логической структуры МПО концептуальными структурами (концептуализациями), независимыми от строения естественного языка и являющимися когнитивными по своей сути, а также дополнение семантически-ориентированного подхода анализа ЕЯ-запросов механизмами, позволяющими работать с такой концептуальной информацией (п. 3.2). Это дополнение приводит к более адекватному представлению предметной области с точки зрения естественного языка. С другой стороны, разбиение МПО на концептуализации дает более многоплановое и вместе с тем конкретное представление отдельных аспектов МПО.

Вторым методом повышения надежности понимания ЕЯ является введение количественных методов в систему анализа, позволяющие более эффективно разрешать неоднозначность смысла лексем в запросе. При этом введены количественные параметры: сила контекстной связи и сила связи по предметной области между лексемами. С помощью количественных характеристик (весов) принимается решение о выборе главного объекта запроса, также с применением количественных параметров выбирается определяющая для запроса концептуализация (п. 3.3).

В результате анализа была выбрана архитектура системы построения ЕЯ-интерфейсов с промежуточным языком запросов, как наиболее отвечающая целям отделения системы анализа от конкретной предметной области и конкретных типов источников данных (п. 1.1). Концепция промежуточного уровня системы анализа, включающая триаду "продукционная программа -МПО - промежуточный язык запросов" была выбрана таким образом, чтобы максимально отразить в МПО особенности строения различных типов СИД. Эта триада была реализована с помощью инструмента SNOOP, реализующего формализм объектно-ориентированной семантической сети. И модель предметной области, и рабочая сеть анализа ЕЯ-запроса, и выходное дерево Q-запроса строятся из одних и тех же классов узлов (компонентов), что позволило использовать данный формализм наиболее эффективно.

Задача разработки модели предметной области и промежуточного языка была ограничена разработкой концепции и структуры, причем было принято решение отказаться от разработки языков с традиционным синтаксисом. Такое решение обусловлено тем, что создание и поддержка ЕЯ-интерфейса должна выполняться предположительно не программистом, а работать с ЕЯ-интерфейсом будут "наивные" пользователи, которых строгий синтаксис промежуточного языка запросов может отпугнуть. Вместо задания традиционного синтаксиса и неизбежной в таких случаях разработки компиляторов и синтаксических парсеров, было принято решение облечь структуру как МПО, так и Q-языка в XML-синтаксис. Это позволило применять для работы с этими структурами (при построении и редактировании МПО, а также при выводе Q-запроса и переводе его на язык запроса конкретного СИД) универсальные программные компоненты работы с XML, а также делает данную технологию открытой для интеграции с другими системами - XML является сегодня стандартом обмена информации между различными системами. Кроме того, формат XML является текстовым и пригоден для непосредственного просмотра и редактирования, что может быть полезным при отладке как системы построения ЕЯИ, так и самих ЕЯИ.

К основным результатам диссертации можно отнести следующие:

1. Разработан современный метод построения ЕЯ-интерфейсов к структурированным источникам данных, базирующийся на семантически-ориентированном подходе к анализу ЕЯ-текста в ограниченной предметной области и ее модели и обеспечивающий независимость организации процесса создания интерфейса от конкретного естественного языка, предметной области, типа источника данных.

2. Разработана архитектура лингвистического процессора, реализующего анализ ЕЯ-запросов к информационным системам с использованием аппаратов концептуальных структур и семантической сети для организации процесса анализа входного ЕЯ-текста, а также представления модели предметной области и содержания промежуточного языка запросов.

3. Разработана архитектура технологической обстановки, обеспечивающей высокий уровень автоматизации процесса конструирования ЕЯ-интерфейсов на основе лингвистического процессора из готовых настраиваемых компонентов и библиотек.

4. Разработана и программно реализована экспериментальная система построения ЕЯ-интерфейсов, представляющая собой интегрированную среду, поддерживающую все этапы процесса конструирования, тестирования и отладки ЕЯ-интерфейсов к реляционным базам данных.

На защиту выносятся:

1. Технология построения ЕЯ-интерфейсов к реляционным базам данных на основе семантически-ориентированного подхода, как итерационного процесса с применением предопределенных библиотек и тезаурусов, использованием мастеров (визардов), облегчающих процесс создания ЕЯ-интерфейса.

2. Структура модели предметной области (МПО), включающей схему классов ПО, концептуальные структуры, хранилище семантических компонентов и (частично) словарь.

3. Структура промежуточного языка запросов в терминах модели предметной области, позволяющего абстрагироваться от особенностей строения конкретного СИД.

4. Концепция продукционной программы анализа естественного языка на основе семантически-ориентированного подхода, с применением расширенных средств разрешения неоднозначности, с использованием информации логической и концептуальной схем МПО

Первая глава содержит обзор основных архитектур, составных частей и характеристик ЕЯ-интерфейсов, кратко описаны типы СИД, рассматриваемые в данной работе, и языки запросов к ним; обосновывается выбор основополагающих архитектуры и подхода к анализу ЕЯ.

Во второй главе рассматривается технология построения естественноязыковых интерфейсов к СИД, рассмотрены основные принципы, этапы построения, приводится диаграмма создания ЕЯИ.

Третья глава описывает разработанную систему анализа ЕЯ, которая включает продукционную программу и набор базовых семантических классов. Рассмотрены дополнения семантически-ориентированного анализа и их влияние на качество работы системы.

В четвертой главе излагается концепция, структура и реализация модели предметной области. Пятая глава содержит описание идеологии и структуры языка промежуточного уровня - Q-языка.

В шестой главе рассматривается разработанная интегрированная система построения ЕЯ-интерфейсов к реляционным базам данных. Рассмотрена общая архитектура системы, описаны основные компоненты.

В приложениях приводятся:

1. Примерный список корректно понимаемых ЕЯ-запросов к тестовой базе данных «Кадры»

2. Примеры анализа запросов к базе данных "North Wind"

3. Список семантических компонентов анализа

Заключение диссертация на тему "Технология построения естественно-языковых интерфейсов к структурированным источникам данных"

Выводы к разделу б

• Разработанная система построения ЕЯ-интерфейсов к РСУБД является удобным средством для создания, отладки и тестирования ЕЯ-интерфейсов и опирается на предложенную в данной работе технологию.

• Интеграция со средой построения ЕЯ-интерфейсов SNOOP позволила отлаживать продукционную программу анализа прямо в оболочке.

• Для создания простого ЕЯ-интерфейса к базе данных средней сложности требуется несколько человеко-часов, а для доведения его качества до пригодного к использованию неподготовленным пользователем - порядка нескольких человеко-дней.

• Система анализа, заложенная в продукционную программу SNOOP, имеют высокую степень независимости от языка. Например, при построении англоязычного и русскоязычного ЕЯ-интерфейсов нет никаких отличий в качестве анализа при одной и той же системе анализа. Более того, один и тот же ЕЯ-интерфейс может понимать запросы на обоих языках, если в словаре есть соответствующая лексика.

• Были построены ЕЯ-интерфейсы к базам данных различной сложности, степени нормализации и из разных предметных областей. Работа с системой показала, что система анализа обеспечивает достаточно хорошее качество понимания ЕЯ в этих разных предметных областях.

Заключение

К основным результатам диссертации можно отнести следующие:

1. Разработана технология построения ЕЯ-интерфейсов к структурированным источникам данных, которая сочетает архитектуру ЕЯ-интерфейсов, использующую промежуточный язык представления и семантически-ориентированным подходом к анализу естественного языка в ограниченных предметных областях и позволяет быстрое построение ЕЯ-интерфейсов из готовых настраиваемых компонентов и библиотек.

2. Разработана подсистема анализа ЕЯ-запросов, основанная на семантически-ориентированном подходе с использованием концептуальных структур и активно использующая объектно-ориентированную семантическую сеть в качестве основного формализма представления модели предметной области, структуры промежуточного языка запросов, а также как инструмент анализа естественного языка.

3. Достигнута высокая степень независимости подсистемы анализа от конкретного естественного языка, от конкретной предметной области, от конкретного типа СИД. Кроме того, при условии отделения универсального компонента, исполняющего ЕЯ-интерфейс, от собственно ЕЯ-интерфейса, достигается независимость ЕЯ-интерфейса от платформы исполнения.

4. Разработана и программно реализована экспериментальная система построения ЕЯ-интерфейсов, представляющая собой интегрированную среду и позволяющая построение, редактирование, тестирование и отладку ЕЯ-интерфейсов к реляционным базам данных.

Библиография Жигалов, Владислав Анатольевич, диссертация по теме Телекоммуникационные системы и компьютерные сети

1. Androutsopoulos I., Ritchie G.D., Thanisch P. Natural Language Interfaces to Databases—An Introduction // Natural Language Engineering, 1995, pp. 2981.

2. Bosworth A., Layman A., Ardeleanu A., Schach D. XML Query and transformation language // Position Paper for the W3C query language Workshop December 3, 1998.

3. Chen P. The Entity-Relationship Model: Towards a Unified View of Data // ACM Trans. On Database Syst. 1976. V.l, №1.

4. Cascading Style Sheets. // W3C Recommendation May 1998. http://www.w3.org/TR/REC-CSS2

5. Deutsch et al. XML-QL: A Query Language for XML. // Submission to the World Wide Web Consortium 19-August-1998. http ://www.w3. org/TR/1998/NOTE-xml-ql-19980819

6. Janet Finlay, Alan Dix. An introduction to artificial intelligence. // UCL Press, 1996.

7. Chris Fox, Squirrel Documentation, 1995 //. http://cswww.essex.ac.uk/SNAP/Squirrel/doc.html.

8. Franz, Developing with Microsoft English Query in Microsoft SQL Server 7.0. //1998

9. Kononenko I., Sharoff S., Understanding Short Texts with Integration of Knowledge Representation Methods" // Proc. of the Perspectives of System Informatics'96, Novosibirsk, June, 1996. - pp. 43-47.

10. Malhotra A., Sundaresan N.,. RDF Query Specification. // Technical contribution to the W3C Query Languages Workshop, Dec 3 and 4, 1998. http ://www. w3. org/TandS/QL/QL98/pp/rdfquery.html

11. Mathematical Mark-up Language (MathML™) 1.01. Specification. // W3C Recommendation 1999. http://www.w3.org/pub/WWW/TR7REC-MathML/

12. The Object Database Standard: ODMG-93. / Ed. by R. G.G. Cattell. Morgan Kauftnann Publ., 1994, - p. 169.

13. Precision Graphics Mark-up Language (PGML), 1998. //W3C Submission: http ://www.w3. org/TR/1998/NOTE-PGML

14. Resource Description Framework (RDF) Model and Syntax Specification. // W3C Technical Report. January, 1999. http://www.w3.org/TR/PR-rdf-syntax

15. Robie et al, (1998). XML Query Language (XQL). // Position paper to the W3C Query Languages Workshop, Dec 3 and 4, 1998. http://www.w3.org/TandS/QL/QL98/pp/xql.html

16. Программный комплекс Semp-F. Руководство пользователя. // Отчет по РосНИИ Искусственного интеллекта, 1997.

17. Sharoff S., SNOOP: A System for Development of Linguistic Processors. // In: Proc. of the EAST-WEST conference on artificial intelligence, Moscow, pp.184.188.(1993)

18. Sharoff S., Zhigalov V. (1999) Register-Domain Separation as a Methodology for Development of Natural Language Interfaces to Databases. // Proc. of IFIP TC.13 International Conference on Human-Computer Interaction, Edinburgh, pp 79-85.

19. Trapeznikov S., Dinenberg F., Kuchin S. (1993) InterBase: A Natural Language Interface system for popular commercial DBMSs. // In: Proc. of the EAST-WEST conference on artificial intelligence. Moscow, pp. 189-193.

20. Vector Mark-up Language (VML). // W3C Submission, http ://www.w3 .org/TR/NOTE-VML (1998)

21. W.A. Woods, R.M. Kaplan, and B.N. Webber. The Lunar Sciences Natural Language Information System: Final Report. // BBN Report 2378, Bolt Beranek and Newman Inc., Cambridge, Massachusetts, 1972.

22. XML Linking Language (XLink). // W3C Working Draft: http://www.w3 .org/TR/WD-xlink

23. XML, (1998). Extensible Mark-up Language (XML) 1.0. // W3C Recommendation 10-February-1998. http://www.w3.org/TR/REC-xml

24. XML-Data, // W3C Note 05 Jan 1998. http://www.w3 .org/TR/1998/NOTE-XML-data

25. XML Schema Part 1: Structures. // W3C Working Draft: http ://www. w3. org/TR/xmlschema-1/

26. XSL, (1998). Extensible Stylesheet Language (XSL), version 1.0. // W3C Working Draft 16-December-1998. http://www.w3.org/TR/WD-xsl

27. A Proposal for XSL. // Submitted to W3C on 27 August 1997. http://www.w3. org/TR/NOTE-XSL.html

28. Буч Г., Объектно-ориентированное проектирование с примерами применения / Москва-Киев, 1992.

29. Жигалов В.А. Об опыте разработки системы построения ЕЯ-интерфейсов к базам данных. // Труды международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Казань 1998. стр. 801 -808.

30. Жигалов В.А. Поиск в Интернет: от словарного индексирования к распределенной сети знаний. // Труды международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. Таруса 1999. стр. 47 56.

31. Жигалов В.А. Интернет как распределенная поисковая система. // Научный сервис в сети Интернет, тезисы докладов Всероссийской научной конференции Издательство Московского университета. 1999г.

32. Загорулько Ю., Кононенко И., Попов И. Экспериментальная система понимания метеорологических телеграмм. // Труды международного семинара Диалог-99 по компьютерной лингвистике и ее приложениям.,том 2, с. 57-66.

33. Кононенко И. Экспериментальная система понимания коротких текстов. // Труды ГУ национальной конференции ИИ-94 Рыбинск, 1994 - с. 395398

34. Лорьер Ж.-Л. Системы искусственного интеллекта. М.: Мир, 1991.

35. Любарский Ю.Я. Интеллектуальные информационные системы. М. Наука, 1990.

36. Мартин Дж. Организация баз данных в вычислительных системах. М.: Мир, 1978.

37. Минский М. Фреймы и представление знаний. М.: Энергия, 1979.

38. Нариньяни А.С., Лингвистические процессоры ЗАПСИБ (1-я и 2-я части). Препринт ВЦ СО АН СССР, N 199, 1979

39. Нариньяни А.С. Недоопределенные модели и операции с недоопределенными значениями Препринт ВЦ СО АН СССР, №400, 1982

40. Нариньяни А.С. Автоматическое понимание текста новая перспектива // Труды международного семинара Диалог-97 по компьютерной лингвистике и ее приложениям. - Москва, 1997, с. 203-208.

41. Романов Л.Г, Жигалов В.А. Система построения естественно-языковых интерфейсов к реляционным базам данных. // Вестник МГТУ ГА. Москва, 1999.

42. Селфридж М. Интегральная обработка обеспечивает надежное понимание. "Новое в зарубежной лингвистике", вып. XXIV -"Компьютерная лингвистика", М.: Прогресс, 1989.

43. Г.Хансен, Дж.Хансен. Базы даных: разработка и управление М.: ЗАО "Издательство БИНОМ", 1999.

44. Цаленко М.Ш. Моделирование семантики в базах данных. М.: Наука, 1989.

45. Шенк Р. Обработка концептуальной информации. М.: Энергия, 1980.

46. Шенк Р., Бирнбаум Л., Мей Дж. К интеграции семантики и прагматики. "Новое в зарубежной лингвистике", вып. XXIV "Компьютерная лингвистика", М.: Прогресс, 1989.