автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Методы и средства порождения семантических конструкций естественно-языковых интерфейсов программных систем

кандидата технических наук
Личаргин, Дмитрий Викторович
город
Красноярск
год
2004
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и средства порождения семантических конструкций естественно-языковых интерфейсов программных систем»

Автореферат диссертации по теме "Методы и средства порождения семантических конструкций естественно-языковых интерфейсов программных систем"

На правах рукописи

Личаргин Дмитрий Викторович

МЕТОДЫ И СРЕДСТВА ПОРОЖДЕНИЯ СЕМАНТИЧЕСКИХ КОНСТРУКЦИЙ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ИНТЕРФЕЙСОВ ПРОГРАММНЫХ СИСТЕМ

Специальность 05.13.17 - «Теоретические основы информатики»

АВТОРЕФЕРАТ

диссертация на соискание ученой степени кандидата технических наук

Красноярск-2004

Работа выполнена в Институте вычислительного моделирования СО РАН

Научный руководитель: доктор технических наук Л.Ф. Ноженкова

Официальные оппоненты:

доктор технических наук, профессор Г. А. Доррер;

кандидат технических наук, профессор Г. М. Цибульский;

Ведущая организация: Красноярский государственный

университет

Защита диссертации состоится 5_. .2004 г. в ¡¿^ часов на заседании

диссертационного совета К212.098.02 при Красноярском государственном техническом университете по адресу: 660074, Красноярск, Киренского 26, Красноярский государственный технический университет, аудитория Г4-17.

С диссертацией можно ознакомиться в научной библиотеке Красноярского государственного технического университета.

Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу: 660074, Красноярск, Киренского 26, Красноярский государственный технический университет, ученому секретарю диссертационного совета К12.098.02 Кузьменко Н. Г.

Автореферат разослан

Ученый секретарь диссертационного совета

Кузьменко Н. Г.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В связи с проникновением компьютерной техники во все сферы человеческой деятельности, когда большая часть населения развитых стран общается с программным обеспечением, решая все более сложные задачи, остро встает проблема перехода от визуального и командного интерфейсов к построению интерфейсов программных систем на естественном языке.

Задача моделирования естественного языка является наиболее важной составляющей проблемы создания естественно-языковых (ЕЯ) интерфейсов. Ее решение включает как анализ фраз на естественном языке, так и генерацию текстов.

Главным инструментом для решения проблем анализа и порождения фраз и текстов является формализация семантики языка. Для построения естественноязыковых интерфейсов необходимо опираться на формальное описание семантики (системы смысла) единиц естественного языка. Таким образом, смысловая классификация единиц языка является актуальной задачей, определяющей успешность формализации смысла языка в приложении к взаимодействию программного обеспечения с пользователем. Классификация множества грамматически и семантически корректных фраз должна основываться на классификациях слов-понятий и сем языка. Успех описания семантики определяется степенью простоты и полноты лингвистической классификации слов и выражений языка. Сопоставление каждой единице языка или группе единиц соответствующей логико-математической формулы, описывающей их семантику, также является актуальной задачей, поскольку такое формальное описание дает возможность задавать лингвистические объекты с использованием математического аппарата, а также описывать их поведение на уровне программных алгоритмов. Предложенные в работе модели позволяют формализовать такие лингвистические представления, которые ранее не получили строгого математического обоснования, но могут быть полезны для порождения семантически корректных фраз в рамках построения систем общения с программным обеспечением на естественном языке.

Методы оперирования естественным языком находят применение в системах машинного перевода, в системах поиска и обмена информацией, реферировании текстов, экспертных системах и других актуальных программных приложениях.

Цель диссертационной работы. Цель диссертационной работы состоит в создании методов смыслового анализа и порождения фраз и текстов естественного языка на основе авторской семантической классификации слов и понятий, а также в их программной реализации для создания основных элементов естественноязыковых пользовательских интерфейсов программных систем.

Задачи диссертационной работы

Проблема построения естественно -языковых интерфейсов в работе рассматривается с точки зрения построения семантико-лингенетической модели и применения средств визуализации структуры естествен

СПту« ОЭ 159

основана на классификации единиц языка разных уровней. В свою очередь, построение на ее основе множества подстановочных таблиц позволяет реализовать алгоритмы генерации осмысленных высказываний. Множество подстановочных таблиц может быть положено в основу классификации более высокого уровня, чем классификация слов, - классификации высказываний. Для обеспечения единообразного доступа к элементам этих классификаций представляется необходимым сопоставить множеству языковых единиц одного уровня единую формулу, которая строится на основе общего для данного множества единиц вектора семантических признаков, однозначно задающего классификацию языковых единиц данного уровня.

В работе ставятся и решаются следующие основные задачи:

1. Определение вектора семантической классификации для единиц естественного языка - слов и понятий.

2. Разработка метода классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве.

3. Разработка словаря-классификации языковых единиц английского языка (более 10 тысяч слов).

4. Разработка оригинальных алгоритмов анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.

5. Реализация программного обеспечения для моделирования основных элементов естественно-языкового интерфейса, визуализирующего структуру парадигматических и синтагматических отношений естественного языка.

Методы исследований. В работе используются методы компонентного анализа, математической лингвистики, аппарат порождающих грамматик, методология классификации семантических объектов, методы построения интеллектуальных систем и программного интерфейса.

Основная идея работы. Предлагается оригинальный принцип построения формальных определений смысловых единиц языка и естественного языка в целом как единой системы описываемых друг через друга понятий.

Предполагается, что главным средством генерации осмысленных единиц языка при построении естественно-языковых интерфейсов является построение лингвистической классификации. Для этой цели исследуются предположения:

1) об атомарном строении смысла и последовательном сведении значения языковых единиц к «кванту» смысла;

2) об определении лингвистической классификации посредством вектора семантических признаков;

3) о наследовании смысловых единиц классификаций низкого уровня классификациями более высоких уровней в системе классификаций естественного языка.

Предложенная лингвистическая классификация используется для построения естественно-языковых интерфейсов. Построен словарь-классификация слов и понятий на основе,заданного вектора признаков. Предложен способ построения подстановочных таблиц на основе предлагаемой классификации. Выполнена программная

реализация алгоритмов обработки и генерации текстовой информации на основе базы данных подстановочных таблиц. Построение «табличного» естественноязыкового интерфейса осуществляется посредством визуализации структуры естественного языка в виде иерархии подстановочных таблиц.

Положения, выдвигаемые на защиту:

1. Предложен оригинальный метод классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве.

2. Разработан словарь-классификация языковых единиц английского языка (более 10 тысяч слов).

3. Разработаны оригинальные алгоритмы анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.

4. Реализовано программное обеспечение для моделирования основных элементов естественно -языковых интерфейсов.

Научная новизна. В работе предлагается оригинальный метод классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве. Словарь-классификация языковых единиц английского языка является одновременно не имеющим близких аналогов словарем генерации подстановочных таблиц. Предлагаемый словарь позволяет на качественно новом уровне формально описывать подмножества естественного языка, связанные общей темой. Впервые это дает возможность полуавтоматически генерировать подстановочные таблицы, как модели подмножеств языка, на основе фрагментов общего для слов языка понятийного пространства. Построены оригинальные порождающие грамматики для задания элементов вектора классификации. В предлагаемой работе впервые в качестве средства генерации фраз для естественно-языкового интерфейса рассматриваются подстановочные таблицы. Реализовано оригинальное программное обеспечение для моделирования работы базовых составляющих естественноязыковых интерфейсов.

Практическая значимость. Генерация осмысленной письменной речи -один из аспектов приложения рассматриваемых методов в решении задач построения ясных и понятных пользователю систем взаимодействия с программным обеспечением. Предложенные методики позволяют генерировать и анализировать речь разной степени осмысленности, представлять информацию, выделенную из речи, в виде данных когнитивной классификации, тем самым обеспечить основу для создания естественно-языковых интерфейсов между человеком и машиной. Предложенные методы используются в работе программы «Электронный разговорник» для построения текстов на незнакомом языке и автоматической генерации письменной речи на английском языке.

Большинство теоретических результатов работы используется на практике, для обучения иностранным языкам (английский, испанский), как самим автором, так и другими профессиональными преподавателями. Практически используется

метод построения фраз на незнакомом языке, основанный на использовании авторского словаря, позволяющего генерировать подстановочные таблицы, используемые далее для генерации осмысленной речи.

В перспективе полученные результаты могут быть использованы для создания автоматических систем перевода и реферирования текстов с последующим хранением, поиском и извлечением нужной информации. Это связано с тем, что в рамках предлагаемого подхода классифицируются не только слова языка, но и когнитивные факты. Предлагаемая классификация слов может служить инструментом для удаления из текста семантического шума и представления предложений в приведенном виде, что может практически использоваться в системах машинного перевода.

Достоверность и обоснованность. Достоверность и обоснованность результатов диссертации определяются:

- Сопоставлением основных положений работы с решением аналогичных задач другими исследователями.

- Построением и апробацией реальных авторских классификаций сем, слов и предложений естественного языка.

- Практической апробацией программных продуктов для полуавтоматической и автоматической генерации осмысленной речи, в том числе на незнакомом языке.

- Практическим использованием авторского пособия по составлению фраз на незнакомом языке - словаря-разговорника.

Личный вклад автора. Все основные теоретические и практические результаты, изложенные в работе, получены непосредственно автором. В частности, предложен оригинальный метод практического представления семантики произвольных единиц языка, а также системы их классификаций. Метод основан на определении системы векторов семантических признаков, в частности, классификации слов и понятий естественного языка. Разработаны алгоритмы порождения естественного языка на основе предложенной классификации. Иллюстрируются алгоритмы и методы построения основных элементов естественно-языкового интерфейса на основе предложенной модели языка.

Апробация работы. Полученные результаты представлены на семинарах ИВМ СО РАН (2000-2003 годах); на всероссийских семинарах «Вопросы теории и практики перевода», Пензенский государственный педагогический университет (Пенза, февраль 2002 и февраль 2003); на Конференции молодых ученых ИВМ СО РАН (Красноярск, апрель 2002); Всероссийской конференции «Вопросы теории и практики перевода», Сибирский технологический университет (Красноярск, март 2002); на специальном семинаре для преподавателей английского языка в Красноярском государственном педагогическом университете (Красноярск, апрель, 2003); на Всероссийской конференции «Проблемы информации региона» ПИР 2003 (Красноярск, 2003).

Публикации. По теме диссертации опубликовано 8 работ, в том числе словарь-классификация слов и понятий английского языка «Комбинаторный разговорник».

Структура и объем работы. Диссертация состоит из введения, 4 глав, заключения и списка использованных источников. Основное содержание работы изложено на 138 страницах текста, содержит 4 рисунка, 21 таблицу. Список использованных источников включает 90 наименований.

Основное содержание работы. Во введении обоснована актуальность темы диссертационной работы, даны постановка проблемы и краткое описание содержания диссертации.

В первой главе показана актуальность исследований в области формализации языка, в частности, его семантики, для построения систем анализа и синтеза речи. Показано, что анализ семантической структуры языка необходим для создания естественно языкового интерфейса при решении таких задач как:

• создание семантически ориентированных систем перевода,

• создание систем автоматического реферирования, сортировки, хранения, поиска и представления информации,

• обучение иностранным языкам и неязыковым дисциплинам с использованием программного обеспечения с естественно-языковым интерфейсом,

• прохождение «машиной» теста Тьюринга.

Выполнен сравнительный анализ существующих подходов и методов анализа семантики языка. Показано, что, несмотря на наличие глубоких исследований языка в различных его аспектах, в частности, с точки зрения лингвистической классификации (Литвинов П., Роже П.), отсутствует единая теория семантики языка. Такая теория позволяла бы представлять любую информацию как некий единый объект-множество классификаций со своими свойствами и единообразным доступом к любому его элементу. Это объясняет оторванность многих глубоких исследований семантической структуры единиц языка от программной реализации, обеспечивающей простой и ясный естественно-языковой интерфейс. Исследована проблема построения семантических классификаций и анализа структуры слова. Показано, что на сегодня не были сформулированы принципы построения и не созданы единая классификация произвольных понятий по универсальным признакам и иерархии подобных классификаций - от текстов и слов вплоть до сем и единого кванта смысла. Последнее до сих пор делало невозможным представление больших пластов лексики в виде визуального представления структуры языка во взаимодействии программного обеспечения с пользователем.

Обоснована необходимость использования элементов разрозненных семантических теорий для создания единой классификации и модели структуры языковых единиц для представления в базах данных и средствах визуализации.

В работе показана история развития идей инженерной лингвистики в применении к проблеме осуществления общения с компьютером на естественном языке.

В частности прослеживается динамика развития теорий инженерной лингвистики от периода оптимизма, когда большинство авторов верило в скорое создание не только эффективных систем диалога с «машиной» на естественном языке, но и скором создании искусственного разума. Следующим этапом развития инженерной и семантической мысли стал период пессимизма, когда многие авторы (Дрейфус X.) стали относиться к идее генерации осмысленной речи программными системами как к утопии, говоря, что не может быть понимания осмысленности там, где понимать некому. Постепенно исследования по генерации осмысленной речи стали носить узко специализированный характер, затрагивая отдельные узкие подмножества языка. Были достигнуты серьезные успехи в создании грамматических анализаторов, баз данных и узко специализированных экспертных систем. При этом при расширении подмножества языка, например, в рамках работы электронных переводчиков, результаты оставляют желать много лучшего.

Работы последних лет связаны с решением проблемы анализа смысла языка в приложении к созданию систем диалога с программным обеспечением. В частности, в работах известных лингвистов и математиков Пиотровского Р. Г., Нариньяни А. С, Винограда Т. и многих других, а также таких известных семантистов, как Никитин М. В., Селиверстова О. Н., Смирницкий А. И., и многих других, дан разносторонний анализ разных проблем семантики естественного языка. Все вышеперечисленные авторы сходятся в том, что разнообразные семантические концепции и классификации пока еще не сведены в единую концепцию, в общую методологию исследований.

В результате анализа существующих подходов к исследованию проблем порождения семантически осмысленной речи был сделан вывод о необходимости отказаться от популярной на сегодня задачи формализации отдельных подмножеств языка в пользу необходимости создания системы классификаций произвольных единиц языка в рамках обще-семантического подхода. Кроме того, системы порождения фраз на сегодня нуждаются в значительном упрощении и структурировании, что делает необходимой визуализацию структуры естественного языка для построения понятного и дружелюбного естественно-языкового интерфейса.

На основании проведенных исследований в заключительной части главы 1 сформулированы задачи диссертационной работы.

Во второй главе показано, что любому понятию естественного языка может быть дано смысловое определение на основе общего для единиц одного уровня вектора признаков классификации. Множества объектов, отношений и их отрицаний составляют формальную систему определения любого слова. При этом для всех слов языка можно получить единую формулу объектов и отношений, общую для всех слов, где каждое слово однозначно определяется уникальным набором отрицаний (или утверждений) объектов или отношений. Последовательность отрицаний задает вектор семантических признаков, полностью описывающих основное семантическое значение любого слова. Вектор семантических признаков однозначно задает классификацию любых языковых единиц, которая может быть представлена либо многомерным кубом, либо симметричным деревом классификации. Изменение

последовательности элементов вектора дает различные древообразные классификации, которые можно представить в форме различных словарей: словаря гиперонимов (общих и частных значений слов), словаря ассоциаций, комбинаторных словарей и т.д.

Для каждого уровня языка (сем, слов, фактов) характерна своя семантическая классификация, свой семантический вектор и своя семантическая формула. Вместе они образуют последовательности классификаций, векторов и формул разного уровня.

Представление классификаций в форме упорядоченного множества удобно для создания простых интерфейсов в задачах построения фраз на незнакомом языке, поиска информации в базах данных и осуществления машинного перевода на основе сведения высказываний к приведенному виду и использования подстановочных таблиц как критериев осмысленности фраз.

Семантическая классификация понятий строится на основе классифицируемых сем - "атомов смысла", составляющих структуру смысла слов.

Будем исходить из базового предположения, что язык представлен двумя аспектами, семантическим и формальным, обозначим их соответственно А1 И Аг- Каждый аспект можно представить с использованием последовательности классификаций: геносем, сем и графем, слов и понятий, фактов и высказываний, соответственно обозначим их через Обозначение будем интерпретировать как классификацию ] по аспекту ь

Классификации семантического аспекта:

1) Pi.De: Геносемы - специальные служебные самые мелкие смысловые единицы (объект, отрицание, тождество, равенство и т.п.), позволяющие интерпретировать более сложные единицы языка;

2) Семы - атомы смысла, составляющие структуру слов и понятий (существо, место, внутри, имплицировать и т.п.);

3) Р^г: Понятия - смысловые единицы, соответствующие словам (дом, телефон, дружба, вещество и т.п.);

4) Р|.Оз: Факты, факт - это некоторое утверждение, о котором можно говорить, что оно истинно, или ложно, формально факт представляется как высказывание, или предикат.

Классификации формального аспекта опираются на синтаксическую структуру языка:

1 )Р<Д)|: ф е м ы - буквы языка;

2 ) Ро-Бг^ в а с их морфологической структурой для конкретного языка;

3) Высказывания - предложения в связном тексте.

Семантический и формальный аспекты языка тесно связаны. Высказывание формально выражает некоторый факт, понятия выражаются словами, плановый язык должен в перспективе сопоставлять графемам слов семы, составляющие зна-

чения слов. Геносемы не соответствуют никаким формальным единицам языка и служат для выражения элементарного смысла.

Каждая га перечисленных классификаций семантического и синтаксического аспектов имеет форму дерева.

Обозначим уровни дерева классификации Qk', каждому из них соответствует один признак О* вектора в признаков классификации:

V Pi.Dn.Qk, 3 Сг (Pj.Dn.Qk <-> Pi.D_.Gk),

где Pi.Do.Qk - уровень Qk дерева классификации Оп аспекта Pj а Pi.Do.Gk -значение Ск вектора в дерева классификации Оп аспекта Р|.

Вектор признаков представляет собой последовательность признаков Р^.С = < Pj.Dn.Gi, РА^, Pi.Dn.G3Pj.Dn.Gk>.

Множество значений признака Ск обозначим {Ск1, Ск2,...}. Каждое значение вк является строкой символов - элементов этого значения, Ок' = е,е2...е/. Множества строк в]! е {Ск1, Ск2, ...} задаются перечислением, или при помощи порождающей грамматики.

Каждый символ еч значения признака вектора Р,-.Оп.С является узлом предшествующей классификации е, = Pi.Dn.Qiy,, где Qk,q - к-й узел дерева q-гo уровня классификации Р,.0„.

Рассматриваемые в предыдущих параграфах множества смысловых единиц А, В, С,... являются единицами на выходе последовательности классификаций, например: А <-> Р(.Оп, В <-» Р(.Оп+), С <-> РрБо+г... Элементы множеств А, В, С,... соответствуют узлам соседних классификаций.

Каждой семантической единице языка может соответствовать множество формальных единиц языка (синонимов): Р{.Е)а.Ок,ч -> { Pjti.Do.Qpn,} , где р = 1, 2, 3,..., ш = 1,2,3,..., и наоборот, каждой формальной единице языка может соответствовать множество семантических единиц языка (значений и омонимов): и PH.iDo.Qpn, {Pj.Do.Qk,,}, где к = 1,2,3,..., q = 1,2,3,..., то есть имеет место отношение «многие ко многим».

Формирование общей для различных слов и групп слов языка семантической формулы дает возможность расположить множества слов и понятий языка в общем многомерном понятийном пространстве, или общей классификации, и выполнять необходимые операции не только над отдельными словами, но и над правильно подобранными группами слов.

Анализ проблемы классификации единиц языка показал принципиальную возможность упорядочения и упрощения доступа к лингвистическим и когнитивным данным в системах с естественно-языковым интерфейсом. Вместе с тем ставится задача сопоставления вектору признаков классификации конкретных значений классификации таких единиц языка, как слова и понятия. Эта задача рассматривается в третьей главе диссертационной работы.

В главе третьей показана возможность задавать значения вектора признаков, определяющих понятийное пространство, включающее слова естественного языка (см. рис. 1). Рассматривается проблема построения классификаций вида ДЮ Классификации графем и слов соответствуют традиционным фонетико-графическим

классификациям, словарям морфем или просто алфавитным словарям. Классификация высказываний является более сложной и малоизученной. Эта классификация, судя по всему, должна быть представлена в форме фрактала, когда от каждого высказывания в разговоре собеседник может перейти на высказывание, ассоциативно связанное с предыдущим. Для моделирования и исследования классификации высказываний используется авторская программа, позволяющая генерировать осмысленные высказывания и объединять их в ассоциативно связные тексты.

Рассмотрим классификацию понятий Р^Бз.

Р|ЛЭзХг - вектор признаков предлагаемой классификации понятий. Рассмотрим значения этих признаков.

1) Первый уровень классификации понятий, соответствуют признаку вектора О.

Положим С, = {НЕЧТО, ОТНОШЕНИЕ, СОЗНАНИЕ, ИДЕЯ, ИНФОРМАЦИЯ, МЕСТО, ПРЕДМЕТ, СУЩЕСТВО}. Перечисленные значения признака С( будем называть основными семами. Здесь и далее семы записываются прописными буквами. Смысловые значения сем определяются в классификации Р|.В2.

2) Второй уровень классификации понятий представлен признаком

Множество О2 значений признака классификации задается множеством правил порождающей грамматики:

{8->Р<1, Б-^Бх, ЛЖИВОГО, НЕЖИВОГО, х -» КОТОРОГО ЖИВОЕ, х КОТОРОГО НЕЖИВОЕ, Р-»ЧАСТЬ (ОБ), Р-»ВНУТРИ (Ш), Р-»НА ПОВЕРХНОСТИ (ОК), Р->ОКОЛО (АТ)},

где понятие ОКОЛО обозначает любое ненулевое расстояние между объектами.

3) Третий уровень классификации понятий определяется признаком вз,

вз={Х-у (сущность), Х-Х-у (сущность чего-то), ОТНОШЕНИЕ-Х-у (свойство), ОТНОШЕНИЕ-Х-Х-у (связь), ОТНОШЕНИЕ-СУЩЕСТВО-Х-у (действие), ОТ-НОШЕНИЕСУЩЕСТВОХХу (соединение), ОТНОШЕНИЕ-СУЩЕСТВО- СУ-ЩЕСТВОХу (презентация), ОТНОШЕНИЕ-СУЩЕСТВО СУЩЕСТВО-Х Х-у (обмен)},

где X - любая из основных сем, определенных на первом уровне классификации, а у - любая последовательность таких сем. X выделяется как главная по смыслу сема. Знак «•» используется в данном случае для обозначения конкатенации. В круглых скобках приведены смысловые пояснения.

4) Множество О4 значений признака О задается множеством правил порождающей грамматики:

{З-^РгРгРз-РЛРбРуРь Р,-^-КОЛИЧЕСТВО, Р,-»А., Р2->

^УСТОЙЧИВОСТЬ, Р2->Х, Р3-> ^ПОЗИТИВНОСТЬ, , Рч-> ^СПЕКТР,

Р4->Х, Р5-> ^ИНФОРМАТИВНОСТЬ, Р5-»Х, Р«-»^-МЕСТОПОЛОЖЕНИЕ, Р6-»Х, Р7-> в-РАЗМЕР, Р7->?1, Р8-> и-ИСКУССТВЕННОСТЬ, Р8-»}1}, где ^ - лингвистическое значение шкалы вида: {минимальный,..., малый,..., средний,..., большой,..., максимальный, А,}. Здесь А. - пустой символ.

Рис.1. Общая схема представления семантики языковых единиц

5) Пятый уровень классификации понятий

Множество 05 значений признака классификации задается множеством пра-

вил порождающей грамматики:

{5->х, х-^(хРх), х->хРх, х~>1 (существующее), х->0 (несуществующее), х-^0 (возможное), х-»0 (необходимое), Р-> ВКЛЮЧАЕТ, Р ВКЛЮЧАЕТСЯ В, Р -> ВКЛЮЧАЕТ И ВКЛЮЧАЕТСЯ В, Р ЧАСТИЧНО ВКЛЮЧАЕТ, Р БОЛЬШЕ ЧЕМ, Р МЕНЬШЕ ЧЕМ, Р РАВНО, Р ПОДОБНО, Р СТАНОВИТСЯ, Р -> ПРОИСХОДИТ ИЗ, Р ОДНОВРЕМЕННО С, Р -> НЕОДНОВРЕМЕННО С, Р -> ИМПЛИЦИРУЕТ, Р -> СЛЕДУЕТ ИЗ, Р -> СООТВЕТСТВУЕТ, Р СВЯЗАНО С}.

Все последующие уровни классификации получаются путем рекурсивного повторения предложенных пяти уровней классификации. Индекс уровня вычисляется по формуле:

Примеры классификации слов и понятий. Приведем примеры классификации и дефиниций слов естественного языка на основе предложенных принципов.

Третий уровень классификации слов назовем валентностным уровнем, где под валентностью понимается лингвистическое понятие, означающее потенциальные связи слова с другими словами. Так словам группы {хотеть, любить, должен, буду, мочь} соответствует значение третьего признака: ОТНОШЕНИЕ-СУЩЕСТВО-ОТНОШЕНИЕ (кто-то хочет что-то делать). Для группы слов {идти, ехать, бежать, нестись, спешить} имеет место значение ОТНОШЕНИЕ-СУЩЕСТВО-МЕСТО (кто-то идет куда-то). Группа слов {парк, гора, река, город} подпадает под значение МЕСТО, выраженное одной семой. Значение ОТНОШЕНИЕ-МЕСТО представляет слова: {живописный, удаленный, ближайший, большой} (ближайший город).

Значение второго признака ПРЕДМЕТ-ВНУТРИ КОТОРОГО-НЕЖИВОЕ соответствует понятию «контейнер», ПРЕДМЕТ-НА-ЖИВОМ - понятию «одежда», ПРЕДМЕТ-ЧАСТЬ-НЕЖИВОГО - понятию «деталь». Этот уровень классификации назовем уровнем локализации.

Пятый уровень назовем уровнем оппозиции. В лингвистике понятие оппозиции занимает принципиальное место, при этом считается, что антонимы представляют собой парные оппозиции, например, "жизнь - смерть", "хороший - плохой". При этом выходящие за рамки таких пар конструкции (например, "рождение -жизнь - смерть - небытие" и т. п.), как правило, не рассматриваются. Оппозиции -это значения пятого признака классификации типа 1-СТАТЬ-О, О-СТАТЬ-1, 1-СТАТЬ-1, 1-СТАТЬ-0-СТАТЬ-1 и т.д. Приведем примеры соответствующих антонимических оппозиций. Для значения ОТНОШЕНИЕ-СУЩЕСТВО это слова родиться: О-СТАТЬ-1, умереть: 1-СТАТЬ-О, воскреснуть: 1-СТАТЬ-0-СТАТЬ-1. Например, существование существа переходит в несуществование в рамках понятия "смерть". Для схемы ОТНОШЕНИЕ-СУЩЕСТВО-ОТНОШЕНИЕ это группа слов: начать: О-СТАТЬ-1, закончить: 1-СТАТЬ-0, продолжать: 1-СТАТЬ-1, возобновить: 1-СТАТЬ-0-СТАТЬ-1. Например, существование действия переходит в несуществование в рамках понятия "закончить".

Рекурсия состоит в уточнении одной структуры через другую структуру того же порядка. Например, схема ПРЕДМЕТ (ОТНОШЕНИЕ-СУЩЕСТВО-МЕСТО)

соответствует группе слов, обозначающей средства передвижения, в частности, транспорт {корабль, самолет, автомобиль, мотоцикл}.

В совокупности все признаки классификации позволяют классифицировать слова с точностью до синонимов. Так, например, на первом уровне мы имеем понятие СУЩНОСТЬ (например, книга, парк, час, бар), уточняемую до понятия ПРЕДМЕТ (например, книга, ручка, самокат, библиотека, бар) и далее уточняемую до схемы ПРЕДМЕТ-ВНУТРИ КОТОРОГО-СУЩЕСТВО (например, здания: библиотека, школа, завод, кафе, бар). Далее по рекурсии имеем более сложную схему: ПРЕДМЕТ-ВНУТРИ КОТОРОГО-СУЩЕСТВО (ОТНОШЕНИЕ-СУЩЕСТВО-ПРЕДМЕТ ВНУТРИ СУЩЕСТВА) (что означает здания для принятия пищи, например, ресторан, кафе, закусочная, бар).

Таким образом, в третьей главе диссертации элементам вектора классификации слов и понятий языка сопоставлены конкретные, фиксированные значения, описываемые на основе семантических единиц более низкого уровня. Показано, что этот набор значений, при его рекурсивном применении, позволяет все более точно описывать семантику слов и понятий естественного языка. Это позволяет упорядочить лингвистические данные систем, ориентированных на взаимодействие с пользователем на естественном языке. Выделение семантически упорядоченных групп слов языка дает возможность моделировать структуру единиц более высокого уровня - высказываний и фактов языка, что делает возможным визуализацию их структуры в рамках естественно-языкового интерфейса.

В главе четвертой описывается разработанная автором система «Электронный словарь», предназначенная для электронного представления слов языка в виде семантической классификации и используемая для составления и редактирования подстановочных таблиц, а также других материалов по обучению английскому языку. Эта программа прошла апробацию на многих учениках и применяется как самим автором, так и рядом других профессиональных преподавателей. К работе прилагается акт о внедрении программы в работу Образовательным центром «Аспект».

Программа «Электронный словарь» позволяет генерировать подстановочные таблицы путем выбора соответствующих групп слов из классификации. Впоследствии множество подстановочных таблиц связывается в классификацию, позволяя генерировать осмысленные фразы посредством выбора произвольных слов из подстановочных таблиц и перехода к другой таблице, ассоциативно связанной с предыдущей в общую речевую схему. При создании электронного словаря, включающего более 10000 слов английского языка, было проведено сопоставление слов и понятийного пространства языка. Этот результат дает возможность оперировать произвольным осмысленным подмножеством понятийного пространства слов и понятий языка и представлять эти подмножества слов в форме табличного естественно-языкового интерфейса для эффективного взаимодействия программ с пользователем. Такого рода интерфейс может явиться посредником между естественным языком общения людей и языком команд и запросов в программных системах. Можно комбинировать эти группы слов в подстановочные таблицы, которые служат средством порождения осмысленных фраз языка. Подстановочные таблицы

служат основой построения простых и продуктивных естественно-языковых интерфейсов, где выбор конкретной фразы языка доступен как компьютеру, так и пользователю, в результате чего достигается единство внутренней структуры данных, алгоритмов порождения языка и доступа к данным через естественно-языковой интерфейс.

На базе разрабатываемой автором классификации высказываний языка разработана система «Электронный разговорник». Система использует подстановочные таблицы, генерируемые программой «Электронный словарь». «Электронный разговорник» позволяет автоматически генерировать семантически осмысленные фразы английского языка, что может быть использован для тренировки понимания английских фраз учеником в рамках ограниченной тематики и вокабуляра. Электронный разговорник позволяет составлять английские предложения на основе введенных в программу шаблонов - подстановочных таблиц. Разговорник предназначен также для экспериментального моделирования и исследования сочетаемости фраз последовательности подстановочных таблиц в целях автоматической генерации не только осмысленных предложений, но и осмысленных текстов языка. Программа «Электронный разговорник» дает возможность подключать сгенерированные шаблоны к последовательности или вариантам фраз, связанных в осмысленный текст.

Системы «Электронный словарь» и «Электронный разговорник», будучи ориентированы на практическое применение в области образования, содержат в себе основные элементы естественно-языкового (ЕЯ) интерфейса. Разработанные программы содержат в себе такие элементы естественно-языкового интерфейса, как средства полуавтоматического создания шаблонов, моделирующих тот или иной тематический фрагмент естественного языка, а также средства использования этих шаблонов для построения монологической, или диалогической речи.

Предлагаемая классификация слов дает возможность генерировать подстановочные таблицы, которые могут быть использованы для автоматического порождения осмысленных предложений и текстов на английском языке (см. рис 2). Подстановочные таблицы, каждый столбец которых представлен в виде дерева, нагруженного словами со своими формулами, соответствующими позиции слова в классификации, названы Smart таблицами (интеллектуальными таблицами). Smart таблицы строятся на основе предложенной математической модели и предлагаются в качестве средства генерации простых и дружелюбных интерфейсов со следующими свойствами:

1) наличие запрета на ввод бессмысленных фраз;

2) возможность быстрого поиска нужных данных - нужной фразы в иерархии подстановочных таблиц;

Рисунок 2. Взаимодействие программных средств предлагаемой модели семантики языковых единиц

3) возможность перехода от фразы и таблицы одного типа к фразе или таблице другого, что позволяет строить монологический или диалогический текст автоматически или с участием пользователя, а также реализовать взаимодействие «программное обеспечение - пользователь» (см. рис. 3).

Предлагаемый тип естественно-языкового интерфейса может найти широкое применение в построении таких программных систем, как конструкторы писем на незнакомом языке, электронные переводчики, поисковые системы, экспертные системы и многие другие.

ПРИНЦИП ПОРОЖДЕНИЯ ОСМЫСЛЕННЫХТЕКСТОВ

Рисунок 3. Генерация осмысленных текстов на основе классификации подстановочных таблиц

Предложенная классификация понятий и слов опубликована в виде словаря порождения высказываний естественного языка [7]. Словарь-классификация является не имеющим близких аналогов средством генерации осмысленных фраз естественного языка.

Модели и реализация составляющих естественно-языкового интерфейса позволяют заметно улучшить осмысленность, качество и простоту взаимодействия программного обеспечения с пользователем. Предлагаемая модель и ее реализация в виде баз данных и программных систем позволяют получить критерий осмысленности речевого взаимодействия с пользователем и создать иллюзию «понимания»

естественного языка программным обеспечением. Иерархия подстановочных таблиц служит средством визуализации структуры множества осмысленных фраз при построении естественно-языкового интерфейса.

В заключении перечисляются основные выводы и результаты работы.

1. Решена задача сопоставления любому понятию естественного языка смыслового определения на основе общего для единиц одного уровня классификации вектора признаков. Классификация может быть представлена в виде многомерного куба, либо в форме «симметричного» дерева классификации.

2. Показано, каким образом изменение последовательности составляющих вектора дает различные древообразные классификации, представленные в виде различных словарей: словаря гиперонимов (общих и частных значений слов), словаря ассоциаций, комбинаторных словарей и др.

3. Определена своя семантическая классификация, свой семантический вектор и своя семантическая формула для каждого уровня языка. Вместе они образуют последовательности классификаций, векторов и формул для единиц языка разных уровней.

4. В работе показано, что представление классификаций в форме упорядоченного множества открывает большие перспективы в создании простых интерфейсов для задач построения фраз на незнакомом языке, поиска информации в базах данных и задач осуществления машинного перевода на основе представления высказываний в приведенном виде и использования подстановочных таблиц для обеспечения осмысленности фраз.

5. В диссертационной работе показана практическая осуществимость построения и выявляется диапазон значений предложенного вектора классификации. Показана возможность задавать значения вектора признаков, определяющих понятийное пространство, включающее любые слова естественного языка.

6. Выполнена программная реализация словаря на 10 000 слов английского языка, которая сопоставляет семантическим понятиям слова естественного языка. Этот результат дает возможность оперировать осмысленными подмножествами понятийного пространства слов и понятий языка и представлять подмножества слов в рамках естественно-языкового интерфейса для эффективного взаимодействия программ с пользователем. В работе указывается на то, что такого рода интерфейс может явиться посредником между естественным языком общения людей и языком команд и запросов к интеллектуальным системам. Словарь позволяет комбинировать эти группы слов в подстановочные таблицы, позволяющие порождать осмысленные фразы языка.

7. Разработан метод генерации подстановочных таблиц, которые служат основой построения простых и эффективных естественно-языковых интерфейсов, где выбор конкретной фразы языка доступен как компьютеру, так и пользователю, в результате чего достигается соответствие внутренней структуры данных, а также алгоритмов порождения языка и доступа к данным через естественно-языковой интерфейс.

8. Выполнена реализация программного обеспечения для моделирования «табличного» естественно-языкового интерфейса. Дано описание характеристик системы «Электронный словарь», предназначенной для электронного представления слов языка в виде семантической классификации. Эта система может использоваться для составления и редактирования подстановочных таблиц, а также других материалов по обучению английскому языку.

9. Разработана система «Электронный разговорник», предназначенная для экспериментального моделирования и исследования сочетаемости фраз, генерируемых с использованием последовательности подстановочных таблиц в целях автоматической генерации не только осмысленных предложений, но и осмысленных текстов языка.

Список научных работ, опубликованных по теме диссертации

1. Личаргин Д. В. Классификация слов по валентностному признаку, словарь нового типа // Парадигма. - Красноярск: СибГТУ, 2001. - С. 22-25.

2. Личаргин Д. В. Использование контекстуальной избыточности для устранения полисемии при машинном переводе // Вопросы теории и практики перевода. Труды всероссийской конференции. - Пенза: Приволжский дом знаний, 2000. -С. 30-34.

3. Личаргин Д. В. Классификация слов по валентностному принципу, словарь нового типа // Вопросы теории и практики перевода. Труды всероссийской конференции. - Пенза: Приволжский дом знаний, 2002 - С. 113-114.

4. Личаргин Д. В. Комбинаторный разговорник. - Красноярск, Издательство «Си-талл», 2002. - 50 с.

5. Личаргин Д. В. Операции над семами слов естественного языка в машинном переводе // Труды конференции молодых ученых. - Красноярск: ИВМ СО РАН, 2003.-с. 23-31.

6. Личаргин Д. В. Устранение семантического шума как средство адекватного перевода // Вопросы теории и практики перевода. Труды всероссийской конференции. - Пенза: Приволжский дом знаний, 2003. -С. 90-92.

7. Личаргин Д. В. Словарь порождения высказываний // Деп. Журнал работ 692. -Новосибирск: Сибкопирайт, 2000. - 60 с.

8. Личаргин Д. В. Порождение фраз естественного языка в рамках задачи построения естественно-языкового интерфейса с программным обеспечением // Материалы восьмой всероссийской конференции «Проблемы информации региона» ПИР 2003. Том 2. - Красноярск: ИПЦ КГТУ, 2003. - С 152-156.

»12556

Подписано в печать 25.05.2004 г.

Формат 60*84/16 Усл. печ. л. 1,25. Тираж 100 экз.

Отпечатано на ризографе ИВМ СО РАН 660036, Красноярск, Академгородок

Оглавление автор диссертации — кандидата технических наук Личаргин, Дмитрий Викторович

ВВЕДЕНИЕ.

ГЛАВА 1. ИССЛЕДОВАНИЕ ЗАДАЧ ФОРМАЛИЗАЦИИ СЕМАНТИКИ ЯЗЫКОВЫХ ЕДИНИЦ В ПРИМЕНЕНИИ К СОЗДАНИЮ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ИНТЕРФЕЙСОВ.

1.1. Проблема применения лингвистического аппарата в естественноязыковых интерфейсах программных систем.

1.1.1. Проблема исследования значения.

1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике.

1.2. Семантические классификации языковых единиц в лингвистических базах данных.

1.2.1. История составления словарей.

1.2.2. Семантические поля, тезаурусы, темы и подтемы.

1.2.3. Задача представления иерархии языковых единиц.

1.3. Лингвистические исследования множества слов в речи.

1.3.1. Тождественные элементы значения слов в тексте.

1.3.2. Сильные и слабые импликации в тексте.

1.3.3. Порождающие грамматики.

1.4. Представление слов языка и проблема полисемии.

1.4.1. Внутренняя структура слова, ядро и периферия.

1.4.2. Дефинитивное и полное значение слова.

1.4.3. Применение компонентного анализа.

1.4.4. Лексико-семантические варианты в языке и речи.

1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода.

1.5.1. Системы типа «Интерлингво» и машинный перевод.

1.5.2. Проблемы создания языка описания семантики.

1.6. Табличный естественно-языковой интерфейс.

1.7. Задачи диссертационной работы.

Выводы к главе 1.

ГЛАВА 2. ПРИНЦИП ОБЪЕКТНЫХ ОПРЕДЕЛЕНИЙ КАК ОСНОВА КЛАССИФИКАЦИИ ЕДИНИЦ ЯЗЫКА.

2.1. Формализация дефиниций.

2.1.1. Общий вид формальной дефиниции.

2.1.2. Последовательность классификаций единиц языка.

2.1.3. Определение базиса понятийного аппарата словарных. дефиниций.

2.1.4. Представление языка.

2.2. Принципы построения классификации.

2.2.1. Множество классификаций.

2.2.2. Множество отрицаний в определении классификации единиц языка.

2.3. Семантика и семантическая классификация.

2.3.1. Семантический и другие аспекты языка.

2.3.2. Проблема построения классификаций вида Aj.Cj.

2.3.3. Семы классификации.

2.3.4. Геносемы.

2.3.5. Классификация понятий.

2.3.6. Синтагмы и валентности.

2.3.7. Факты классификации.

2.3.8. Высказывания.

2.4. Понятийное пространство в целом.

Выводы к главе 2.

ГЛАВА 3. СЛОВАРЬ ПОРОЖДЕНИЯ ЯЗЫКОВЫХ ЕДИНИЦ КАК

СРЕДСТВО ФОРМИРОВАНИЯ «ТАБЛИЧНЫХ» ИНТЕРФЕЙСОВ.

3.1. Общие принципы построения словаря.

3.1.1. Понятийное пространство и его наполнение.

3.1.2. Классификация P1.D3 в целом.

3.2. Уровни классификации.

3.2.1. Вектор классификации слов и понятий.

3.2.2. Валентностный уровень классификации.

3.2.3. Уровень основных сем.

3.2.4. Уровень локализации.

3.2.5. Уровень свойств.

3.2.6. Уровень отношений.

3.2.7. Рекурсивное порождение последующих уровней. классификации.

3.3. Примеры понятий и их кодовых обозначений.

3.3.1. Примеры понятий для уровня основных сем.

3.3.2. Примеры понятий для валентностного уровня. классификации.

3.3.3. Примеры понятий уровня локализации.

3.4.Семантический код описания смысла.

3.4.1. Кодировка сочетаний групп слов.

3.4.2. Кодировка стилистики языка.

3.4.3. Формула слова и плановые языки.

3.5. Типы классификаций.

3.5.1. Словарь гиперонимов.

3.5.2. Тематический словарь.

3.5.3. Словарь дефинонимов.

Выводы к главе 3.

ГЛАВА 4. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ЕСТЕСТВЕННОЯЗЫКОВЫХ ИНТЕРФЕЙСОВ.

4.1. Назначение системы «Электронный словарь».

4.2. Функции системы «Электронный словарь».

4.3. Состав и структура системы «Электронный словарь».

4.4. Входные и выходные данные.

4.5. Функционирование системы «Электронный словарь».

4.6. Программная система «Электронный разговорник».

4.6.1. Назначение программы «Электронный разговорник».

4.6.2. Функции программы «Электронный разговорник».

4.6.3. Структура программы «Электронный Разговорник».

4.6.4 Входные и выходные данные программы «Электронный разговорник».

4.6.5. Описание работы программы «Электронный разговорник».

Выводы к главе 4.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Личаргин, Дмитрий Викторович

Актуальность проблемы

В связи с проникновением компьютерной техники во все сферы человеческой деятельности, когда большая часть населения развитых стран общается с программным обеспечением, решая все более сложные задачи, остро встает проблема перехода от визуального и командного интерфейсов к построению интерфейсов программных систем на естественном языке.

Задача моделирования естественного языка является наиболее важной составляющей проблемы создания естественно-языковых (ЕЯ) интерфейсов. Ее решение включает как анализ фраз на естественном языке, так и генерацию текстов.

Главным инструментом для решения проблем анализа и порождения фраз и текстов является формализация семантики языка. Для построения естественно-языковых интерфейсов необходимо опираться на формальное описание семантики (системы смысла) единиц естественного языка. Таким образом, смысловая классификация единиц языка является актуальной задачей, определяющей успешность формализации смысла языка в приложении к взаимодействию программного обеспечения с пользователем. Классификация множества грамматически и семантически корректных фраз должна основываться на классификациях слов-понятий и сем языка. Успех описания семантики определяется степенью простоты и полноты лингвистической классификации слов и выражений языка. Сопоставление каждой единице языка или группе единиц соответствующей логико-математической формулы, описывающей их семантику, также является актуальной задачей, поскольку такое формальное описание дает возможность задавать лингвистические объекты с использованием математического аппарата, а также описывать их поведение на уровне программных алгоритмов. Предложенные в работе модели позволяют формализовать такие лингвистические представления, которые ранее не получили строгого математического обоснования, но могут быть полезны для порождения семантически корректных фраз в рамках построения систем общения с программным обеспечением на естественном языке.

Методы оперирования естественным языком находят применение в системах машинного перевода, в системах поиска и обмена информацией, реферировании текстов, экспертных системах и других актуальных программных приложениях.

Цель диссертационной работы

Цель диссертационной работы состоит в создании методов смыслового анализа и порождения фраз и текстов естественного языка на основе авторской семантической классификации слов и понятий, а также в их программной реализации для создания основных элементов естественно-языковых пользовательских интерфейсов программных систем:

Задачи диссертационной работы

Проблема построения естественно-языковых интерфейсов в работе рассматривается с точки зрения построения семантико-лингвистической модели и применения средств визуализации структуры естественного языка. Система визуализации основана на классификации единиц языка разных уровней. В свою очередь, построение на ее основе множества подстановочных таблиц позволяет реализовать алгоритмы генерации осмысленных высказываний. Множество подстановочных таблиц может быть положено в основу классификации более высокого уровня, чем классификация слов, - классификации высказываний. Для обеспечения единообразного доступа к элементам этих классификаций представляется необходимым сопоставить множеству языковых единиц одного уровня единую формулу, которая строится на основе общего для данного множества единиц вектора семантических признаков, однозначно задающего классификацию языковых единиц данного уровня.

В работе ставятся и решаются следующие основные задачи:

1. Определение вектора семантической классификации для единиц естественного языка - слов и понятий.

2. Разработка метода классификации слов и понятий языка на основе вектора семантической классификации, определяющего положение слов в понятийном пространстве.

3. Разработка словаря-классификации языковых единиц английского языка (более 10 тысяч слов).

4. Разработка оригинальных алгоритмов анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.

5. Реализация программного обеспечения для моделирования основных элементов естественно-языкового интерфейса, визуализирующего структуру парадигматических и синтагматических отношений естественного языка.

В рамках алгоритмической и программной реализации предложенной модели решаются следующие функциональные задачи.

1. Выполнение морфологического анализа и синтеза словоформ английского языка.

2. Реализация автоматической генерации транскрипции для испанского и немецкого языков на основе написания слов.

3. Реализация словаря-классификации слов и понятий естественного языка (английского, русского и др.).

4. Разработка программной системы генерации подстановочных таблиц.

5. Построение обучающих систем для проверки знания слов посредством генерации осмысленной речи.

6. Создание шаблонов составления писем на незнакомом языке.

Методы исследований

В работе используются методы компонентного анализа, математической лингвистики, аппарат порождающих грамматик, методология классификации семантических объектов, методы построения интеллектуальных систем и программного интерфейса.

Основная идея работы

Предлагается оригинальный принцип построения формальных определений смысловых единиц языка и естественного языка в целом, как единой системы описываемых друг через друга понятий.

Предполагается, что главным средством генерации осмысленных единиц языка при построении естественно-языковых интерфейсов является построение лингвистической классификации. Для этой цели исследуются предположения:

1) об атомарном строении смысла и последовательном сведении значения языковых единиц к «кванту» смысла;

2) об определении лингвистической классификации посредством вектора семантических признаков;

3) о наследовании смысловых единиц классификаций низкого уровня классификациями более высоких уровней в системе классификаций естественного языка.

Предложенная лингвистическая классификация используется для построения естественно-языковых интерфейсов. Построен словарь-классификация слов и понятий на основе заданного вектора признаков. Предложен способ построения подстановочных таблиц на основе предлагаемой классификации. Выполнена программная реализация алгоритмов обработки и генерации текстовой информации на основе базы данных подстановочных таблиц. Построение «табличного» естественно-языкового интерфейса осуществляется посредством визуализации структуры естественного языка в виде иерархии подстановочных таблиц.

Новые научные результаты, полученные в работе

В работе предлагается оригинальный метод классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве. Словарь-классификация языковых единиц английского языка является одновременно не имеющим близких аналогов словарем генерации подстановочных таблиц. Предлагаемый словарь позволяет на качественно новом уровне формально описывать подмножества естественного языка, связанные общей темой. Впервые это дает возможность полуавтоматически генерировать подстановочные таблицы, как модели подмножеств языка, на основе фрагментов общего для слов языка понятийного пространства. Построены оригинальные порождающие грамматики для задания элементов вектора классификации. В предлагаемой работе впервые в качестве средства генерации фраз для естественно-языкового интерфейса рассматриваются подстановочные таблицы. Реализовано оригинальное программное обеспечение для моделирования работы базовых составляющих естественно-языковых интерфейсов.

Положения, выдвигаемые на защиту

1. Предложен оригинальный метод классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве.

2. Разработан словарь-классификация языковых единиц английского языка (более 10 тысяч слов).

3. Разработаны оригинальные алгоритмы анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.

4. Реализовано программное обеспечение для моделирования основных элементов естественно-языковых интерфейсов.

Практическая значимость

Генерация осмысленной письменной речи — одна из сфер приложения рассматриваемой теории с целью построения ясных и понятных пользователю систем взаимодействия с программным обеспечением. Предложенные методики должны в перспективе позволить генерировать и анализировать речь различной степени осмысленности, представлять информацию, выделенную из речи в виде данных когнитивной классификации, и тем самым обеспечить основы для создания естественно-языковых интерфейсов между человеком и машиной. Представленная система используется в работе программы «Электронный разговорник» для построения текстов на незнакомом языке и автоматической генерации письменной речи на английском языке.

Большинство теоретических результатов работы используется в сфере обучения иностранным языкам (английский, испанский), как самим автором, так и другими профессиональными преподавателями. Практически используется метод построения фраз на незнакомом языке на основе авторского словаря, позволяющего генерировать подстановочные таблицы, используемые далее для генерации осмысленной речи.

В перспективе полученные результаты могут быть использованы для создания автоматических систем перевода и реферирования текстов с последующим хранением, поиском и извлечением нужной информации. Это связано с тем, что в рамках предлагаемого подхода классифицируются не только слова языка, но и когнитивные факты. Предлагаемая классификация слов может служить инструментом для удаления из текста семантического шума и представления предложений в приведенном виде, что может практически использоваться в системах машинного перевода.

Достоверность и обоснованность

Достоверность и обоснованность результатов диссертации определяются:

Сопоставлением основных положений работы с решением аналогичных задач другими исследователями.

- Построением реальных авторских классификаций сем, слов и предложений естественного языка.

Практической апробацией программных продуктов для полуавтоматической и автоматической генерации осмысленной речи, в том числе на незнакомом языке.

- Практическим использованием авторского пособия по составлению фраз на незнакомом языке — словаря-разговорника.

Личный вклад автора

Все основные теоретические и практические результаты, изложенные в работе, получены непосредственно автором. В частности, предложен оригинальный метод практического представления семантики произвольных единиц языка, а также системы их классификаций. Метод основан на определении системы векторов семантических признаков, в частности, классификации слов и понятий естественного языка. Разработаны алгоритмы порождения естественного языка на основе предложенной классификации. Иллюстрируются алгоритмы и методы построения основных элементов естественно-языкового интерфейса на основе предложенной модели языка.

Апробация работы

Полученные результаты представлены на семинарах ИВМ СО РАН (2000-2003 гг.); на всероссийских семинарах «Вопросы теории и практики перевода», Пензенский государственный педагогический университет (Пенза, февраль 2002 и февраль 2003); на конференции молодых ученых ИВМ СО РАН (Красноярск, апрель 2002); всероссийской конференции «Вопросы теории и практики перевода», Сибирский технологический университет (Красноярск, март 2002); на специальном семинаре для преподавателей английского языка в Красноярском государственном педагогическом университете (Красноярск, апрель 2003).

Публикации

По теме диссертации опубликовано 8 работ, в том числе словарь-классификация слов и понятий английского языка «Комбинаторный разговорник».

Структура и объем работы

Диссертация состоит из введения, 4 глав, заключения и списка использованных источников. Основное содержание работы изложено на 151 странице текста, содержит 6 рисунков, 21 таблицу. Список используемых источников включает 97 наименований.

Заключение диссертация на тему "Методы и средства порождения семантических конструкций естественно-языковых интерфейсов программных систем"

Выводы к главе 4

На базе предложенной в главе второй и описанной в главе третьей классификации понятий разработана система «Электронный словарь», предназначенная для электронного представления слов языка в виде семантической классификации. Программа «Электронный словарь» может использоваться для составления и редактирования подстановочных таблиц, а также других материалов по обучению английскому языку. Программа прошла апробацию при обучении многих учеников, как самим автором, так и рядом других профессиональных преподавателей. К работе прилагается акт о внедрении программы в работу образовательным центром «Аспект». На базе разрабатываемой автором классификации высказываний языка разработана система «Электронный разговорник». Система использует подстановочные таблицы, генерируемые программой «Электронный словарь». Электронный разговорник позволяет автоматически генерировать семантически осмысленные фразы английского языка, что может быть использовано для тренировки понимания английских фраз учеником в некоторой речевой ситуации. Электронный разговорник позволяет составлять английские предложения вручную, на основе введенных в программу шаблонов - подстановочных таблиц, при этом налагаются ограничения на генерацию семантически бессмысленных фраз. Разговорник предназначен также для экспериментального моделирования и исследования сочетаемости фраз, генерируемых на основе последовательности подстановочных таблиц в целях автоматической генерации не только осмысленных предложений, но и осмысленных текстов языка. Программа «Электронный разговорник» используется для закрепления знаний учащихся по лексике английского языка.

Разработанные системы заключают в себе алгоритмическое и программное ядро для построения естественно-языковых интерфейсов.

Системы с одинаковой эффективностью функционирует на различных естественных языках - английском, немецком, испанском, русском. На этих языках были полуавтоматически сгенерированы подстановочные таблицы, достаточные для последующей генерации семантически и грамматически осмысленной речи.

ЗАКЛЮЧЕНИЕ

В работе предлагается способ описания единиц естественного языка посредством их объединения в одну из ряда языковых классификаций. Излагаются общие принципы построения классификаций слов и высказываний естественного языка. В работе получены следующие теоретические и практические результаты.

1. Решена задача сопоставления любому понятию естественного языка смыслового определения на основе общего для единиц одного уровня классификации вектора признаков. Классификация может быть представлена в виде многомерного куба, либо в форме «симметричного» дерева классификации.

2. Показано, каким образом изменение последовательности составляющих вектора дает различные древообразные классификации, представленные в виде различных словарей: словаря гиперонимов (общих и частных значений слов), словаря ассоциаций, комбинаторных словарей и др.

3. Определена своя семантическая классификация, свой семантический вектор и своя семантическая формула для каждого уровня языка. Вместе они образуют последовательности классификаций, векторов и формул для единиц языка разных уровней.

4. В работе показано, что представление классификаций в форме упорядоченного множества открывает большие перспективы в создании простых интерфейсов для задач построения фраз на незнакомом языке, поиска информации в базах данных и задач осуществления машинного перевода на основе представления высказываний в приведенном виде и использования подстановочных таблиц для обеспечения осмысленности фраз.

5. В диссертационной работе показана практическая осуществимость построения и выявляется диапазон Значений предложенного вектора классификации. Показана возможность задавать значения вектора признаков, определяющих понятийное пространство, включающее любые слова естественного языка.

6. Выполнена программная реализация словаря на 10 ООО слов английского языка, которая сопоставляет семантическим понятиям слова естественного языка. Этот результат дает возможность оперировать осмысленными подмножествами понятийного пространства слов и понятий языка и представлять подмножества слов в рамках естественно-языкового интерфейса для эффективного взаимодействия программ с пользователем. В работе указывается на то, что такого рода интерфейс может явиться посредником между естественным языком общения людей и языком команд и запросов к интеллектуальным системам. Словарь позволяет комбинировать эти группы слов в подстановочные таблицы, позволяющие порождать осмысленные фразы языка.

7. Разработан метод генерации подстановочных таблиц, которые служат основой построения простых и эффективных естественно-языковых интерфейсов, где выбор конкретной фразы языка доступен как компьютеру, так и пользователю, в результате чего достигается соответствие внутренней структуры данных, а также алгоритмов порождения языка и доступа к данным через естественно-языковой интерфейс.

8. Выполнена реализация программного обеспечения для моделирования «табличного» естественно-языкового интерфейса. Дано описание характеристик системы «Электронный словарь», предназначенной для электронного представления слов языка в виде семантической классификации. Эта система может использоваться для составления и редактирования подстановочных таблиц, а также других материалов по обучению английскому языку.

9. Разработана система «Электронный разговорник», предназначенная для экспериментального моделирования и исследования сочетаемости фраз, генерируемых с использованием последовательности подстановочных таблиц в целях автоматической генерации не только осмысленных предложений, но и осмысленных текстов языка.

Библиография Личаргин, Дмитрий Викторович, диссертация по теме Теоретические основы информатики

1. Arbekova Т. 1. Correct English for Everyday Use. — M.: Высшая школа, 1985.

2. Capers Jones. Sizing up software. // Scientific American. №12 — New York, 1998.-p. 74-77.

3. Chamber. Thesaurus, a comprehensive word-finding dictionary. — London: Harrap's, 1990.

4. Harrap's mini English Dictionary edited by P. H. Collin. — Harrap: London, 1988.- 633 p.

5. Jack Cohen. Thinking about thinking. Brain children. Essays on designing minds. // Scientific American. №7 New York, 1998. - p. 93-94.

6. Laffal J. A. Concept Dictionary of English. N.Y.: Essex, 1973.

7. Laird Ch. Webster's New World Thesaurus. — N.Y.: New American Library, 1971.

8. Norton P, Goodman J. Inside the PC. Seventh Edition. — Indiana: SAMS Premier, 1999.

9. The Pocket Oxford Spanish Dictionary. Second Edition / Chief editors: Car-vajal C. S., Horwood J. — Oxford: Oxford University press, 2000. — 997 p.

10. Tim Beardsley. Here's looking at you. A disarming robot starts to act up. // Scientific American. №1 New York, 1999. - p. 22.

11. Waldemer Schapiro. Russian-English, English-Russian Dictionary / Collins Gem. Glasgow: HarperCollinsPublishers. 1991. - 632 p.

12. Агамджанова В. И. Контекстуальная избыточность лексического значения слова. М.: Высшая школа, 1977. - 150 стр.

13. Адаменко А., Кучков А. Логическое программирование и Visual Prolog -СПб: БХВ-Петербург, 2003.

14. Алексеев П. М., Турыгина Л.А. Частотный англо-русский словарь минимум газетной лексики. — М.: Русский Язык, 1984.

15. Андреев С. М. Англо-русский словарь научно технической терминологии. Харьков: Факт, 1995.

16. Анисов А. М. Современная логика М.: РАН Институт Философии, 2002.

17. Апресян Ю. Д. Идеи и методы современной структурной лингвистики. — М.: Наука, 1966.

18. Апресян Ю. Д. Лексическая семантика. Синонимические средства языка. -М.: Наука, 1970.

19. Ахо А. Компиляторы. Принципы, технологии, инструменты. — М.: Мир, 2001.

20. Баас П., Фервай М., Хайдемария Г. Delphi 5, перевод с немецкого. — Киев: BHV, 2000.-494 с.

21. Бен-Ари М. Языки программирования. Практический сравнительный анализ. — М.: Мир, 2000.

22. Бокарев Е. А. Эсперанто-русский словарь. Около 26000 слов. — М.: Наука, 1989.

23. Бонк Н. А., Котий Г.А., Лукьянова Н. А. Учебник английского языка в двух частях. — Иваново: Рора, 1995. 639 с.

24. Браун С. Visual Basic 5 с самого начала. СПб: ПитерКом, 1998. — 320 с.

25. Бройдо В. Л. Вычислительные системы, сети и телекоммуникации. — СПб: Питер, 2002.

26. Вердиева 3. Н. Семантические поля в современном английском языке. — М.: Высшая школа, 1986.

27. Говорун М., Сергеев А. Машинный перевод в XX веке. — Журнал Мир Internet, № 2, 2001. С. 16-27.

28. Гордеев А. В. Молчанов А. Ю. Системное программное обеспечение. — СПб: Питер, 2001.

29. Гордин В. Э., Иванова Г. В. Запоминай и говори. Пособие для усвоения исамопроверки 500 самых употребительных слов немецкого языка. — СПб.: ТОО Центр социально экономических исследований и переподготовки специалистов, 1993. — 76 с.

30. Гордин В. Э., Шеноко И. В. Запоминай и говори. Пособие для усвоения и самопроверки 500 самых употребительных слов английского языка. — СПб.: ТОО Центр социально экономических исследований и переподготовки специалистов, 1993. 80 с.

31. Горев А., Ахаян Рубен, Макашаринов С. Эффективная работа с СУБД. -СПб: Питер, 1997.

32. Давыдов М. В. Значение слова в языке и речи. М.: Наука, 1990.

33. Драгин В. И., Попов Э. В., Преображенский А. Б. Общение конечных пользователей с системами обработки данных. — М.: Радио и связь, 1988.

34. Дрейфус X. Чего не могут вычислительные машины. Критика искусственного разума. М:. Высшая школа, 1978

35. Дудкина Г. А., Павлова М. В., Рей 3. Г., Хвальнова А. Т. Учебник английского языка для делового общения. — М.: Аверс, 1991.

36. Дюк В., Самойленко A. Data Mining. СПб: Питер, 2001.

37. Елисеева А.Г. Семантический анализ языковых единиц, противопоставленных по признаку действие-состояние. — М.: МГУ, 1977.

38. Жарков С. Shareware. Профессиональная разработка и продвижение программ. СПб: BVH, 2002.

39. Значение и его варьирование в тексте. Сб. научных трудов под ред. И. В. Сентенберга. Волгоград: ВГПИ, 1987.

40. Ин Ц., Соломон Д. Использование Турбо Пролога. — М.: Мир, 1993.

41. Исаев М. И. Проблемы международного вспомогательного языка. М. Наука. 1991.

42. Калинин. Экспериментальная семантика. — М. Мир, 1974.

43. Карпова Т. С. Базы данных: модели, разработка, реализация. — СПб: Питер, 2001.

44. Коммербилл И. Инженерия программного обеспечения. 6-ое издание. — М: Вильяме, 2002.

45. Компаниец Р.И. Системное программирование. Основы построения трансляторов. СПБ: Корона принт, 2000.

46. Корнеев В.В., Гарев А.Ф., Васютин С.В., Райх В.В., Базы данных. М.: Нолидж, 2000.

47. Корнеева Е.А. и др. Сборник упражнений по устной речи. — СПб: Союз, 1999.

48. Кузнецов А. М. Структурно-семантические параметры в лексике. М.: Наука, 1990.

49. Лингвистический энциклопедический словарь / Под ред. Ярцева. — М.: Наука, 1990.

50. Литвин Ф.А. Многозначность слова в языке и речи. — М.: Высшая школа, 1984.

51. Литвинов П. 3000 английских слов — техника запоминания. — М.: Айрис Пресс, Рольф. 1999. 205 с.

52. Личаргин Д. В. Использование контекстуальной избыточности для устранения полисемии при машинном переводе // Вопросы теории и практики перевода. Труды всероссийской конференции. Пенза: Приволжский дом знаний, 2000. - С. 30-34.

53. Личаргин Д. В. Классификация слов по валентностному признаку, словарь нового типа // Парадигма. — Красноярск: СибГТУ, 2001. — С. 22-25.

54. Личаргин Д. В. Классификация слов по валентностному принципу, словарь нового типа // Вопросы теории и практики перевода. Труды всероссийской конференции. Пенза: Приволжский дом знаний, 2002 — С. 113114.

55. Личаргин Д. В. Комбинаторный разговорник. Красноярск, Издательство «Ситалл», 2002. - 50 с.

56. Личаргин Д. В. Операции над семами слов естественного языка в машинном переводе // Труды конференции молодых ученых. — Красноярск: ИВМ СО РАН, 2003. с. 23-31.

57. Личаргин Д. В. Словарь порождения высказываний // Деп. Журнал работ 692. Новосибирск: Сибкопирайт, 2000. - 60 с.

58. Личаргин Д. В. Устранение семантического шума как средство адекватного перевода // Вопросы теории и практики перевода. Труды всероссийской конференции. Пенза: Приволжский дом знаний, 2003. — С. 90-92.

59. Лоховиц А. Б., Липшиц О. Д. Краткий немецко-русский, русско-немецкий словарь. — М.: Культурные традиции, 1997. 489 с.

60. Львов М. Р. Словарь антонимов русского языка. — М.: Издательство «АСТ», 2001.

61. Мальчук Ю. Н. Контекстуальный словарь для машинного перевода многозначных слов с английского языка на русский. — М.: Наука, 1995.

62. Мальчук Ю. Н. Опыт теории лингвистических моделей «смысл <-> текст». -М.:Высшая школа, 1975.

63. Медникова Э. М. Значение слова и его описание. — М.: Высшая школа, 1974.

64. Меркулова Е. М. Введение в фонетику. СПб: Союз, 2000. — 185 с.

65. Насыпный В. В., Насыпная Г. А. Поисковая машина для карманных компьютеров. // Мир ПК. №6 Москва. 2003. - с. 77.

66. Никитин М. В. Лексическое значение слова. М.: Высшая школа, 1983

67. Новиков Ф. А. Дискретная математика для программистов. — СПб: Питер, 2001.

68. Одинцов И. Профессиональное программирование. Системный подход. — СПб: BHV, 2002.

69. Орлов С. Технология разработки программного обеспечения. — СПб: Питер, 2002. 464 с.

70. Палмер Ф. Р. Семантика / очерк. — М.: Высшая школа, 1982.

71. Пиотровский Р. Г. Текст, Машина, Человек. — М.: Высшая школа, 1990.

72. Попов Э. В. Общение с ЭВМ.на естественном языке. — М.: Радио и связь, 1988.

73. Розенталь Д. Э. Русский язык. М.: Дрофа, 1994.

74. Рыбин С. В. Коммуникация интеллектуальных объектов в информационных системах с помощью ограниченного естественного языка. // Компью-Лог. Москва, 1999. - с 40-45

75. Рыжиков Ю. И. Информатика. Лекции и практикум. СПб: Корона принт, 2000.

76. Себеска Р. У. Основные концепции языков программирования. М.: Вильяме, 2001.

77. Селиверстова О. Н. Компонентный анализ многозначных слов. — М.: Наука, 1990.

78. Селиверстова О. Н. Контрастивная синтаксическая семантика. — М.: Наука, 1990.

79. Семиотика и информатика / Сборник научных статей. — М.: Наука, 1991.

80. Сентенберг И. В., Шейгал Е. И. Значение и его варьирование в тексте. — М.: Наука, 1995.

81. Смирницкий А. И. Русско-английский словарь. — М.: Русский язык, 1987.

82. Сорокин Г. А., Никитина С. А. Русско-французкий разговорник. — М.: Русский язык, 1994. 272 с.

83. Стернин И. А. Лексическое значение слова в речи. — М.: Высшая школа, 1985.

84. Стернин И. А. Проблема анализа структуры значения слова. — М: Высшая школа, 1983.

85. Ступин Л. П. Лексикография английского языка. — М.: Высшая школа, 1985.

86. Суслова Ю. И. Слово в словаре и в тексте ред. — М.: МГУ, 1991.

87. Тарту Д. Общая интерлингвистика и плановые языки. — М.: Русский язык, 1989.

88. Тихонов А. Н. Словообразовательный словарь русского языка. — М.: Русский язык, 1990.

89. Тойнби. Дедуктивная и индуктивная логика. М: Наука, 1995.

90. Трофимова 3. С. Dictionary of New Words and Meanings. M.: Павлин, 1993.-302 с.

91. Уфимцева А. А. Лексическое значение. — M.: Наука, 1990.

92. Холзнер С. Microsoft Visual С++ 5 с самого начала. СПб: Питер. 1998. — 471 с.

93. Черкасов Ю. М., Стружкин Н. П. Создание системы дистанционного обучения с элементами электронного учебника и контроля. // Компью-Лог. Москва. 1999.-с 40-45

94. Шалыго А. Технология автоматного программирования. // Мир ПК. №10 Москва. 2003. - с. 74 - 78.

95. Энкель Б. Философия Java. — СПб: Питер, 2001.Л