автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи

кандидата технических наук
Ли, Изольда Валерьевна
город
Санкт-Петербург
год
2004
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи»

Автореферат диссертации по теме "Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи"

На правах рукописи

ЛИ

Изольда Валерьевна

РАЗРАБОТКА МЕТОДОВ ПРЕДСТАВЛЕНИЯ И ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ ПРОБЛЕМНО-ОРИЕНТИРОВАННЫХ СИСТЕМ АВТОМАТИЧЕСКОГО ПОНИМАНИЯ РЕЧИ

Специальность 05.13.11 - Математическое обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2004

Работа выполнена в Санкт-Петербургском институте информатики и автоматизации РАН (Статус государственного учреждения).

Научные руководители: доктор технических наук,

доцент Косарев Юрий Александрович

кандидат технических наук Ронжин Андрей Леонидович

Официальные оппоненты: доктор технических наук,

профессор Тимофеев Адиль Васильевич

кандидат технических наук,

доцент Станкевич Лев Александрович

Ведущая организация:

Санкт-Петербургский Государственный Электротехнический Университет

Защита состоится « 5 » ¿рл'гггЛе^л.й— 2004 г. в часов на заседании диссертационного совета'Д.002.199.01 при Санкт-Петербургском институте информатики и автоматизации РАН по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского института информатики и автоматизации РАН

Автореферат разослан

2004 г.

Ученый секретарь

диссертационного совета Д.002.199.01

/1 Ронжнн Андрей Леонидович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Обеспечение взаимодействия с ЭВМ на естественном языке является важнейшей задачей исследований по искусственному интеллекту. Сейчас речевые технологии активно включаются в различные сферы нашей жизни, способствуя ускорению процессов информационного обмена в различных предметных областях, что привело к развитию проблемно-ориентированных систем понимания речи. При этом наиболее остро проявилась проблема разрешения языковой неоднозначности, а также проблема учета информации об иерархии понятий и терминов определенной предметной области. Первая проблема обусловлена многозначностью слов естественного языка, ошибками распознавания отдельных слов и синтаксическими неточностями в речи диктора. Вторая - ведет к терминологической путанице, возникающей из-за разницы в толковании терминов у системы и пользователя. Решение этих проблем связано с адекватным отображением естественного языка во внутреннее машинное представление. Для этого следует эффективно использовать всю доступную априорную информацию, включая синтаксис, семантику и прагматику.

Как правило, подходы к представлению и обработке естественного языка используют только два вида информации: синтаксическую и семантическую. Причем основной упор делается на синтаксис, т.е. методы грамматического разбора. Синтаксический анализ становится самоцелью и приводит к построению грамматически правильных предложений, которые, однако, могут содержать смысловую неоднозначность. В результате многолетних исследований в области обработки естественного языка и речи было установлено, что для решения проблемы неоднозначности необходимо использовать информацию о соотнесении знаков естественного языка, объектов и событий реальной действительности, к которым относятся семантическая и прагматическая информация, и которые представляют собой по существу информацию о предметной области. Стало очевидным, что сложность понимания и методы обработки естественного языка определяются не только структурой и особенностями входного текста, но и представлением о предметной области, в рамках которой осуществляется человеко-машинное взаимодействие.

Существует достаточно обширный набор средств представления знаний о предметной области, наиболее эффективным на сегодняшний день считается онтология. Применение этих средств для представления семантической и прагматической информации в области речевых технологий является актуальной темой исследования, поскольку ведет к разрешению проблем языковой неоднозначности и учета иерархии понятий предметной области при автоматическом понимании речи.

ГОС. НАЦИОНАЛЬНАЯ БИБЛИОТЕКА С. П*"" -

оэ

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка методов разрешения неоднозначности естественного языка и учета иерархии понятий при представлении и обработке естественного языка в системах автоматического понимания речи. Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:

1. Анализ основных подходов к представлению и обработке естественного языка;

2. Построение эффективной модели представления и обработки естественного языка;

3. Разработка методов эффективного семантико-прагматического анализа.

Методы исследования. Для решения поставленных задач в работе используются методы теории информации, теории множеств, экспертного, статистического и эвристического анализа, а также методы итерационного поиска. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Положения, выносимые на защиту:

1. Модификация базовой модели представления естественного языка за счет внесения онтологии предметной области.

2. Метод верификации - онтологического подмножества гипотезы входной фразы, позволяющий отсечь гипотезы входной фразы, содержащие семантически несвязные словосочетания.

3. Метод оценки лексической близости ситуативных переходов гипотезе входной- фразы, позволяющий отсечь заведомо бесперспективные ситуативные переходы при ситуативном анализе.

4. Модификация базовой модели обработки естественно-языкового высказывания.

Научная новизна работы состоит в следующем:

1. Разработана эффективная модель представления естественного языка за счет использования онтологии предметной области в виде иерархии понятий предметной области, которая учитывает семантическую информацию и позволяет легко расширять предметную область.

2. Разработан алгоритм верификации онтологического подмножества гипотезы входной фразы, позволяющий оценить его семантическую связность и существенно ускорить процесс обработки речи за счет предварительного отсечения гипотез, содержащих семантически несвязные понятия.

3. Разработан метод оценки лексической близости ситуативных переходов гипотезе входной фразы, позволяющий избежать последовательного перебора всех возможных канонических перефразировок при определении квантитативной оценки

расстояния между входной гипотезой и каноническими, перефразировками.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет тщательного анализа состояния исследований в данной- области, подтверждается корректностью предложенных моделей, алгоритмов и согласованностью результатов, полученных при компьютерной реализации, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные модели и алгоритмы направлены на разрешение проблемы адекватного отображения естественноязыкового представления во внутреннюю информационную модель, которая представлена ситуативной базой данных, матрицы межсловных ассоциаций и онтологией предметной области.

Разработанный метод верификации онтологического подмножества входной гипотезы позволяет оценить семантическую связность гипотезы входной фразы и обеспечивает систему понимания механизмом обобщения терминов предметной области. В результате пользователь может использовать широкий спектр понятий и терминов предметной области при взаимодействии с прикладной системой автоматического понимания речи.

Разработанный в рамках настоящего диссертационного исследования алгоритм оценки лексической близости ситуативных переходов гипотезе входной фразы позволяет уйти от последовательного перебора всех канонических перефразировок за счет предварительного анализа ситуативных переходов и отсечения заведомо бесперспективных, что позволило существенно повысить скорость ситуативной обработкиЛ

За счет внесения онтологии, использования алгоритмов верификации онтологического подмножества и метода оценки лексической близости ситуативных переходов достигается сокращение избыточности модели представления естественного языка и повышение скорости обработки гипотез входной фразы.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: СПб НЦ РАН: «Разработка методов автоматического перевода устной речи» (№01.2.00309944) и «Перевод устной речи- на основе интегрального подхода: исследование и применение ситуативной информации» (№01.2.00309949) (2002-2003гг.); ФЦП «Интеграция»: Образовательно-исследовательский центр языка и речи, № 326.81; проект МНТЦ № 1993Р (задача 4) «Модель голосового управления подвижным объектом». Кроме того, результаты диссертационной работы использованы при разработке средств голосового доступа к информационной системе «Автомаркет» для компании «BridgeQuest».

Апробация результатов работы. Основные положения и результаты диссертационной работы представлялись на Международных конференциях «Речь и Компьютер» 8РЕСОМ (Санкт-Петербург 2000, Москва 2001, Санкт-Петербург 2002, Москва 2003, Санкт-Петербург 2004), IX международной конференции «Региональная» информатика РИ-2004» (Санкт-Петербург 2004).

Публикации. Основные результаты по материалам диссертационной работы опубликованы в 9 печатных работах.

Структура и объем работы. Диссертация объемом 132 машинописные страницы, содержит введение, четыре главы и заключение, список литературы (106 наименований), 15 таблиц, 42 рисунок.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована важность и актуальность темы диссертации, сформулированы цели диссертационной работы и решаемые задачи, определяется научная новизна работы и ее практическая значимость, кратко описаны разработанные методы и алгоритмы, а также представлены основные результаты их реализации в экспериментально-исследовательских моделях речевого диалога.

В первой главе диссертации рассмотрен анализ состояния дел в области автоматического понимания речи. Качественному пониманию речи препятствуют факторы, связанные с соотнесением естественно-языкового высказывания с ожидаемыми действиями системы. К ним относятся неоднозначности, обусловленные синтаксическими неточностями, оговорками диктора и многозначностью слов, а также наличие различных уровней обобщения тех или иных специфических терминов предметной области, которое ведет к терминологической путанице. Поэтому основными проблемами понимания речи являются семантико-синтаксическая неоднозначность речевого высказывания, а также учет иерархии понятий предметной области. Эти проблемы возникают в условиях недостаточности априорной информации о естественном языке, поэтому решение этих проблем в первую очередь связано с адекватным отображением априорной информации о естественном языке во внутреннее машинное представление.

В результате обзора существующих методов представления и обработки ЕЯ были выделены три основных подхода: лингвистический, семантический и прагматический. Лингвистические теории построения модели естественного языка, основанные на извлечении правильных синтаксических конструкций ЕЯ. Одной из наиболее известных является теория трансформационных грамматик И. Хомского, которая предлагает формально-логическую модель, в виде синтаксического дерева разбора на основе правил. Статистический подход к представлению естественноязыкового текста был предложен в начале 80-х Ф. Джелинеком. Статистическая модель п-грамм строится на основе показательных текстов

предметной области. Её цель состоит в оценке вероятности появления некоторой цепочки слов Однако, такие модели позволяют только

оценить синтаксическую корректность фразы, но не учитывают семантических связей и, следовательно, не решают проблему семантической неоднозначности естественно-языкового высказывания..

Таким образом, избыточность синтаксического анализа не позволяет решить проблему установления семантических связей. Попытки построения -семантически связных текстов привели к появлению теории семантических падежей Филлмора, в которой смысл предложения рассматривается. как форма сообщения, выражающая определенный смысл. Одна из наиболее популярных идей, используемых в семантическом анализе, основана на предположение о возможности прямого отображения между предикатно-аргументной структурой и поверхностным языковым представлением. Она была предложена. Й. Уилксом в виде теории семантики, предпочтений. Одним из первых эту концепцию реализовал Б. Богураев в 1979г. Реализация представляла собой систему для описания семантических предпочтений и применялась для системы обработки запросов к базе данных. Семантический подход позволил рассматривать слово в зависимости от его предметной прикрепленности. В результате возникла.. необходимость учета, прагматической информации, помимо модели языка стала учитываться модель предметной области. В области искусственного интеллекта разработан ряд средств представления знаний о предметной области, одним из наиболее эффективных на сегодняшний день среди них является онтология.

В результате многолетних исследований в области проблем автоматического понимания речи и естественно-языковой неоднозначности была осознана необходимость комплексного подхода к построению семантико-синтаксической модели языка и прагматической модели ПО. При таком подходе синтаксическая информация используется как вспомогательная и позволяет оценить грамматическую корректность естественно-языковых конструкций, семантическая информация накладывает связи между знаками естественного языка, а прагматическая информация соотносит знаки естественного языка с реальными объектами и ситуациями.

Таким образом, анализ существующих подходов к представлению и обработке естественного языка показал, что существует ряд средств эффективного представления и обработки естественного языка, применение которых, в системах автоматического понимания речи позволит решить проблему неоднозначности и учесть иерархию понятий ПО.

Во второй, главе приводится описание интегральной модели понимания речи (разработанной. ранее в группе речевой-информатики. СПИИРАН). Модель содержит модули акустического и естественноязыкового анализа. В данной работе более полно рассматривается уровень

естественно-языкового анализа, поскольку он претерпел изменения за счет модификации представления и обработки естественного языка, учитывающих иерархию терминов ПО.

Базовая модель интегрального понимания речи использует ассоциативный и ситуативный виды естественно--языкового анализа. Ситуативная модель описывает модель восприятия мира, ограниченную конкретной предметной областью, и может быть представлена ориентированным графом, где узлами являются ситуации, возможные в данной предметной области, а дуги - переходы между ситуациями, которые могут быть отражены наборами возможных перефразировок:

КV, >,<\у2,У2 >,...,<«г„у, >.....>},Ь = |К|, ^.»согаЯ,

1=1

К- каноническая фраза в наборе возможных перефразировок, которая представлена множеством пар XV,, V,, где ш, - слово из фразы, V, - вес слова

во фразе, при этом сумма весов по фразе постоянна и одинакова для всех фраз ситуативной модели, Ь - длина канонической перефразировки.

На основе всех канонических перефразировок, заданных в ситуативной модели строится ассоциативная модель, которая представляет собой матрицу межсловных ассоциаций. В результате ассоциативного анализа получают количественную меру соответствия гипотезы одновременно синтаксису и семантике, заданным в данной ПО.

Ситуативный анализ позволяет разрешить семантико-прагматическую неоднозначность входной* фразы и оценить степень соответствия анализируемой гипотезы фразы Б и возможных ситуативных переходов. При этом вычисляется насколько гипотеза входной фразы коррелируется с каждой канонической перефразировкой:

,Р|К1+Р;|А2

0(Р,К)=-

ь+м

5>,+1

где - весовые коэффициенты,

которые позволяют минимизировать влияние случайных или незначащих слов на оценку Б(Р,К), которая вычисляется для всех канонических перефразировок, что приводит к избыточности ситуативного анализа.

Кроме того, существенный недостаток базовой модели интегрального понимания проявляется при учете иерархии понятий ПО. При этом возникает избыточность представления перефразировок для каждого перехода, содержащего синонимичные понятия или понятия, различного уровня обобщения. Пример устранения такой избыточности представлен на рисунке 1. Как видно из примера, перефразировки тиражируются как в рамках одного набора перефразировок, так и для каждого ситуативного перехода. Наличие обобщающего понятия- позволяет представить ситуативные переходы более компактно.

Для решения проблемы учета иерархии понятий предлагается использовать простейший вид онтологии: классификацию терминов ПО в формате XML, который удовлетворяет критериям расширяемости онтологии, и, в то же время, позволяет ввести набор понятий, достаточный для моделирования необходимой модели мира в задаче речевого взаимодействия. Построение онтологии начинается от корневого, наиболее обобщенного понятия, и далее по пути классификации объектов предметной области по общим признакам выстраивается иерархия понятий предметной области.

Онтология в интегральной модели представляет собой простую иерархическую систему понятий (терминов предметной области), связанных между собой отношением is_a («быть элементом класса»). Отношение isa имеет фиксированную заранее семантику и позволяет организовывать структуру понятий онтологии в виде дерева.

В результате внесения онтологии ПО в рамках ситуативной модели-было модифицировано представление канонической перефразировки К (рис. 2), которая теперь состоит из двух подмножеств: подмножество слов, однозначно интерпретируемых и подмножество слов

из онтологии nO{<wontl,Vonll >,...,<W(lnl£,V0„1¿ >}• Соответственно при

обработке речевого сигнала гипотеза фразы должна быть сформирована в том же формате. Теперь она содержит два подмножества: подмножество слов, однозначно интерпретируемых в рамках определенного перехода

К,.^,,....."V } f

и онтологическое подмножество элементы которого

принадлежат онтологии и должны быть проверены на правомерность их совместного использования в анализируемой гипотезе входной фразы

F, = К;,-wfi2--wF,n ("W-,"■„,„} = {">}u /«*

Кроме того, наличие обобщающих понятий обеспечивает уменьшение неоднозначности на-ассоциативном уровне и значительное сокращение соответствующей базы данных за счет объединения нескольких элементов одного уровня и их оценок семантической связности с остальными словами в одну группу.

К-+{< \У„У, >,...,< \УМ,

Набор Фраза 1 |

возможных Фраза 2 |

перефразировок 3

Фраза N |

Онтология по

Рис. 2.' Модификация представления канонической перефразировки в ситуативной модели -

Таким образом, внесение онтологии позволило учесть иерархию понятий в ходе семантико-прагматического анализа и устранить избыточность в представлении ситуативной и ассоциативной информации.

Третья глава описывает разработанные автором метод верификации онтологического подмножества на основе онтологии ПО и метод оценки лексической близости ситуативных переходов гипотезе входной фразы. Оба метода направлены на предварительную оценку поступающих на ситуативный анализ гипотез фраз. Первый метод позволяет отсечь семантически неверные гипотезы, опираясь на онтологическую модель, а второй - осуществляет анализ множества канонических перефразировок с целью отсечения маловероятных, за счет предварительного лексического анализа. В результате повышается точность понимания, а скорость ситуативного анализа увеличивается в несколько раз.

В методе верификации онтологического подмножества > выполняется

поиск элементов подмножества ~ ••"'w<»»} в онтологии ПО, выявляется наличие или отсутствие прямых родственных связей между этими элементами, а также определяются обобщающие понятия для каждого из элементов.

Упрощенная схема алгоритма представлена на рисунке 3. Здесь

выполняется циклическая обработка онтологических подмножеств множества гипотез фраз F. В первом блоке осуществляется извлечение

fon

цепочек предков каждого элемента методом итерационного перехода по ссылкам вплоть до корневого понятия. Затем производится сортировка полученных цепочек предков по их длине.

В результате на выходе блока получается упорядоченное множество цепочек предков Я:

где п, чество предков в цепочке для каждого элемента.

После чего проверяется, что все элементы множества R находятся на одной ветви онтологии ПО, т.е. цепочка предков самого младшего потомка должна включать все остальные цепочки. Для этого используется оценка семантический связности Ок, которая вычисляется по следующей формуле:

равна нулю только в том случае, когда совпали все элементы

является

сравниваемых цепочек предков, и, следовательно, множество семантически правильным. Тогда в гипотезу входной фразы вместо

элементов подставляются обобщающие понятия из онтологии. В случае

хотя бы одного несовпадения, все множество

рассматривается как

некорректное и следует без изменений на дальнейшую обработку. Однако,, если гипотеза фразы Р/ состоит только из множества =и при

этом оно является некорректным, то эта гипотеза исключается из дальнейшего рассмотрения. Таким образом, внесение онтологии ПО в

модель представления естественного языка и использование метода верификации онтологического подмножества позволило учесть иерархические связи между терминами предметной области и получить оценку их семантической связности 01!.

Во второй части третьей главы рассматривается метод оценки лексической близости возможных ситуативных переходов гипотезе входной фразы. На рисунке 4 представлена схема модифицированного ситуативного анализа с использованием разработанного метода.

у р

где Ь-количество слов в п - количество слов в Оценка

I V г

получается путем пословного сравнения двух множеств т' и ', и равна

нулю в случае нахождения хотя бы одного общего слова у анализируемого

словаря и гипотезы входной фразы, в противном случае оценка равна единице. Тогда множество бесперспективных переходов равно:

Тс, = 0 (/„Л) = {Г„(1,... г * г » ¿«1

где г - число бесперспективных переходов.

В результате, общее число отсеченных канонических фраз Рш равно

сумме всех перефразировок из тш

Г-[

>

где т1 - число перефразировок г-ого перехода из Тш •

Метод оценки лексической близости ситуативных переходов позволяет заранее отсечь бесперспективные для поступившего набора гипотез ситуативные переходы и таким образом, значительно ускорить процесс ситуативного анализа.

На рисунке 5 показана модификация модуля естественно-языковой обработки. Пунктиром выделены. модули, разработанные - в результате модификации.

Модификация проведена на основе разработанных методов, которые обеспечивают сокращение гипотез фраз выходящих с модуля ситуативного анализа по двум аспектам. Во-первых, сокращается количество гипотез, поступающих с уровня ассоциативного анализа, с коэффициентом ккр. Во-

вторых, сокращается число канонических перефразировок, поступающих на ситуативный анализ, с коэффициентом кле,с. В результате, при сравнении всех гипотез фраз со всеми каноническими

перефразировками с выхода модуля ситуативного анализа получается множество гипотез фраз размером:

Таким образом, общий коэффициент сокращения • числа гипотез, не вызывающий при этом потери правильной гипотезы, равен квер«клекс, что привело к ускорению работы ситуативного анализа и интегральной модели понимания речи в целом, например, на 50% для модели голосового управления самолетом.

В четвертой главе приводятся данные по реализации разработанных алгоритмов в экспериментально-исследовательских моделях речевого диалога. Создана модель представления естественного языка для системы голосового управления самолетом. Фрагмент онтологии устройств управления самолетом представлен на рисунке 6.

Рис. 6. Фрагмент онтологии устройств управления самолетом

Наличие однотипных устройств вызывало избыточность в представлении голосовых команд (перефразировок), поэтому была использована онтология устройств управления самолета. Сокращение числа гипотез входной фразы для этой задачи в среднем составило

В рамках разработанной модели также был реализован метод оценки лексической близости возможных ситуативных переходов при ситуативном анализе. Метод позволил снизить объем, перебора канонических перефразировок на 80%, Акк. =5. Таким образом, общий коэффициент сокращения числа гипотез без потери качества понимания.

Однако, с учетом временных затрат на лексический анализ общий выигрыш в скорости ситуативной обработки составил 50% от базовой модели.

На рисунке 7 представлен интерфейс системы голосового доступа к системе «Автомаркет». Задача, поставленная перед системой, состояла в заполнении формы поиска популярных японских автомобилей. Поскольку пользователь не всегда сохраняет строгую последовательность при перечислении характеристик автомобиля, было необходимо, чтобы система адекватно реагировала на. различные варианты фраз, содержащие избыточную или преждевременную, с точки зрения системы, информацию.

Внесение онтологии ПО в модель представления естественного языка, позволило устранить семантическую неоднозначность использования терминов ПО. Онтология содержит 146 терминов предметной области. Использование онтологии позволило избежать избыточности ситуативной модели более чем на 98%. Использование метода верификации онтологического подмножества позволило исключить около 40% семантически-неверных гипотез входной фразы до ситуативного и ассоциативного анализа. В результате процесс обработки речи ускорился почти в 2 раза. Однако, наличие большого числа акустически. похожих словосочетаний, которые удовлетворяют требованиям верификации, привело к снижению качества понимания речи до 94%.

Таким образом, с помощью разработанных в диссертационной работе методов и программных модулей были созданы эффективные средства человеко-машинного взаимодействия на основе автоматического ввода речи. Естественность взаимодействия пользователя с прикладной системой понимания речи была обеспечена за счет возможности использования широкого спектра понятий и терминов предметной области.

ЗАКЛЮЧЕНИЕ

В области понимания речи наиболее актуальными являются проблемы связанные с разрешением естественно-языковой неоднозначности, а также использованием информации об иерархии понятий определенной предметной области (ПО).

В результате проведенной работы был разработан метод верификации онтологического подмножества с использованием онтологии предметной области, которая вносит информацию об иерархии понятий, а также за счет метода оценки лексической близости ситуативных переходов был усовершенствован ситуативный анализ, позволяющий устранить смысловую неоднозначность высказывания.

1. Внесение онтологии предметной области и использование метода верификации онтологического подмножества позволило учесть иерархические связи между терминами предметной области и проверить их семантическую связность. За счет предварительного отсечения гипотез, содержащих семантически не связные понятия, удалось существенно ускорить процесс обработки речи. Кроме того, обеспечена естественность взаимодействия пользователя с прикладной системой понимания речи за счет возможности использования широкого спектра понятий и терминов предметной области.

2. Метод оценки лексической близости ситуативных переходов позволил оценить релевантность анализируемой гипотезы конкретному ситуативному переходу без перебора всех перефразировок, и таким образом, ускорил процесс разрешения семантической неоднозначности при ситуативном анализе.

3. На основе разработанных методов была проведена модификация базовой модели интегрального понимания, в результате чего появилась возможность разрешать семантическую неоднозначность высказываний, содержащих термины различных уровней обобщения, без избыточного представления ситуативной информации.

Кроме того, методы, изложенные в диссертационной работе, были использованы при проведении ряда научно-исследовательских работ. В дальнейшем разработанные методы и программные средства будут использованы при создании перспективных интеллектуальных приложений человеко-машинного взаимодействия.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Yuri Kosarev, Izolda Lee, Andrey Ronzhin, Jesus Savage. State of the Art in Speech-Understanding. International Workshop SPECOM'2001, Moscow: Moscow State Linguistic University, 2001, pp. 241-250.

2. Ю.А. Косарев, И.В. Ли, А.Л. Ронжин, Е.А. Скиданов, J. Savage «Обзор методов понимания речи и текста», Труды СПИИРАН / Под ред. Р.М. Юсупова вып. 1 т. 2 - СПб.: «Анатолия», 2002, С. 157-195.

3. Ronzhin, Yu. Kosarev, I. Lee, A. Karpov. Continuous Speech Recognition Suitable for Robust Speech Understanding. International, Workshop SPEC0M'2002, St. Petersburg: "Evropeiski Dom", 2002, pp. 47-52.

4. Yuri Kosarev, Izolda Lee, Andrey Ronzhin, Alexey Karpov, Jesus Savage, Fred Haritatos. Robust Speech Understanding for a Voice Control System. International Workshop SPECOM'2002, St. Petersburg: "Evropeiski Dom", 2002, pp. 13-18.

5. А. Ронжин, Ю. Косарев, И. Ли, А. Карпов. Метод распознавания слитной речи на основе анализа сигнала в скользящем окне и теории размытых множеств. / Научно-теоретический журнал «Искусственный интеллект», №4. - Донецк, Украина,-2002, С. 256263.

6. Andrey Ronzhin, Yuri Kosarev, Alexey Karpov, Izolda Lee. Elaboration < of the intellectual speech interface provided accuracy, robustness and adaptability. International Workshop SPEC0M'2003, Moscow, Russia, October 2003, pp. 231-236.

7. Yuri Kosarev, Andrey Ronzhin, Alexey Karpov, Izolda Lee. Approaches to creation of situational databases for integral speech understanding models. International Workshop SPEC0M'2003, Moscow, Russia, October 2003, pp. 114-118.

8. Lee I.V., Ronzhin A.L., Karpov A.A. Semantic-pragmatic processing of natural language for automatic speech understanding systems. International Workshop SPECOM'2004, Russia, 2004, St. Petersburg, Publishing house "Anatolya", 2004, pp.488-494.

9. Ли И.В., Ронжин А.Л., Карпов А.А. Учет иерархии понятий предметной области в системах автоматического понимания речи. /Научно-теоретический журнал «Искусственный интеллект», Донецк, Украина, 2004.

Оригинал - макет ИВ Ли. Бумага офсетная. Печать офсетная. Объем 1 печ. л. Тираж 100 экз. Заказ № 162

Издательский отдел Библиотеки Российской АН (199034, Санкт-Петербург, Биржевая л., 1)

04 ~ 1 6140

Оглавление автор диссертации — кандидата технических наук Ли, Изольда Валерьевна

Введение.

Положения, вьшосимые на защиту:.

Глава 1: Анализ подходов и средств представления и обработки естественного языка в системах понимания речи.

1.1. Основные проблемы.

1.2. Подходы к представлению и обработке естественного языка.

1.2.1. Лингвистические подходы.

1.2.2. Экспериментальный подход.

1.2.3. Прагматически-ориентированный подход.

1.3. Средства представления предметной области.

1.3.1. Семантические сети и фреймы

1.3.2. Диаграммы сущность-связь.

1.3.3. Онтологии.

Выводы по главе 1.

Глава-21 Модифицированная модель представления естественного языка в: рамках интегрального подхода к пониманию речи.

2.1. Модель представления естественного языка.

2.1.1. Ситуативная модель.

2.1.2. Модель языка - ассоциативная модель.

2.2. Модель интегрального понимания.

2.2.1. Базовый ассоциативный анализ.

2.2.2. Базовый ситуативный анализ.

2.2.3. Интегральная оценка.60=

2.2.4. Избыточность информации в базовой модели интегрального понимания.

2.3. Модификация модели представления естественного языка.

2.3.1. Особенности использования онтологии.

2.3.2. Модификация ситуативной модели.

2.3.3. Модификация ассоциативной модели.

2.3.4. Модификация словаря предметной области.

2.3.5. Модификация структуры входной гипотезы.

Вывод по главе 2.

Глава 3. Разработанные методы обработки гипотез фраз в модуле естественно-языкового анализа.74!

3.1. Метод верификации онтологического подмножества гипотезы входной фразы.

3.1.1. Алгоритм верификации онтологического подмножества.

3.1.2. Оценка работы алгоритма верификации онтологического подмножества.

3-1.3. Оценка эффективности представления перефразировок.

3.2. Метод оценки лексической близости ситуативных переходов и гипотез фраз.

3.2.1. Обработка гипотез в базовой модели понимания.

3.2.2. Оценка лексической близости ситуативных переходов и гипотез фраз.

3.2.3. Тестирование метода оценки лексической близости в задаче голосового управления подвижным объектом.

3.3. Модификация модуля естественно-языковой обработки.

Выводы по главе 3.

Глава 4. Практическое использование разработанных в диссертации методов.

4.1. Модель голосового управления подвижным объектом.

Описание программного комплекса, реализующего модель понимания речи.

Модель представления естественного языка в задаче голосового управления самолетом

4.2. Модель понимания речи для информационной системы «Автомаркет».

Выводы по главе 4.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Ли, Изольда Валерьевна

Некоторые определения. В данной, быстроразвивающейся области, используются некоторые термины, заимствованные из смежных областей* знаний. Поэтому во избежание недоразумений здесь целесообразно привести * некоторые определения.

Распознаванием речи называют представление речевого сигнала последовательностью слов, которая ему соответствует.

Пониманием речи называют представление: смысла, передаваемого г речевым сигналом, в некоторой канонической форме, непосредственно' пригодной» для вызова- действий; в автоматической системе, угодных говорящему человеку [5].

Естественный язык (ЕЯ) — язык, словарь и грамматические правила которого обусловлены, практикой; применения; и не всегда формально; зафиксированы.

Онтология является; системой понятий, предположительно существующих в некоторой; области знаний, для; обозначения; которых использован определенный естественный язык. В простейшем; случае онтология описывает иерархию связных представлений, которые используются; для; обозначения типовых множеств объектов, обладающих общими; признаками.

Акту ал ь ность темы д иссертаци и; Обеспечение взаимодействия; с ЭВМ; на естественном языке является важнейшей задачей исследований; по искусственному интеллекту. Сейчас речевые технологии активно включаются в различные сферы нашей жизни, способствуя ускорению процессов информационного обмена; в различных предметных областях, что привело к развитию проблемно-ориентированных систем понимания; речи. При; этом; наиболее остро * проявилась проблема разрешения? языковой ; неоднозначности [25], а также проблема;учета информации об иерархии; понятий» и; терминов« определенной предметной области. Первая; проблема обусловлена; многозначностью слов естественного языка; ошибками; распознавания отдельных слов и синтаксическими неточностями^ в речи диктора. Вторая ведет к терминологической путанице, возникающей из-за разницы в толковании терминов у системы и пользователя. Решение этих проблем связано с адекватным отображением естественного языка во внутреннее машинное представление. Для этого следует эффективно использовать всю доступную* априорную информацию, включая синтаксис, семантику и прагматику [18].

Как правило, подходы к представлению и обработке естественного языка используют только два вида информации: синтаксическую и семантическую. Причем: основной упор делается; на. синтаксис, т.е. методы грамматического разбора; [16]. Синтаксический: анализ становится самоцелью и приводит к построению грамматически правильных предложений; которые, однако,. могут содержать, смысловую неоднозначность. В результате многолетних исследований в области обработки естественного языка и речи было установлено, что для решения проблемы, неоднозначности необходимо? использовать информацию о соотнесении знаков естественного языка, объектов и событий реальной действительности, к которым относятся - семантическая?и прагматическая; информация, и которые представляют собой по существу информацию о предметной области. Стало очевидным, что сложность понимания и методы обработки естественного языка определяются не только структурой и особенностями: входного текста, но и представлением. о предметной области, в рамках которой осуществляется! человеко-машинное взаимодействие.

Существует достаточно обширный набор средств представления знаний7 о предметной области, наиболее эффективным на: сегодняшний день считается онтология-[23]. Применение этих средств для представления семантической и прагматической информации в области речевых технологий является актуальной темой исследования, поскольку ведет к разрешению проблем языковой«неоднозначности и учета иерархии понятий предметной области4 при понимании речи.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка методов разрешения, неоднозначности^ естественного языка и учета иерархии понятий при представлении и обработке естественного языка в, системах автоматического понимания речи. Для достижения поставленной цели; в диссертационной! работе поставлены^ и решены следующие задачи:

1. Анализ; основных подходов к представлению и обработке естественного языка;

2. Построение эффективной модели представления, и обработки естественного языка;

3; Разработка методов эффективного семантико-прагматического анализа. Методы! исследования. Для решения поставленных задач в работе используются- методы теории информации, теории! множеств, экспертного,, статистического и эвристического анализа, а также: методы итерационного поиска. Компьютерная; реализация - разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Научная новизна работы состоит в следующем:

1. Разработана эффективная модель представления естественного языка; за счет использования онтологии^ предметной» области в виде иерархии? понятий предметной области, которая учитывает семантическую' информацию и позволяет легко расширять предметную область.

2. Разработан алгоритм верификации онтологического подмножества гипотезы входной фразы, позволяющий оценить его семантическую связность, и существенно ускорить процесс обработки? речи за; счет предварительного отсечения гипотез, содержащих семантически не: связные понятия.

3; Разработан метод оценки лексической^ близости: ситуативных переходов; гипотезе входной фразы, позволяющий избежать последовательного перебора всех возможных канонических перефразировок при; определении квантитативной оценки расстояния! между входной; гипотезой и каноническими перефразировками.

Обоснованность, и* достоверность научных положений; основных выводов? и результатов диссертации обеспечивается за счет тщательного анализа состояния: исследований в. данной области, подтверждается корректностью предложенных моделей, алгоритмов * и согласованностью» результатов, полученных при компьютерной реализации, а также апробацией: основных теоретических положений диссертации в печатных трудах и докладах на научных конференциях.

Практическая ценность работы. Разработанные модели и алгоритмы направлены на разрешение проблемы адекватного отображения» естественноязыкового представления во внутреннюю информационную модель, которая представлена в виде матрицы межсловных ассоциаций, ситуативной? базой данных и онтологией предметной области.

Разработанный метод верификации онтологического подмножества входной гипотезы позволяет оценить семантическую связность гипотезы входной фразы и обеспечивает систему понимания механизмом обобщения терминов предметной области: В результате пользователь может использовать широкий спектр понятий и терминов предметной области при взаимодействии с прикладной системой автоматического понимания речи;

Разработанный в рамках настоящего диссертационного исследования; алгоритм оценки лексической близости ситуативных переходов гипотезе входной фразы позволяет уйти от последовательного перебора всех канонических перефразировок за счет предварительного анализа ситуативных переходов и отсечения заведомо бесперспективных, что позволило существенно повысить скорость ситуативной обработки.

За счет внесения онтологии, использования алгоритмов верификации онтологического подмножества и метода оценки лексической* близости ситуативных переходов достигается- сокращение избыточности модели; представления естественного языка и повышение скорости обработки гипотез входной фразы.

Реализация результатов! работы. Исследования, отраженные в диссертации,, проведены в рамках научно-исследовательских работ: СПб НЦ РАН: «Разработка методов автоматического перевода устной речи» (№ 01.2.00309944) и «Перевод устной речи на основе интегрального подхода: исследование и применение ситуативной информации» (№01.2.00309949) (2002-2003гг.); ФЦП «Интеграция»: Образовательно-исследовательский* центр языка и речи, № 326.81; проект МНТЦ №>1993Р (задача 4) «Модель голосового управления подвижным объектом». Кроме: того, результаты диссертационной: работы использованы при разработке средств голосового доступа к информационной системе «Автомаркет» для компании «Впс1§е<3ие81».

Апробация, результатов-, работы:. Основные положения? и результаты диссертационной работы представлялись на Международных конференциях «Речь и Компьютер» БРЕСОМ (Санкт-Петербург 2000, Москва 2001, Санкт-Петербург 2002, Москва 2003, Санкт-Петербург 2004), IX международной« конференции «Региональная; информатика РИ-2004» (Санкт-Петербург 2004).

Публикации. Основные результаты по материалам диссертационной г работы опубликованы в 9 печатных работах.

Структура и объем работы. Диссертация объемом 132 машинописные страницы, содержит введение, четыре главы и заключение, список литературы (106 наименований), 15 таблиц, 42 рисунка.

Заключение диссертация на тему "Разработка методов представления и обработки естественного языка для проблемно-ориентированных систем автоматического понимания речи"

Выводы по главе 4

Разработанные в диссертации методы были успешно реализованы в ряде ; научно-исследовательских моделей:

1. По проекту МНТЦ №1993Р, задача 4 создана модель голосового управления самолетом на основе разработанных алгоритмов естественно-языкового анализа. Внедрение разработанных; методов в рамках данного проекта позволило > устранить избыточность, базовой; модели; представления и обработки естественного языка без потери качества понимания речи.

2. В рамках проекта «Автомаркет» были; разработаны средства голосового доступа: к информационному автокаталогу. На основе предложенного ; метода верификации ; онтологического подмножестваi был реализован механизм семантического анализа, позволяющий; корректно обобщать термины* предметной- области: Разработанные средства голосового ; доступа ; могут быть внедрены в антивандальные : справочные системы в предметных областях с принятой и устоявшейся терминологией.

Заключение

В! области понимания, речи наиболее актуальными: являются проблемы; связанные с разрешением естественно-языковой» неоднозначности; а также' использованием: информации об иерархии понятий; определенной' предметной; области (ПО);

В результате: проведенной работы: был разработан - метод верификации: онтологического подмножества: с использованием: онтологии предметной: области, которая? вносит информацию об иерархии: понятий; а также за счет метода оценки лексической: близости ситуативных переходов был усовершенствован ситуативный: анализ, позволяющий устранить смысловую неоднозначность высказывания:

1. Внесение онтологии предметной области и; использование метода верификации онтологического подмножества позволило учесть, иерархические связи между терминами: предметной? области: ш проверить их семантическую связность. За счет предварительного отсечения гипотез, содержащих семантически не связные понятия;. ' удалось существенно ускорить процесс обработки речи;.Кроме того,, обеспечена естественность взаимодействия пользователя с прикладной системой понимания речи за; счет возможности, использования широкого спектра понятий: и терминов предметной: области.

2'. Метод оценки лексической близости ситуативных переходов позволил оценить релевантность анализируемой; гипотезы: конкретному ситуативному переходу без перебора всех: перефразировок, и таким образом, ускорил: процесс разрешения? семантической неоднозначности при ситуативном анализе.

3. На основе: разработанных методов» была проведена модификация» базовой модели интегрального понимания; в результате чего появилась возможность разрешать семантическую неоднозначность высказываний, содержащих термины различных уровней обобщения, без избыточного представления ситуативной информации;

Методы, изложенные в диссертационной работе, были использованы при проведении ряда научно-исследовательских работ. В дальнейшем разработанные методы и программные средства будут использованы при создании перспективных интеллектуальных приложений человеко-машинного взаимодействия.

Библиография Ли, Изольда Валерьевна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Апресян; Ю.Д. Образ человека по данным языка: попытка системного описания //Вопросы языкознания; №1, Наука, 1995. — с.35-67.

2. Апресян Ю.Д., Богуславский ИМ., Иомдин JI.JI. и др. Лингвистический процессор для сложных информационных систем: М.: Наука, 1992;

3. Апресян Ю.Д., Богуславский * И.М., Иомдин i JI.JI. и др. Лингвистическое обеспечение системы Этап-2, М.: Наука, 1989. — 295с.

4. Бухараев Р.Г., Сулейманов Д.Ш. Семантический? анализ; в вопросно-ответных системах. Казань: Изд. КГУ. - 1990. 124 с.

5. Винцюк Т.К. Куляс А.И: Универсальная: программа анализа речи в реальном масштабе времени // 10 Всесоюзный семинар «Автоматическое распознавание слуховых образов»: Тез. докл. — Тбилиси, 1978.

6. Гаврилова Т.А., Хорошевский? В.Ф. Базы знаний интеллектуальных систем. С-Пб: Питер, 2001. С. 384.

7. Гойхман О.Я., Надеина Т.М: Речевая коммуникация. М., Инфра-М; 2003; -С. 10;

8. Грейвс М.:,.Проектирование баз; данных на основе ХМЕ. Mi:: Вильяме, 2001.-640 с.

9. Джелинек Ф. Разработка экспериментального устройства, распознающего раздельно произносимые слова. ТИИЭР. Речевая связь с машинами; т.73 • №11, Ноябрь 1985, Москва, Мир. с.91-100.

10. Дрейфус X. Чего не могут вычислительные машины. «Прогресс», М;,1978.-334с.

11. Клещев A.C., Артемьева И.Л. Математические модели; онтологий предметных областей; Препринт Владивосток. ИАПУ ДВО РАН, 2000г, с.43.

12. Мальковский М.Г. Диалог с системой искусственного интеллекта. -М^: Изд-во МГУ, 1985. -214 с.

13. Марчук Ю.Н. Основы компьютерной лингвистики. Москва, 2000г, с.69.

14. МельчукИА. Опыт теории лингвистических моделей Смысл-Текст. — М.: Наука, 1974.-С. 314.18; Методы автоматического распознавания речи. Под ред. У. Ли. Москва: Мир,.1993, С.325.

15. Минский; М. Фреймы, и, представление знаний: М.: Энергия, 1979. — 151с.20: Михаленко^ П. Открытые системы, #02/2004http://www.osp.ru/os/2004/02/035 .htm;

16. Нариньяни A.G. ТЕОН-2: от тезауруса к онтологии и обратно; Материалы «Межд. Семинара Диалог «2002», Том; 21 http://www.dialog-21.ru/archive article.asp?param=7360&v=2002&vol=6077.

17. Организация« взаимодействия;человека с техническими средствами; АСУ. В 7 кн. Кн. 6. Персональные автоматизированные информационные системы и дисплейные комплексы /Под ред. В:Н. Черверикова: М., 1991. - 143

18. Осипов F.C. Построение моделей предметных областей. Неоднородные семантические сети //Изв. АН СССР, техн. кибернетика, 1990. N529: Психологический словарь. М., 1998. С. 26.

19. Селфридж М. Интегральная; обработка обеспечивает надежное понимание. H3JI, Вып.24, М.: Прогресс, 1989. с. 161.

20. Скороходько Э. Ф: Семантические сети и автоматическая? обработка текста. Киев, 1983. - С. 112.

21. Сокирко А. Диссертация "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)". http://www.aot.rU/docs/sokirko/sokirko-candid-2.html#2-3-l.

22. Станкевич JI.A. Интеллектуальные технологии и представление знаний. Интеллектуальные системы. С-Пб.: СПбГТУ, 2000г, с.47.

23. Уилкс И. Анализ предложений английского языка. 4.1 // Новое в зарубежной лингвистике. М., 1983. Вып. XII, рр.208-226.39; Уинстон П. Искусственный интеллект. М., 1980. — 580 с.

24. Филлмор Ч. Фреймы и- семантика; понимания. H3JI «Когнитивные аспекты языка» Вып.23: М: Прогресс, 1988г. С. 52-92.

25. Хомский Н. Синтаксические структуры. В сб. «Новое в лингвистике». Вып.2, Изд. Москва, Ин. лит.,. 1962. с.412-527.

26. Цаленко М.Ш. Моделирование семантики. в базах данных. М.: Наука, 1989.- 287 с-.

27. Шенк Р;, Хантер JI. Познать механизмы мышления // Реальность и прогнозы искусственного интеллекта. М.: Мир, 1987 г. С. 15-26:

28. Шенк Р., Бирнбаум JL, Мэй Дж. К интеграции семантики и прагматики. НЗЛ; Вып.24, М.: Прогресс, 1989. с.32.

29. Cui Z., Cox M:, Jones D. An Environment for Managing Enterprise Domain Ontology. Chapter in Information ? Modelling for the New Millennium;. IBSR, 2000: http://www.btexact.com/projects/ibsr/publications.htm.

30. Dear B.L. AI and the Authoring Process // IEEE Expert Magazine, Summer, 1987.-P. 17-23.

31. Deese J. On > the ; structure of associative meaning. In Psychological' review, 1962. - Vol. 69, No. 2. - pp. 161-175.

32. Fillmore Ch. The Case for case. In Bach, Harms. Universals in Linguistic Theory. New York, 1968.

33. Galescu Lucian, Ringger Eric K. Augmenting' Words; with Linguistic Information; for N-gram Language Models. Eurospeech'99, Volume 5; pp.2171-2174.

34. Helmut Lucke. Interface of stochastic context-free grammar rules from example data using the theory of Bayesian belief.— In: The Proc. of Eurospeech93, 1993:-pp. 1195-1198.

35. Hirst G., Semantic Interpretation and. the Resolution of Ambiguity. 2nd ed., Cambridge: Cambridge University Press, 1992.

36. Knowledge interchange format, http://logic.stanford.edu/kif/kif.html65. (KA)2 Ontology. OIL as a result of the On-To-Knowledge-Project. http://-www.ontoknowledge.org/oil/case-studies, 2001.

37. Karttunen, Lauri. Radical lexicalism. Alternative conceptions of phrase structure.University of Chicago Press, Chicago, 1989; pp 43-65;

38. Kosarev Yu. Some aspects of Robust Speech Understanding. Invited lecture for the International Workshop SPECOM'2002, St. Petersburg, 2002: pp. 38.

39. Kosarev Yu. Spoken language translation model based on the speech understanding in activity context. Proc. International Workshop? SPECOMH996, St. Petersburg, 1996.-pp. 57-58.

40. Kosarev Yu, Ronzhin A., Karpov A., Lee I: "Continuous Speechr Recognition without Use of High-Level Information", 15th International Congress of Phonetic Sciences, Barcelona, August 2003, pp 1373-1376.

41. Kosarev Yu. A., JarovP.A. Associations help to recognize words.— In Proceedings of DAGA-95, Saarbruecken, 1995. pp. 979-982.

42. Kosarev Yu., Savage J. Realization of some reserves of language; and extralinguistic knowledge for the speech dialogue systems improvement: Moscow: Proc. Intern. Workshop "Speech and Computer", SPECOM'1999. -pp. 20-31.

43. Kosarev Y. A., Ronzhin A. L., Karpov A. A., Lee I. V. Approaches to creationi of situational databases for integral speech; understanding; models. Proc. of International Workshop SPECOM'2003, Moscow, 2003r., pp.114-118.

44. Lafferty J. D., Sleator D;, Temperley D. "Grammatical trigrams: A probabilistic model of link grammar," in Proc. AAAI Fall Symp. Probabilistic Approaches to Natural Language, Cambridge, MA, Oct. 1992:

45. Loom Project Home Page, 2001. http://www.isi.edu/isd/LOOM/LOOM-HOME.html.

46. Lyons J. Introduction to theoretical linguistics. — Cambridge: At the University Press, 1972:

47. Marcus M.P. A Theory of Syntactic Recognition1 for Natural; Language. Cambridge,' MA: MIT Press, 1980:

48. Nirenburg S., Raskin V., Tucker A. On> Knowledge-Based5 Machine Translation. In: Proceedings of COLING 1986; - Bonn, 1986, p. 627-632.

49. OaksfordM., ChaterN. Against logistics cognitive science.— In Mind &Language, 1991. Vol. 6, No. 1, pp. 2-37.83: Pearl J. Probabilistic Reasoning in Intelligent Systems.— Morgan&Kaufmann, 1987.

50. Philips J:, Thompson; H., GPSG-—a parser for generalized; phrase structure grammars. // Linguistics, 23(2), 1985. pp. 245-261

51. Pollard G. J., Sag I. A. Head-driven Phrase Structure Grammar. Chicago; 't- University Press, Chicago, 1994.

52. Pustejovsky, J. Lexical Semantics. A guide to computational linguistic articles in the encyclopedia; of artificial! intelligence, 2nd;Edition, Stuart C. Shapiro; (editor), John Wiley & Sons, 1992, p.812-819.

53. RDF, http://www.xml.eom/pub/a/2001/01/24/rdf.html

54. Russ T., Valente A., MacGregor R:, Swartout W. Practical Experiences in; Trading Off Ontology Usability and Reusability. Proceedings of the Twelfth Banff Knowledge Acquisition for Knowledge-based Systems Workshop. Banff, Alberta, Canada, 1999.

55. Simmons R.F. Semantic Networks: Their Computation and; Use for Understanding English; Sentences. // Computer Models; of Thought and Language, R.C. Schank, K.M. Colby (eds.), San Franscisco: Freeman, 1973i pp. 63-113.

56. Simple HTML ontology extensions. http://www.cs.umd.edU/projects/plus/SHOE/#overview

57. SowaJ. Conceptual: Graphs as a universal knowledge representation. // Computers and Mathematics with Applications, Vol. 23, No 2-5, 1992. pp. 7593.

58. Sowa J. Conceptual Structures: information processing in mind and machine. Cambridge, MA: Addison Wesley, 1984.

59. Standard of XML, http://www.w3 lorg/XML/

60. Tesniere L. Elements de syntaxe structurale. Paris: Klincksieck, 1949, 670p.

61. The DAPRA Agent Markup Language homepage, http://www.daml.org/

62. The PICSEL Project. Laboratoire de Recherche en Informatique of the Paris University, 2000. http://www.lri.fr/LRI/iasi/theme.en.html.

63. Wang Y.-Y., Mahajan M., Huang X. A unified context-free grammar and N-gram model for spoken language processing Proceedings of ICASSP'2000, V.III,pp; 1639-1643.

64. Wang Ye-Yi. A Robust Parser for Spoken Language Understanding. Eurospeech'99, Volume 5, pp.2055-2058;

65. Web-Ontology, http://www.w3:org/2001 /sw/WebOnt/

66. Winograd T. Language as Cognitive Process. Nol. 1, Syntax. Addison-Wesley, 1983.

67. Woods W.A., Kaplan« R.M., Webber B.N. The Lunar Sciences* Natural Language Information System: Final Report. // BBN Report 2378, Bolt Beranek and Newman Inc;, Cambridge, Massachusetts, 1972.

68. Wu J., Khudanpur S. Syntactic heads in statistical language modeling. Proceedings of ICASSP'2000, V.III, pp.1699- 1703 .

69. XML Schema. http://www.w3.org/XML/Schema

70. Комиссия в составе: председателя д.фил.н., проф. Л.В.Бондарко, членовкомиссии: П.А.Скрелина; Е.И.Ошуйко, рассмотрев диссертационную работу Ли1. И.В., установила, что:

71. Зав. кафедрой фонетики, д.фил.н. проф.1. Л.В.Бондарко1. Члены комиссии^

72. Зав. лабораторией экспериментальной фонетики, д.фил.н.

73. Нач. отдела научных исследований1. Е.И.Ошуйко1. Российская Академия Наук

74. Санкт-Петербургский институт информатики и автоматизации199178, Санкт-Петербург, 14 линия. 39/ УТВЕРЖДАЮ аместительдиректора по научной работе д.т.н. В.Е. Марлей21 » мая 2004г.1. Телефон: (812)328-33-1 1

75. Комиссия в составе: председателя A.B. Смирнова, членов комиссии: И.П.

76. Поднозовой, Д.В. Бакурадзе, рассмотрев представленные материалы:

77. Диссертационную работу Ли И.В.;

78. Отчеты по международному проекту МНТЦ 1993Р,установила, что:

79. Основные положения диссертационной работы Ли И.В. были использованы при проведении плановых научно-исследовательских работ в ходе международного проекта МНТЦ 1993Р часть 4 по теме «Voice operated Aying object».

80. Использование разработанных алгоритмов позволило повысить эффективность обработки естественно-языкового высказывания более, чем в 2 раза.

81. Созданный комплекс программ используется при проведении экспериментальных исследований по пониманию речи в группе речевой информатики.1. А К Т

82. Председатель комиссии, д.т.н. проф. Члены комиссии1. A.B. Смирнов

83. Помощник по международным св

84. Ученый секретарь к.т.н. слхх1. Д.В. Бакурадзе1. И.П. Поднозова1. BRIDGEQDEsf

85. ST. PETERSBURG Dostoevskogo street, 36, Office 1 St. Petersburg, 191126, RUSSIA

86. Комиссия в составе: председателя Светлова К.Д., члены комиссии: Казарин А.Е., Аверин А. В., рассмотрев представленные материалы по теме диссертационной работы Ли И.В., установила, что:

87. Предложенные в работе алгоритмы обработки речи были использованы при разработке средств голосового доступа к информационной системы «Автомаркет».

88. Предложенная модель представления и обработки естественного языка позволяет достаточно свободно использовать термины определенной проблемной области, что обеспечивает естественность человеко-машинного взаимодействия.

89. Использование разработанного метода верификации онтологического подмножества позволило на 40% сократить число гипотез входного высказывания, что ускорило процесс обработки речи почти в 2. раза.

90. Руководитель отдела программных разработок Светлов К.Д.1. Члены комиссии

91. Руководитель отдела научных раз ар аботок Заместитель руководителя отдела ПР

92. Аверин А.В; 'MdU.- Казарин А.Е.1. С <1