автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Математическое и программное обеспечение систем общения на упрощенном естественном языке

кандидата технических наук
Яснев, Михаил Игоревич
город
Москва
год
2010
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Математическое и программное обеспечение систем общения на упрощенном естественном языке»

Автореферат диссертации по теме "Математическое и программное обеспечение систем общения на упрощенном естественном языке"

На правах рукописи

Яснев Михаил Игоревич

МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СИСТЕМ ОБЩЕНИЯ НА УПРОЩЕННОМ ЕСТЕСТВЕННОМ ЯЗЫКЕ

05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

- 7 2010

Москва-2010

004610074

Работа выполнена на кафедре «Персональные компьютеры и сети» Московского государственного университета приборостроения и информатики

Научный руководитель: кандидат технических наук,

Брейман Александр Давидович

Официальные оппоненты:

доктор технических наук, Жуков Дмитрий Олегович

кандидат технических наук, Королев Денис Александрович

Ведущая организация: ФГУ ГНИИ ИТТ «Информика»

Защита состоится «20» октября 2010 г. в 12:00 на заседании диссертационного совета Д 212.119.02 при Московском государственном университете приборостроения и информатики по адресу: 107996, г. Москва, ул. Стромынка, д.20 (тел. 268-01-01).

С диссертацией можно ознакомиться в библиотеке МГУПИ

Автореферат разослан « 20 » сентября 2010 г.

Ученый секретарь

диссертационного совета Д 212.119.02 —

к.т.н. профессор Зеленко Г.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследований. В связи с широким распространием персональных компьютеров и мобильных устройств сильно возросла роль приложений с поддержкой голосового интерфейса. Голосовой интерфейс на упрощенном естественном языке делает приложения доступнее для неподготовленных пользователей. В случае мобильных устройств, таких как смартфон и Pocket PC, голосовой интерфейс является наиболее удобным и эффективным, т.к. использование клавиатуры и сенсорного экрана затруднительно из-за их малых размеров.

Также существует ряд приложений, в которых голосовой интерфейс является единственной альтернативой ввода данных (центры обработки вызовов, IP-телефония) или наиболее предпочтителен (например, информационная система бортовой компьютер автомобиля для управления дополнительными функциями).

Точность распознавания слитной дикторозависимой речи, которая обеспечивается современными промышленными системами, достигает 99% (система Dragon Naturally Speaking 10.0). Но существующие промышленные стандарты, такие как Voice XML и SAPI не допускают прямого использования большинства возможностей естественного языка для управления приложениями. Нет возможности организации естественных диалогов приложений с пользователем.

Поэтому в последнее время одной из наиболее актуальных является проблема связи компонентов бизнес-логики приложений с компонентами распознавания речи, упрощение и повышение эффективности разработки приложений с голосовым интерфейсом. При реализации новых подходов к созданию систем общения необходимо учитывать наличие множества функционирующих в настоящее время приложений на основе стандарта Voice XML и обеспечить совместимость с ними.

Расширение множества поддерживаемых команд разработчиком вручную с целью учета синонимии естественного языка является очень трудоемкой задачей. Поэтому необходимо создание математического и программного обеспечения для автоматизации данного процесса, которое позволит ускорить разработку систем общения.

Проведенные исследования основаны на теории построения систем общения на естественном языке Э.В. Попова, обобщенной теории неопределенности Лотфи Задэ и результатов исследований в области создания крупномасштабных баз знаний Генри Либермана.

Цель работы и задачи исследования

Целью работы является разработка математического и программного обеспечения для ускорения процесса разработки систем общения на

упрощенном естественном языке. Для достижения поставленной цели в диссертационной работе определены и решены следующие задачи:

1. Проведен анализ современных подходов к созданию систем общения на упрощенном естественном языке.

2. Разработана математическая модель расширенных приложений с голосовым интерфейсом на основе стандарта Voice XML, поддерживающих работу в условиях реального времени и учитывающих синонимию естественного языка.

3. Разработана математическая модель крупномасштабной базы знаний Open Mind Common Sense (OMCS), которая обеспечивает совместимость представления знаний в OMCS со стандартом Voice XML.

4. Разработан метод автоматического преобразования систем общения для расширения множества обрабатываемых команд с использованием OMCS.

5. Разработан программный комплекс для создания систем общения на упрощенном естественном языке.

Методы исследований

Для решения поставленных задач используются обобщенная теория неопределенности. Реализация разработанных методов проводилась с использованием методов объекто-ориентированного и компонентно-ориентированного программирования.

Научная новизна работы состоит в следующем:

1. Разработана математическая модель крупномасштабной базы знаний Open Mind Common Sense (OMCS), которая обеспечивает совместимость представления знаний в OMCS со стандартом Voice XML.

2. Разработан метод автоматического преобразования систем общения для расширения множества обрабатываемых команд пользователя с использованием крупномасштабной базы знаний OMCS.

3. Предложен метод поиска объекта в системах общения с голосовым интерфейсом с использованием набора связанных критериев и персонализации. Данный метод позволяет преодолеть существующее в настоящее время ограничение средств распознавания речи при вводе значений атрибутов и приблизить диалог пользователя с системой в процессе поиска к естественному общению. В основе разработанного метода лежит использование обобщенной теории неопределенности.

Обоснованность и достоверность научных положений и основных результатов диссертации достигается путем тестирования эффективности предложенных методов в составе разработанного программного продукта на

основе общепринятой методики и представлением основных теоретических результатов на научных конференциях и в печатных трудах.

Практическая ценность работы

Разработанный метод расширения систем общения с использованием знаний из базы OMCS применим к большому числу систем за исключением узкоспециализированных, т.к. база содержит общие знания, используемые в диалогах в большинстве предметных областей. Метод был реализован в виде компонента и может быть использован в качестве специализированного интерфейса к OMCS для разработчика системы общения.

Предложенный в работе метод поиска объекта с использованием ряда критериев и лерсонализации полезен для систем, которые включают задачи многокритериального поиска объекта на достаточно крупном базовом множестве (более 1000 элементов). Задача поиска объектов возникает при разработке любой системы общения, т.к. для интерфейса на упрощенном естественном языке поиск является основной операцией, предшествующей их дальнейшей обработке.

Реализация результатов работы

Полученные теоретические результаты были использованы для разработки программного продукта «Talk and Drive» компании Ambient Voice Technologies, представляющего собой голосовой интерфейс системы общения на упрощенном естественном языке для бортового компьютера автомобиля.

Разработанные методы были использованы для экспериментальной разработки редактора бизнес-процессов в корпоративной информационной системе компании ЗАО «Таркетт Рус». Использование конструкций упрощенного естественного языка позволило реализовать гибкую систему управления бизнес-процессами с настройками конечными пользователями без участия разработчика.

Апробация результатов работы

Основные положения были представлены на Первой Международной конференции "Системный анализ и информационные технологии" САИТ-2005 (ИСА РАН, 2005), Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования 2006», конференции «Научная сессия МИФИ 2005».

Работа обсуждалась на научных семинарах кафедр «Персональные компьютеры и сети» и «Автоматизированные системы управления и информационные технологии» в Московском государственном университете приборостроения и информатики.

Программный продукт «Talk and Drive» был представлен на Первом молодежном инновационном конвенте 2008, проведенном Администрацией

Президента в декабре 2008 года, и на форуме «Интеллектуальная собственность BAO г. Москвы» в ноябре 2008 г.

Публикации

Основные результаты по материалам диссертационной работы опубликованы в 9 печатных работах, в т.ч. 1 статья в журнале, входящем в перечень российских рецензируемых научных журналов ВАК.

Структура и объем работы

Диссертация объемом 130 машинописных страниц содержит введение, 4 главы и заключение, список литературы (103 наименования).

Содержание работы

Во введении обоснована актуальность проблемы, сформулирована цель работы, представлена структура и краткое содержание диссертационной работы по главам.

В первой главе диссертации рассмотрены основные проблемы создания современных систем общения на упрощенном естественном языке. Приведен краткий обзор основных достижений в области разработки алгоритмов распознавания речи и их ограничения. Описаны актуальные проблемы единственного промышленного стандарта в области разработки приложений с голосовым интерфейсом - Voice XML. Представлены основные подходы к созданию систем общения и обзор используемых сторонних компонентов.

На уровне семантической интерпретации в настоящее время нет хорошо проработанных методов и их реализаций, а лишь существует ряд достаточно простых продуктов, реализующих решение частных проблем.

Язык Dialog XML позволяет использовать сокращенную нотацию при описании приложений, упростить доступ к базам данных. Расширение Scenario XML ориентировано на учет в приложениях событий реального времени, оперативное обновление переменных системы общения. Ряд разработок ориентирован на упрощение создания распределенных систем общения.

В работе Ли И.В. «Разработка методов представления и обработки естественного языка для представления проблемно-ориентированных систем автоматического понимания речи» предложен метод оптимизации работы обработки семантики на основе онтологий, позволяющий повысить быстродействие и точность распознавания фраз.

Отличительной особенностью данной работы является изучение проблемы ускорения создания систем общения с голосовым интерфейсом на основе крупномасштабной базы знаний. Предложенный метод позволяет расширять как новые, так и уже существующие системы на основе промышленных стандартов.

В работе также рассмотрены особенности реализации системы общения для бортового компьютера автомобиля, как одной из наиболее перспективных областей применения подобных систем.

Во второй главе диссертационной работы представлено формальное описание расширенных приложений с голосовым интерфейсом на базе стандарта Voice XML. Рассмотрены основные составляющие процесса ведения диалога с пользователем.

Для формализации приложений на основе стандарта Voice XML в работе предложена структура вида: VXA = {< VXS„VXP, ДкСЫсе;}>},

где VXA - множество состояний, составляющих приложение с голосовым интерфейсом,

VXS, - идентификатор состояния,

VXPt - подсказка пользователю, произносимая при переходе в состояние

VXS,

У Choice^ - множество переходов в другие состояния на основе ввода пользователя

В представленной работе показан механизм возможного расширения множества состояний приложения и переходов между ними с целью приближения общения к естественному. Для этого добавляются состояния, которые учитывают синонимию, а также состояния для под держки диалогов уточнения принимаемой информации. WXA = {< IVXS,, WXPt, {WChoice к}, WJnf, >}, где WXA - модифицированное голосовое приложение, Wlnf,- дополнительная информация о контексте выполнения приложения, связанная с состоянием WXS,.

Выделены два класса совместимости со стандартом Voice XML. Совместимость первого класса означает, что расширенное приложение сохраняет возможность работы на произвольном Voice XML сервере: WSrVj-.WXA.eAiySrVj),

где VSrvj- произвольный Voice XML сервер A(VSrvj) - множество всех приложений, поддерживаемых VSrv; Совместимость второго класса подразумевает обеспечение работы расширений всех Voice XML приложений в специализированной среде исполнения:

WXA,: WXA, = P{VXAt) е A(VSrvC),

где VSrvC- специализированный Voice XML сервер для расширенной обработки ситуаций.

Введение подобной специализированной системы исполнения приложений VSrvC дает возможность реализации новых функций, недоступных из-за ограничений стандарта, сохраняя при этом совместимость с существующими системами.

Разработана схема описания всех основных этапов процесса общения с уделением значительного внимания процессу обработки знаний в системе. На основе данного описания процесса общения строятся все разработанные в диссертационной работе методы.

Предложена функция расширения стандартных результатов работы системы распознавания речи с целью учета и исправления ошибок, возникающих из-за схожести звучания различных фраз.

SoundExt(ASR(MVS)) =< C,pc,{< Calt^p, >,№,},{< Daltk,WXAj >} >,

где С - команда, выбранная в качестве результата распознавания, рс- вероятность произнесения пользователем команды С Calt, - альтернативная команда, которая могла быть произнесена пользователем, но была отброшена из-за меньшей вероятности по мнению ASR

Pi - вероятность произнесения пользователем команды Calt, Daltk - альтернативы, добавляемые в множество рассматриваемых на этапе семантического анализа,

WXAj - приложение, к которому относится альтернатива Daltt Предложен подход для обеспечения работы системы в реальном времени. Временные задержки получены в результате экспериментов при работе типовых задач систем общения, ориентированных на быстрый диалог с пользователем (например, общение с бортовым компьютером автомобиля). Задержки на каждом шаге процесса общения системы с пользователем представлены в виде:

tcycle " tasr 'soundext ^synt ^sem ^ans his

где t^i, - время цикла обмена фразами,

*«•' - время на распознавание речи (0,2 ... 3 с),

tscundexi _ время на проведение дополнительного анализа на схожесть звучания (0,2 ... 1 с),

''"'-время на морфологический и синтаксический анализ («0,1 с),

- время на семантический анализ (0,1... 10 с);

- время на генерацию фразы-ответа («0,1 с);

время на генерацию звукового сигнала ответа (1... 10 с); Иногда требования реального времени приводят к необходимости прерывать текущий диалог и переходить к информированию пользователя о более критичных задачах. В стандартной модели приложения Voice XML такие возможности отсутствуют, поэтому в работе предложено расширение исполняющей платформы, которое обеспечивает возможность учета реального времени и механизм переключения тем диалога между приложениями.

Основой для оценки предложенных в работе методов является комбинация из 6 критериев оценки по методике PARADISE:

P({WX4,}) =< mWXA,)),...^({WX4,}) >

В процессе тестирования использовались эталонные задачи {7]} и сопоставленные с ними эталонные объекты {<Г,,{Ой/,7}>}, которые определялись в процессе общения.

В качестве первого критерия оценки использовалась средняя точность определения объектов на всем множестве тестовых задач (% угадывания объектов). В рамках одной задачи точность вычисляется через число объектов, совпавших с объектами из указанного эталонного множества:

рт \{RObju)n{ObjIJ)\ \{Obju}\

где RObj\j(T,,Userm) - набор объектов, полученный пользователем Userm при решении задачи {Т¡}

Отсюда следует:

р =_ü_

' |{Г(>|

В качестве второго критерия оценки системы общения используется процент некорректных ответов системы в процессе диалога. В случае Voice XML некорректным ответом является переход в состояние, искажающего ход диалога, заложенный в систему разработчиком.

Представим упорядоченную последовательность состояний приложения

WYA

< во времени:

TWXA, =< WXStutx >,...< WXS,„,г„ >

Тогда по результатам проведенных тестов при решении тестовых задач можно вычислить значение критерия: ЕлГмЛЛШ,)

где ^2Е/Г количество ошибочных переходов между состояниями приложения в рамках решения задачи 7) в соответствующей последовательности Т\¥ХА,.

Третьим критерием оценки является способность системы общения восстанавливаться после сбоев. При переходе в ошибочное состояние ¡УХЯ^ вместо система имеет контекст предыдущего состояния \VXSj и

распознанную команду ШCommandJ с альтернативами.

В методике принято, что система смогла успешно восстановить диалог, если в результате перехода между последовательностью специальных состояний } система перешла в требуемое ранее состояние или

состояние ¡УХР^, и при этом набор необходимых объектов КОЬ]и{Т,,и^егт) эквивалентен образцу. Данная формулировка допускает, что восстановление диалога может быть более сложной процедурой, чем простой возврат в

состояние и переход из него в Ю317+1 по иной альтернативе команды ЦгХСоттапс1].

В итоге имеем для вычисления Ръ:

Р = _

I

где Л^ - число восстановлений после сбоев, определенное по описанным выше принципам, а №(ШХА,)- общее число отклонений от шаблонного диалога.

Следующие три критерия оценки тесно связаны с ведением диалога в реальном времени, о чем показано ниже.

Четвертый критерий оценивает среднее время ответа системы пользователю. Для вычисления времени ответа системы пользователю на каждом шаге используется формула:

В данной формуле не используется компонент г,м, представляющий время произнесения фразы. В момент начала произнесения фразы-ответа пользователь слышит ее начало. Для приближения общения к естественному необходимо добиться условия <2—3 с. Время определяется алгоритмом, реализующим распознавание речи. Поэтому данный критерий оценивает в первую очередь качество реализации функции БоигиИЫ, скорость работы семантического анализатора и компонента генерации ответов системы. Кроме того, время работы семантического анализатора включает время на вызовы внешних компонентов. Для достижения условия <„,р<2-3 с работа всех функций внешних компонентов, которая занимает относительно большой период времени должна быть реализована в асинхронном режиме, который в свою очередь требует отражения в структуре поддерживаемого диалога.

р _ ' "(')

I

где л(/) - число переходов в последовательности ШХА,.

Пятым критерием оценки системы общения является число шагов в диалоге.

1«(<\Я)

А -

3 1ГСЛ

Шестой критерий оценивает сокращение числа переходов между итерациями разработки системы общения для фиксированного тестового множества задач Т,.

2Х, -'u i p =_i_

iw i

где rij(i) - число переходов в последовательности TWXA, на итерации j создания системы.

В третьей главе представлены разработанная математическая модель базы знаний OMCS и разработанные методы.

Одним из основных методов является использование крупномасштабной базы знаний Open Mind Common Sense в процессе разработки и адаптации системы общения под конкретную предметную область. В работе детально рассмотрены все составляющие этой базы знаний и указаны варианты использования различных типов ее фрагментов для автоматического и полуавтоматического преобразования системы общения с целью повышения ее эффективности.

Элементы базы знаний OMCS представляются как: OMCS = {omcs,} = {< otypel,objil,obj2¡ >}, где otypei - тип связи между объектами для объекта omcs,, ob]\¡ и objl, - связанные объекты

Доступ к базе знаний обеспечивают функции поиска элементов вида: FOOmcs( {otype,}, obj,) = [objt \ omcs, e OMCS a otypdpmcs\) s {otype,} л (obj~l(omcs,) = obj, v obj~2(amcs¡) = obj,)}

Для совместимости с OMCS в работе предложено использовать для команд приложения схему VSOO в виде формальной конструкции. Это позволяет связать базу знаний с приложением Voice XML.

MWXCommandj = MR(WXCommand¡) =< Verbj,Subjectj,{< ObjectJJt,OName]k >} >,

где MWXCommandj - модифицированная размеченная команда, Verbj - действие, определенное командой WXCommand, Subject! - объект, над которым выполняется действие Verbj Object¡jc - объект-параметр для уточнения образа действия над объектом Subject j

ONamejj, - внешнее название параметра Object¡Jt для соблюдения порядка параметров при вызове внешней функции.

Выделены три класса использования знаний из OMCS:

1. Прямое изменение набора состояний приложения на основе использования семантически близких по смыслу конструкций.

2. Расширение базы знаний о предметной области KW фактами из OMCS

3. Расширение словарей функции SoundExt для выявления слабо охваченных областей KW.

Предложен метод для эффективного управления множеством значений профиля пользователя Pfl(User) = {<Pm,,Value ¡>) с использованием преимуществ голосового интерфейса:

1. указание значение отдельного параметра < Рт,, Value, >.

2. указание единого значения для группы параметров < Ли,, Value >,...< Рт„, Value >

3. указание последовательно различных значений для группы параметров путем сокращенной идентификации их по ряду признаков, однозначно выделяющих объект из класса

Search,< A1,Pm1,Valuel >,...< А„,Рт„,Value„ >

где Search - общий критерий выборки группы параметров,

А, - атрибуты для явного выделения параметра.

4. присвоение имен группе параметров для ускорения последующего обращения к ним

LP =< Label J,{PmJ}>.

5. создание на основе именованных групп параметров структуры профиля, которая может группировать значения параметров по функциональным блокам

PJl(User) = {< Labelj,{Рт„Value,}j >}.

6. осуществление редактирования именованных групп LP =< Labelj,{Pntj} > путем выполнения операций удаления, замещения и добавления множества элементов.

Предложен математический метод поиска объекта р в крупном множестве Р,|Р|>1000 при помощи набора связанных критериев и механизмов персонализации. Отличительной особенностью предложенного метода является возможность его использования в системах поиска с голосовым интерфейсом и небольшое количество итераций (максимум 5-6 шагов).

Идея разработанного метода заключается в максимальном приближении процесса поиска к общению на естественном языке в рамках жестко ограниченной предметной области. Процесс поиска можно представить последовательностью двух видов этапов: ввод параметров через диалог с пользователем и собственно происк поиска объекта, анализ указанных значений параметров поиска.

Метод ориентирован на использование связанных критериев, поэтому выстраивается иерархия параметров поиска, которая выражается последовательностю нечетких переменных <Хх,..,Х„ >.

Для иллюстрации концепций метода будем использовать пример поиска географического объекта по адресу. В качестве параметров выступают «Страна», «Регион», «Город», «Улица», «Дом».

На первом этапе поиска выполняется начальная проверка наличия значений параметров в первой команде пользователя. Для обеспечения

необходимой гибкости используется набор шаблонов. Каждый шаблон определяет вариант следования значений параметров и возможность пропуска значения в данной последовательности.

ObjSearchTeml =<xind¡,Y {xind),xkeyword¡,{SelectionTemplate^,optional^ >,..., <xind„,Y(xind„) ,xkeywordn,{SelectionTemplatem},optional„ >

где xind-индекс параметра в структуре < X¡,..,X„ >, Y {xind)- множество значений параметра с индексом xind, xkeyword,- множество ключевых слов, которые входят в шаблоны выборки значений SelectionTemplate и позволяют выбирать необходимые для фразы шаблоны поиска путем ассоциативного поиска по ключевым словам,

SelectionTemplate- структура или компонент для извлечения значений параметров Xt из фразы.

optional - флаг, указывающий на обязательное присутствие данного параметра в разбираемой фразе

Шаблоны позволяют определять возможные положения значений атрибутов в поисковом запросе пользователя и формировать гипотезы о возможных значения переменных < Л", ,..,Х„ >.

В силу того, что на выходе модуля распознавания речи информация представлена с долей вероятности правильности распознавания, получаем комбинирование нечетких отношений в рамках теории обобщенной неопределенности:

=ras, * Г1алц >

где - вероятностная характеристика значения, наследуемая из процесса распознавания речи

rhnS ' нечеткое отношение, которое возникает из-за особенностей естественного языка (неоднозначность описания параметров, средства языка для выражения неуверенности пользователя)

Y¡ - базовое множество значений, на котором определяется нечеткая переменная

Комбинирование нечетких отношений позволяет единообразно оценивать нечеткость на всех уровнях обработки фраз в процессе поиска.

В процессе выделения значений параметров из фразы пользователя помимо расширения вариантов за счет анализа схожести звучания распознанных слов со словами в словаре добавляется нечеткость по границам описаний значений объектов. Если два критерия поиска находятся рядом в шаблоне, а их SelectionTemplate «претендуют» на одно и то же слово. То необходимо рассмотреть все альтернативы по установлению границ между словами фразы и их отношению к параметрам < Хи..,Хй >.

В итоге после проведения предварительного анализа имеем множество гипотез о значениях параметров поиска: ValueHp =< Rlvl,R1v1,...,Rnvn >

Отношение Я, представляет структурно обобщенную нечеткую оценку значения параметра. Далее для проверки гипотез необходимо построить дерево решений (см. рис. 1).

Рис. 1. Дерево решений в задаче поиска объекта

Построение дерева осуществляется в порядке следования параметров в структуре описания объектов <Х],..,Х„ >, от параметров, представляющих категории (область, город), до простых атрибутов (номер дома).

Листьями дерева могут выступать как элементы базового множества объектов Р, так и его подмножества, заключающие вариации искомого объекта по набору неопределенных в настоящий момент значений параметров.

Выделение наиболее приоритетных ветвей и узлов дерева осуществляется по составной оценке, где нечеткие отношения Я, играют важную, но не ключевую роль, уступая приоритет персонализации и значению параметров, которым соответствует большее число объектов.

Структура оценки листа в дереве имеет вид:

г^=П<{и5егУ),УМЛС>),

где - множество часто используемых пользователем значений.

Ш - наиболее важные элементы базовых множеств. Определяется структурой задачи. В примере поиска адресов, множество Ш составляют крупные города и области.

ЯС -комбинированная оценка на основе всех Я1 для данной гипотезы на основе классификации уверенности в значении:

1. Класс А. Значения с высокой долей уверенности.

2. Класс В. Значения с низкой долей уверенности.

3. Класс С. Нет информации о значении.

Ошибочные гипотезы отсекаются на основе анализа базового множества Р и допустимых значений комбинаций параметров для объектов в нем. На практике количество объектов в Р намного меньше числа всех возможных комбинаций значений <Х1г..,Х„ >.

Для продолжения поиска система формирует уточняющий вопрос. Построение данного вопроса и план последующего подциалога определяются конфигурацией дерева в области выбранных ветвей и классификации имеющихся средств.

1. Менее 4 альтернатив. В качестве уточнения используется альтернативный вопрос с указанием всех вариантов.

2. От 4 до 20-30 альтернатив. Целесообразно использование специального вопроса по данному критерию.

3. Более 30 альтернатив по одному из критериев, близких к корню дерева. Используется побуквенный ввод для исключения генерации значительного числа гипотез на втором шаге диалога.

Помимо данных типов вопросов существует возможность фонового подтверждения последовательности узлов в ветви от корня, если ихдостоверность принадлежит множеству допустимых значений rWt е R0.

В этом случае сообщение системы начинается с фразы подтверждения и завершается вопросом по проблемному критерию Х„. Построение дальнейшего диалога в режиме с подтверждением первых параметров зависит от реакции пользователя.

Ответ на вопрос о параметре ^„автоматически фиксирует согласие пользователя на значения Хи..,Хяд.

Опровержение одного из параметров в Х!г..,ХтН переводит поиск в иную ветвь или в худшем случае приводит к разрастанию числа гипотез. И в дальнейшем на практике это разрастание гипотез зачастую приводит к тому, что требование обеспечить не более 4-6 шагов в диалоге нарушается.

Нормальным завершением процесса поиска является достижение уровня Д0для всех R,в текущей гипотезе< Rlv1>R1vJ,...,R„v„ >.

Научная новизна предложенного метода заключается в использовании персонализации на этапе выбора ветвей дерева и тесной связи обработки дерева решений со средствами языка общения. Связь обеспечивают шаблоны распознавания значений параметров с окрестностями и разрешением конфликтов через генерацию гипотез и классификация вопросов и поддиалогов для уточнения параметров объекта.

Тестирование эффективности разработанных методов проводилось на основе программного продукта «Talk and Drive». Результата тестирования представлены в табл. 1.

На каждой итерации производилось преобразование программного продукта на основе разработанных методов (добавление учета синонимии с использованием OMCS, модификация диалогов поиска).

Табл. 1. Результаты тестирования программного продукта «Talk and Drive по методике Paradise

Критерий оценки Итерация 1 Итерация 2 Итерация 3 Итерация 4

Р1, % 82 93 95 97

Р2, % 5 3 2 2

РЗ, % 25 42 44 50

Р4, сек 2,5 3 3,2 2,4

Р5, шагов 14 11 7 6

Р6, сек 87 75 49 28

После 4 итераций процесса разработки точности идентификации необходимых объектов возросла с 82% до 97% (рис. 2). Р1,%

100 90 80 70 60 50 40 ВО 20 10 О

ктеракия

Рис. 2. Точность определения необходимых объектов Р1, %

В четвертой главе представлены описания архитектур и основных принципов функционирования двух систем, использующих разработанные методы.

Система обработки фраз в составе редактора бизнес-процессов в корпоративной информационной системы ЗАО «Таркетт Рус», позволяет пользователям использовать конструкции на упрощенном естественном языке для удобства настройки параметров процессов.

Система «Talk and Drive» представляет голосовой интерфейс для бортового компьютера автомобиля. Архитектура системы «Talk and Drive» представлена на рис. 3.

Для разработки «Talk and Drive» применялись все основные методы, предложенные в работе. Результаты тестирования подтвердили их эффективность и позволили не только добиться высокой точности распознавания в автомобиле, но и предоставить водителю удобный интерфейс пользователя, для работы с которым не требуется предварительное изучение инструкции.

Всю систему можно условно разбить на следующие подсистемы:

1. Обеспечение взаимодействия со средствами распознавания и генерации речи.

2. Обеспечение контроля голосового канала.

3. Единая среда исполнения приложений.

4. Обеспечение доступа к внешним датчикам.

5. Предоставление интерфейса к формам для отображения информации, которая плохо передается через голосовой интерфейс.

Для распознавания речи используется стандартное средство Dragon NS 10.0. Доступ к нему осуществляется опосредовано через компонент, обеспечивающий работу функции проверки на схожесть звучания. Фактически в данной схеме компонент «словарь замен» играет роль, обратную фильтрации. Он расширяет полученное множество альтернатив для обеспечения как минимум теоретической возможности повышения точности распознавания речи компоненту семантического анализа.

В качестве средства генерации речи используется стандартный компонент Microsoft Speech SDK ITS 5.1. Взаимодействие с этим компонентом и с распознаванием речи осуществляется через компонент «Координатор голосового канала».

Применение разработанного метода переключения контекста между приложениями позволили организовать согласованную работу голосовых приложений «Управление магнитолой», «Управление кондиционером» и «Система навигации» в процессе вождения. Метод поиска объекта с учетом набора связанных критериев и использованием персонализации позволил обеспечить высокую эффективность при вводе адреса назначения в компоненте «Система навигации».

Компоненты «Сервисы диалога» представляют реализацию методов, разработанных в диссертационной работе. Все пользовательские приложения исполняются в рамках единой исполняющей среды, обеспечивающей унифицированный доступ к голосовому каналу и соблюдение требований работы в реальном времени.

При помощи единого интерфейса приложения могут осуществлять вывод информации не только через голосовой канал, но и при необходимости на экран.

Приложение «Навигационная система» имеет возможность обращаться к внешним устройствам. Она использует подключение к GPS приемнику для

получения текущих координат. А также веб-сервис навигации для получения дополнительной информации о ситуации на дороге (пробки, изменение маршрутов движения и т.п.). Через компонент доступа к формам приложение работает со сторонним компонентом «Geobase», предоставляющим доступ к базе данных маршрутов.

Функциональность, реализованная в рамках системы «Talk and Drive», превосходит все коммерческие аналоги, имеющиеся в настоящее время на рынке автомобильных информационных систем.

В заключении приведены основные результаты, полученные в диссертационной работе.

Основные результаты работы

1. Проведен анализ современных подходов к созданию систем общения на упрощенном естественном языке.

2. Разработана математическая модель расширенных приложений с голосовым интерфейсом на основе стандарта Voice XML, поддерживающих работу в условиях реального времени и учитывающих синонимию естественного языка.

3. Разработана математическая модель крупномасштабной базы знаний Open Mind Common Sense (OMCS), которая обеспечивает совместимость представления знаний в OMCS со стандартом Voice XML.

4. Разработан метод автоматического преобразования систем общения для расширения множества обрабатываемых команд с использованием крупномасштабной базы знаний OMCS.

5. Предложен метод поиска объекта в системах общения с голосовым интерфейсом с использованием набора связанных критериев. Данный метод основан на обобщенной теории нечеткости и использует персонализацию. Он позволяет преодолеть существующее в настоящее время ограничение средств распознавания речи при вводе значений атрибутов и приблизить диалог пользователя с системой в процессе поиска к естественному общению.

6. Разработан программный комплекс для создания систем общения на упрощенном естественном языке. Данный комплекс был использован в процессе создания программного продукта «Talk and Drive», обеспечивающего голосовой интерфейс к информационной системе бортового компьютера автомобиля. Также результаты работы были использованы в рамках экспериментальной разработки редактора бизнес-процессов для корпоративной информационной системы ЗАО «Таркетт Рус».

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Яснев М.И. Особенности речевого управления бортовым компьютером автомобиля на базе интерфейса, реализованного в системе «Talk and Drive» // Мехатроника, автоматизация, управление №7, М: «Новые технологии», 2007, с. 44-45.

2. Яснев М.И. Разработка системы общения в реальном времени на основе стандарта Voice XML // Межвузовский сборник научных трудов «Программное и информационное обеспечение систем различного назначеня на базе персональных ЭВМ» вып. 10 - М.: МГУПИ, 2007, с.137-138.

3. Яснев М.И. Регрессионное тестирование системы общения на упрощенном естественном языке // Межвузовский сборник научных трудов «Программное и информационное обеспечение систем различного назначеня на базе персональных ЭВМ» вып. 10 - М.: МГУПИ, 2007, с.139-140.

4. Максимчук Т.И., Яснев М.И. Коррекция распознавания речи для приложений MS Speech SDK 6.1 с использованием семантики //Труды Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования 2006», М: МГТУ им. Н.Э.Баумана, 2006, с. 75.

5. Костылев Н.С., Корниенко В.В., Максимчук Т.И., Оленев А.А., Яснев М.И.. Проект Speech Driven Motion // Международный технологический конкурс Microsoft Imagine Сир 2006. Объединенная команда МГУПИ и МГТУ им. Баумана. 2-е место в России. http://www.microsoft.com/rus/news/issues/2006/04/imaginecup.mspx

6. Костылев Н. С., Корниенко В.В., Максимчук П.И., Оленев А.А., Яснев М.И. Формирование единого контекста приложений // Первая Международная конференция "Системный анализ и информационные технологии" САИТ-2005, ИСА РАН, 2005, с.274-276.

7. Костылев Н. С., Корниенко В.В., Максимчук П.И., Оленев А.А., Яснев М.И., Проект «Вавилон» // Международный конкурс программных проектов Microsoft Imagine Сир 2005, 3-е место в региональном финале (Россия и СНГ).

8. Яснев М.И. Методы создания систем поиска информационных ресурсов // Научная сессия МИФИ 2005. Сборник научных трудов -МИФИ, 2005, с. 171-172.

9. Яснев М.И. Использование естественного языка для создания сценариев //Труды Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования 2005», М: МГТУ им. Н.Э.Баумана, 2005, с. 61.

Отпечатано в ООО «Компания Спутник^» ПД № 1-00007 от 25.09.2000 г. Подписано в печать 17.09.2010 Тираж 100 экз. Усл. п.л. 1,5 Печать авторефератов (495)730-47-74,778-45-60

Оглавление автор диссертации — кандидата технических наук Яснев, Михаил Игоревич

Введение.

Глава 1. Анализ подходов к созданию систем общения на естественном языке.

1.1 Основные проблемы.

1.2. Обзор подходов к созданию систем общения.

1.3. Обзор систем распознавания речи.

1.4. Обзор систем генерации речи.

1.5. Современные системы общения на упрощенном естественном языке.

1.6. Обзор современных систем общения в коммерческих продуктах.

1.7. Особенности создания систем общения для автомобильных бортовых компьютера с учетом шумов.

1.8. Экспериментальная проверка влияния шумов на распознавание речи в автомобиле.

Выводы по главе 1.

Глава 2. Формальное представление системы общения.

2.1. Формальное представление приложения Voice XML.

2.2. Расширение приложений Voice XML.

2.3. Обеспечение совместимости со стандартом Voice XML.

2.4. Пр оцесс общения.

2.5. Функция определения схожести звучания.

2.6. Обеспечение работы системы в реальном времени.

2.7. Тестирование и оценка эффективности системы общения.46

Выводы по главе 2.

Глава 3. Использование крупномасштабной базы знаний.

3.1 Обработка семантики в системах общения.

3.2 Определение необходимой структуры базы знаний.

3.3 Разработка формальной модели базы знаний OMCS.

3.4 Особенности применения разработанной формальной модели OMCS к проблемам организации диалогов.

3.5 Фокус диалога и его обработка на основе модели OMCS.

3.6 Проблема учета глобальных данных и персональных предпочтений.

3.7 Модели Voice XML, VSOO и база знаний OMCS.

3.8 Метод ввода значения нечеткой переменной.

3 .9 Метод создания профиля пользователя.

3.10 Представление основных типов вопросов для ввода информации.

3.11 Метод идентификации объекта с использованием набора связанных критериев поиска и персонализации.:.

3.12 Оценка эффективности предложенных методов.

Выводы по главе 3.

4.1 Программный комплекс для разработки систем общения на упрощенном естественном языке.

4.2 Программный продукт «Talk and Drive».

4.3 Особенности реализации переключения фокуса между приложениями в «Talk and Drive».

4.4 Вывод информации в продукте «Talk and Drive».

4.5 Использование предложенных методов в приложении «Коммуникатор» в корпоративной системе ЗАО «Таркетт Рус».

Выводы по главе 4.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Яснев, Михаил Игоревич

Актуальность темы исследований V

В связи с широким распространением персональных компьютеров и мобильных устройств сильно возросла роль приложений с поддержкой голосового интерфейса. Голосовой интерфейс на упрощенном естественном языке делает приложения доступнее для неподготовленных пользователей В случае компактных мобильных устройств, таких как смартфон и Pocket PC, голосовой интерфейс является наиболее удобным и эффективным из-за малых размеров стилуса, клавиатуры и других средств ввода информации.

Также существует ряд приложений, в которых голосовой интерфейс является единственной альтернативой ввода данных (центры обработки вызовов, IP-телефония) или наиболее предпочтителен (например, бортовой компьютер автомобилей).

Точность распознавания слитной дикторозависимой речи, которая обеспечивается современными промышленными системами, достигает 99% (например, лучшие показатели дает система Dragon Naturally Speaking 10.0). Но существующие стандарты, такие как Voice XML и SAPI, не допускают прямого использования многих возможностей естественного языка для управления приложениями. Диалоги, которые допустимо создавать при помощи этих интерфейсов, являются жестко фиксированными и не передают гибкость естественного языка.

Поэтому в последнее время одной из наиболее актуальных являются проблемы связи семантического уровня с распознавателями речи и упрощение разработки приложений с голосовым интерфейсом. При реализации новых подходов к созданию систем общения необходимо учитывать наличие множества функционирующих в настоящее время приложений на основе стандарта Voice XML и обеспечить совместимость с ними.

Цель работы и задачи исследования

Целью работы является повышение эффективности процесса разработки систем общения с голосовым интерфейсом, обеспечение возможности реализовывать диалоги на упрощенном естественном языке. Для достижения поставленной цели в диссертационной работе были решены следующие задачи:

1. Проведен анализ современных подходов к созданию систем общения на упрощенном естественном языке.

2. Разработана математическая модель расширенных приложений с голосовым интерфейсом на основе стандарта Voice XML, поддерживающих работу в условиях реального времени и учитывающих синонимию естественного языка.

3. Разработана математическая модель крупномасштабной базы знаний Open Mind Common Sense (OMCS), которая обеспечивает совместимость представления знаний в OMCS со стандартом Voice XML.

4. Разработан метод автоматического преобразования систем общения для расширения множества обрабатываемых команд с использованием OMCS.

5. Разработан программный комплекс для создания систем общения на упрощенном естественном языке.

Методы исследований

Для решения поставленных задач используются обобщенная теория неопределенности. Реализация разработанных методов проводилась с использованием методов объектно-ориентированного и компонентно-ориентированного программирования.

Научная новизна

Научная новизна работы состоит в следующем:

1. Разработана математическая модель расширенных голосовых приложений на основе стандарта Voice XML, позволяющая приближать общение системы с пользователями к естественному и работать в режиме реального времени.

2. Разработана математическая модель крупномасштабной базы знаний Open Mind Common Sense (OMCS), которая обеспечивает совместимость представления знаний в OMCS со стандартом Voice XML.

3. Разработан метод автоматического преобразования систем общения для расширения множества обрабатываемых команд пользователя с использованием крупномасштабной базы знаний OMCS.

4. Предложен метод поиска объекта в системах общения с голосовым интерфейсом с использованием набора связанных критериев и персонализации- Данный метод позволяет преодолеть существующее в настоящее время ограничение средств распознавания речи при вводе значений атрибутов и приблизить диалог пользователя с системой- в процессе поиска к естественному общению. В основе разработанного метода лежит использование обобщенной теории неопределенности.

Обоснованность и достоверность научных положений и основных результатов диссертации достигается путем тестирования эффективности предложенных методов в составе разработанного программного продукта на основе общепринятой методики Paradise, проведения экспериментов по влиянию шумов на процесс распознавания.

Практическая ценность работы

Разработанный метод расширения систем общения с использованием знаний из базы OMCS применим к большому числу систем за исключением узкоспециализированных (например, экспертные юридические или медицинские системы), т.к. база содержит общие знания, используемые в диалогах в большинстве предметных областей. Метод был реализован в виде компонента и может быть использован в качестве специализированного интерфейса к OMCS для разработчика системы общения.

Поскольку задача поиска объектов возникает при разработке любой системы общения, т.к. для интерфейса на упрощенном естественном языке поиск является основной операцией, предшествующей их дальнейшей обработке, предложенный в работе метод поиска объекта с использованием ряда критериев и персонализации полезен для систем, которые включают задачи многокритериального поиска объекта на множестве из более, чем 1000 элементов.

Реализация результатов работы

Полученные теоретические результаты были использованы для разработки программного продукта «Talk and Drive» компании Ambient Voice Technologies, представляющего собой голосовой интерфейс системы общения на упрощенном естественном языке для бортового компьютера автомобиля.

Разработанные методы были использованы для экспериментальной разработки редактора бизнес-процессов в корпоративной информационной системе компании ЗАО «Таркетт Рус». Использование конструкций упрощенного естественного языка позволило реализовать гибкую систему управления бизнес-процессами с настройками конечными пользователями без участия разработчика.

Апробация результатов работы

Основные положения были представлены на Первой Международной конференции "Системный анализ и информационные технологии" САИТ-2005 (ИСА РАН, 2005), Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования 2006», конференции «Научная сессия МИФИ 2005».

Работа обсуждалась на научных семинарах кафедр«Персональные компьютеры и сети» и «Автоматизированные системы управления и информационные технологии» в Московском государственном университете приборостроения и информатики.

Программный продукт «Talk and Drive» прошел конкурсный отбор и был представлен на Первом молодежном инновационном конвенте 2008, проведенном Администрацией Президента в декабре 2008 года, а также на форуме «Интеллектуальная собственность BAO г. Москвы» в ноябре 2008 г.

Публикации

Основные результаты по материалам диссертационной работы опубликованы в 9 печатных работах, в т.ч. статья в журнале, входящем в перечень ВАК российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук.

Структура и объем работы

Диссертация объемом 130 машинописных страниц содержит введение, 4 главы и заключение, список литературы (103 наименований).

Заключение диссертация на тему "Математическое и программное обеспечение систем общения на упрощенном естественном языке"

1. Основные результаты диссертационной работы Проведен анализ современных подходов к созданию систем общения на упрощенном естественном языке.

2. Разработана математическая модель расширенных приложений с голосовым интерфейсом на основе стандарта Voice XML, поддерживающих работу в условиях реального времени и учитывающих синонимию естественного языка.

3. Разработана математическая модель крупномасштабной базы знаний Open Mind Common Sense (OMCS), которая обеспечивает совместимость представления знаний в OMCS со стандартом Voice XML.

4. Разработан метод автоматического преобразования систем общения для расширения множества обрабатываемых команд с использованием крупномасштабной базы знаний OMCS.

5. Предложен метод поиска объекта в системах общения с голосовым интерфейсом с использованием набора связанных критериев. Данный метод основан на обобщенной теории нечеткости и использует персонал изацию. Он позволяет преодолеть существующее в настоящее время ограничение средств распознавания речи при вводе значений атрибутов и приблизить диалог пользователя с системой в процессе поиска к естественному общению.

6. Разработан программный комплекс для создания систем общения на упрощенном естественном языке. Данный комплекс был использован в процессе создания программного продукта «Talk and Drive», обеспечивающего голосовой интерфейс к информационной системе бортового компьютера автомобиля

Заключение

Создание интерфейсов пользователя в виде систем общения на упрощенном естественном языке является одной из наиболее сложных и актуальных задач в развитии современных информационных технологий. Существующие наработки в этой области позволяют быстро и эффективно создавать системы общения на основе небольшого ограниченного набора команд. Но реализуемые в таких системах диалоги очень далеки от процесса естественного общения.

В работе детально рассмотрены недостатки единственного на данный момент общепринятого промышленного стандарта разработки приложений с голосовым интерфейсом - Voice XML и предложена схема расширения стандартных приложений. Данные расширения; могут быть реализованы как в рамках модели Voice XML, так и в расширенном сервере исполнения голосовых приложений, совместимым с унаследованными приложениями.

Расширение приложений в сторону повышения способов описания одних и тех же действий позволяет приблизить общение к естественному, представить пользователю множество вариантов решения текущей задачи, восстановить диалог после сбоя и избавить его от необходимости заучивания поддерживаемого набора команд.

Обеспечение системы общения возможностью работы в реальном времени позволяет организовать взаимодействие набора приложений с учетом необходимости их активации в зависимости от событий в окружающем мире. Среда исполнения предоставляет механизмы для смены темы диалога и возможность возврата к прерванному диалогу.

В работе представлена разработанная модель приложений Voice XML и расширенных приложений Voice XML, которые позволяют обеспечить дополнительные возможности пользователю и приблизить диалоги с компьютером к естественному общению. Особое внимание в работе уделено проблемам совместимости и работоспособности предложенных методов с учетом особенностей современных технологий и имеющихся ограничений, как фундаментальных теоретических, так и технологических.

Научную новизну работы составляет метод расширения базы знаний приложения о предметной области путем импорта знаний из крупномасштабной базы знаний Open Mind Common Sense. Данный эксперимент является первым упоминанием подобного применения базы знаний для повышения эффективности систем общения, основанных на стандарте Традиционно данная база использовалась для повышения эффективности поисковых систем. Для работы с базой OMCS была разработана математическая модель, описывающая основные категории OMCS и допустимые функции обработки знаний из OMCS.

Существенную практическую ценность представляет метод организации диалога для поиска объекта по набору связанных критериев с применением персонализации и выделения множества наиболее значимых объектов. Особенностью метода является сопоставление дерева решений задачи поиска доступным средствам языка общения. Персонализация и множество наиболее значимых объектов используются для уменьшения среднего числа итераций в диалогах поиска и, как следствие, ускорения процесса поиска в целом.

Представляет научную ценность метод указания в диалоге значения I нечеткой переменной при помощи математического аппарата обобщенной

4 теории неопределенности. Данная теория была разработана JI. Задэ в качестве обобщения нечеткой логики и как средство для обработки фраз на естественном языке.

В отличие от традиционной нечеткой логики обобщенная теория неопределенности использует комбинирование математических аппаратов с целью повышения гибкости создаваемых описаний нечетких переменных

I и отношений их принадлежности нечетким множествам. Помимо традиционных размытых интервалов значений допускается дополнительное поясняющее определение переменной на основе дискретного множества степеней уверенности, статистики или другого математического аппарата.

На основе предложенных методов был разработан программный комплекс для автоматизации процесса создания систем общения. Он состоит из набора утилит и процесса разработки и тестирования приложения. Данный комплекс был использован в ходе разработки двух программных продуктов.

Программный продукт «Talk and Drive» использует большинство методов, предложенных в работе. По своим возможностям он в настоящий момент превосходит все коммерческие системы голосовых интерфейсов для бортовых компьютеров автомобилей.

Программный продукт «Коммуникатор» использует голосовой интерфейс на базе созданного программного комплекса. Серверная составляющая продукта применяет метод поиска для обработки слабоструктурированной информации о контактах из унаследованных систем.

Разработанные методы могут быть использованы и в других предметных областях, не связанных с голосовым интерфейсом, но использующие математический аппарат обобщенной теории неопределенности для решения переборных задач и задач семантического анализа фраз на естественном языке без ведения диалога.

Кроме того, метод поиска объекта, который был разработан для проведения ведения диалогов поиска, в настоящее время применяется в ходе разработки программного обеспечения для решения задачи оптимальной загрузки множества грузовых автомобилей.

Библиография Яснев, Михаил Игоревич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Попов Э.В. Общение с ЭВМ на естественном языке. М.УРСС, 1982.

2. Voice Extensible Markup Language (VoiceXML) 2.1. http ://www. w3. org/TR/voicexml21 /

3. J. Frankel, M. Magimai-Doss, S. King, K. Livescu and O. Cetin, "Articulatory Feature Classifiers Trained on 2000 hours of Telephone Speech", Proc. Interspeech, Antwerp, Belgium, August 2007.

4. J. Glass, T. J. Hazen, S. Cyphers, I. Malioutov, D. Huynh, and R. Barzilay, "Recent Progress in the MIT Spoken Lecture Processing Project", Proc. Interspeech, Antwerp, Belgium, August 2007.

5. M. Hasegawa, K. Livescu, P. Lai, and K. Saenko, "Audiovisual Speech Recognition with Articulator Positions as Hidden Variables", Proc. InternationalCongressofPhoneticSciences, Saarbruecken, Germany, August 2007.

6. T. J. Hazen and E. McDermott, "Discriminative MCE-Based Speaker Adaptation of Acoustic Models for a Spoken Lecture Processing Task", Proc. Interspeech, Antwerp, Belgium, August 2007.

7. I. Hetherington, "PocketSUMMIT: Small-Footprint Continuous Speech Recognition", Proc. Interspeech, Antwerp, Belgium, August 2007.

8. I. L. Hetherington, H. Shu, and J. Glass, "Flexible Multi-Stream Framework for Speech Recognition Using Multi-Tape Finite-State Transducers," Proc. ICASSP 2006, Toulouse, France, May 2006.

9. B. Hsu and J. Glass, "Style & Topic Language Model Adaptation Using HMM-LDA," Proc. EMNLP, Sydney, Australia, July 2006.

10. G. Choueiter, D. Povey, S.F. Chen, and G. Zweig, "Morpheme-Based Language Modeling for Arabic LVCSR," Proc. ICASSP 2006, Toulouse, France, May 2006.

11. G. Choueiter, S. Seneff, and J. Glass, "New Word Acquisition Using Subword Modeling", Proc. Interspeech, Antwerp, Belgium, August 2007.

12. T. J. Hazen, "Automatic Alignment and Error Correction of Human-Generated Transcripts for Long Speech Recordings," Proc. Interspeech, Pittsburgh, Pennsylvania, September 2006.

13. J. Lee, M. Zhou, and X. Liu, "Detection of Non-native Sentences using Machine-translated Training Data", Proc. HLT-NAACL (ShortPapers), Rochester, NY, April 2007.

14. A. Park and J. Glass, "A Novel DTW-based Distance Measure for Speaker Segmentation," Proc. IEEE/ACL 2006 Workshop on Spoken Language Technology, Palm Beach, Araba, December 2006.

15. A. Park and J. Glass, "Unsupervised Word Acquisition from Speech Using Pattern Discovery," Proc. ICASSP 2006, Toulouse, France, May 2006.

16. K. Saenko and K. Livescu, "An Asynchronous DBN for Audio-Visual Speech Recognition," Proc. IEEE/ACL 2006 Workshop on Spoken Language Technology, Palm Beach, Aruba, December 2006.

17. N. Singh-Miller, M. Collins, and T. J. Hazen, "Dimensionality Reduction for Speech Recognition Using Neighborhood Components Analysis", Proc. Interspeech, Antwerp, Belgium, August 2007.

18. G. Sun, X. Liu, G. Cong, M. Zhou, Z. Xiong, J. Lee, and C. Lin, "Detecting Erroneous Sentences using Automatically Mined Sequential Patterns", Proc. ACL, Prague, CzechRepublic, June 2007.

19. N. Dehak, P. Kenny, R. Dehak, P. Ouellet, and P. Dumouchel, "FrontEnd Factor Analysis for Speaker Verification," Accepted to IEEE Transactions on Audio, Speech and Language Processing.

20. N. Dehak, R. Dehak, J. Glass, D. Reynolds, and P. Kenny, "Cosine Similarity Scoring without Score Normalization Techniques," Proc. IEEE Odyssey Workshop, Brno, Czech Republic, June 2010.

21. S. Shnm, N. Dehak, R. Dehak, and J. Glass, "Unsupervised Speaker Adaptation Based on the Cosine Similarity for Text-Independent Speaker Verification," Proc. IEEE Odyssey Workshop, Brno, Czech Republic, June 2010.

22. Y. Zhang and J. Glass, "Towards Multi-Speaker Unsupervised Speech Pattern Discovery," Proc. ICASSP, pp. 4366-4369, Dallas, Texas, United States, March 2010.

23. Y. Zhang, and J. Glass, "Unsupervised Spoken Keyword Spotting via Segmental DTW on Gaussian Posteriorgrams," Proc. ASRU, Merano, Italy, December 2009.

24. B. Hsu and J. Glass, "Language Model Parameter Estimation Using User Transcriptions," Proc. ICASSP, Taipei, Taiwan, April 2009.

25. Y. Zhang and J. Glass, "Speech Rhythm Guided Syllable Nuclei Detection," Proc. ICASSP, Taipei, Taiwan, April 2009.

26. D. Kanevsky, T. N. Sainath, and B. Ramabhadran, "A Generalized Family of Parameter Estimation Techniques," Proc. ICASSP, Taipei, Taiwan, April 2009.

27. J. Ming, T. J. Hazen, and J. Glass, "Combining Missing-Feature Theory, Speech Enhancement and Speaker-DependentZ-Independent Modeling for Speech Separation," Proc. Interspeech, Pittsburgh, Pennsylvania, September 2006.

28. T. Sainath, V. Zue, and D. Kanevsky, "Audio Classification using the Extended Baum-Welch Transformations", Proc. Interspeech, Antwerp, Belgium, August 2007.

29. T. Sainath, D. Kanevsky, and G. Iyengar, "Unsupervised Audio Segmentation Using Extended Baum-Welch Transformations", Proc. ICASSP, Honolulu, Hawaii, April 2007.

30. T. N. Sainath and T. J. Hazen, "A Sinusoidal Model Approach to Acoustic Landmark Detection and Segmentation for Robust Segment

31. Based Speech Recognition," Proc. ICASSP 2006, Toulouse, France, May 2006.

32. D. Kanevsky, T. N. Sainath, B. Ramabhadran, and D. Nahamoo, "Generalization of Extended Baum-Welch Parameter Estimation for Discriminative Training and Decoding," Proc. Interspeech, Brisbane, Australia, September 2008.

33. Y. Wang, A. Acero, M. Mahajan, and J. Lee, "Combining Statistical and Knowledge-Based Spoken Language Understanding in Conditional Models," Proc. COLING/ACL, Sydney, Australia, July 2006.

34. B. Hsu and J. Glass, "N-gram Weighting: Reducing Training Data Mismatch in Cross-Domain Language Model Estimation," Proc. EMNLP, Honolulu, Hawaii, USA, October 2008.

35. B. Hsu and J. Glass, "Iterative Language Model Estimation: Efficient Data Structure & Algorithms," Proc. Interspeech, Brisbane, Australia, September 2008.

36. Learning to use the CMU SPHINX Automatic Speech Recognition system http://www.speech.cs.cmu.edu/sphinx/tutorial.htmL

37. Sphinx-4: A Flexible Open Source Framework for Speech Recognition https://research.sun.com/techrep/2004/smlitr-2004-139.pdf

38. M. Peabody, and S. Seneff, "Towards Automatic Tone Correction in Non-native Mandarin," Proc. 5th International Symposium on Chinese Spoken Language Processing (ISCSLP), Kent Ridge, Singapore, December 2006.

39. A. Gruenstein and S. Seneff, "Releasing a Multimodal Dialogue System into the Wild: User Support Mechanisms", Proc. of the 8th SIGdial Workshop on Discourse and Dialogue, Antwerp, Belgium, pp. 111-119, September 2007.

40. A. Correa, M. Walter, L. Fletcher, J. Glass, S. Teller, and R. Davis, "Multimodal Interaction with an Autonomous Forklift," Proc. ACM/IEEE International Conference on Human-Robot Interaction (HRI), pp.„243-250, Osaka, Japan, March 2010.

41. J. Liu, S. Seneff, and V. Zue, "Dialogue-Oriented Review Summary Generation for Spoken Dialogue Recommendation Systems," Proc. NAACL-HLT, Los Angeles, California, United States, March 2010.

42. T. N. Sainath, "Island-Driven Search Using Broad Phonetic Classes," Proc. ASRU, Merano, Italy, December 2009.

43. J. Liu, Y. Xu, S. Seneff, and V. Zue, "CityBrowser II: A Multimodal Restaurant Guide in Mandarin," Proc. ISCSLP, Kunming, China, December 2008.

44. Y. Xu and S. Seneff, "Mandarin Learning Using Speech and Language Technologies: A Translation Game in the Travel Domain," Proc. ISCSLP, Kunming, China, December 2008.

45. Y. Xu, J. Liu, and S. Seneff, "Mandarin Language Understanding in Dialogue Context," Proc. ISCSLP, Kunming, China, December 2008. .

46. A. Gruenstein, "Response-Based Confidence Annotation for Spoken Dialogue Systems", Proc. of SIGdial Workshop on Discourse and Dialogue, Columbus, Ohio, USA, June 2008.

47. T. J. Hazen, B. Sherry, and M. Adler, "Speech-Based Annotation and Retrieval of Digital Photographs", Proc. Interspeech, Antwerp, Belgium, August 2007.

48. J. Ming, T. J. Hazen, and J. Glass, "Speaker Verification Over Handheld Devices with Realistic Noisy Speech Data," Proc. ICASSP 2006, Toulouse, France, May 2006.

49. J. Polifroni, I. Kiss, S. Seneff, "Speech for Content Creation," Proc. SiMPE, Lisbon, Portugal, September 2010.

50. A. Gruenstein, I. McGraw, and I. Badr, "The WAMI Toolkit for Developing, Deploying, and Evaluating Web-Accessible Multimodal Interfaces," Proc. ICMI, Chania, Crete, Greece, October 2008.

51. A. Gruenstein, B. Hsu, J. Glass, S. Seneff, I. Hetherington, S. Cyphers, I. Badr, C. Wang, and S. Liu, "A Multimodal Home Entertainment Interface via a Mobile Device", Proc. of ACL Workshop on Mobile Language Processing, Columbus, Ohio, USA, June 2008.

52. T. J. Hazen and D. Schultz, "Multi-Modal User Authentication from Video for Mobile or Variable-Environment Applications," Proc. Interspeech, Antwerp, Belgium, August 2007.

53. E. Filisko and S. Seneff, "Learning Decision Models in Spoken Dialogue Systems via User Simulation," Proc. AAA! Workshop on Statistical and Empirical Approaches for Spoken Dialog Systems, Boston, Massachusetts, July 2006.

54. A. Gruenstein and S. Seneff, "Context-Sensitive Language Modeling for Large Sets of Proper Nouns in Multimodal Dialogue Systems," Proc. IEEE/ACL 2006 Workshop on Spoken Language Technology, Palm Beach, Aruba, December 2006.

55. A. Gruenstein, S. Seneff, and C. Wang, "Scalable and Portable Web-Based Multimodal Dialogue Interaction with Geographical Database," Proc. Interspeech, Pittsburgh, Pennsylvania, September 2006.

56. Т. Hori, I. L. Hetherington, T. J. Hazen, and J. Glass, "Open-Vocabulary Spoken Utterance Retrieval Using Confusion Networks", Proc. ICASSP, Honolulu, Hawaii, April 2007.

57. C. Wang, M. Collins, and P. Koehn, "Chinese Syntactic Reordering for Statistical Machine Translation", Proc. EMNLP, Prague, CzechRepublic, June 2007.

58. R. Zbib, S. Matsoukas, R. Schwartz, and J. Makhoul, "Decision Trees for Lexical Smoothing in Statistical Machine Translation," Proc. ACL Joint 5th Workshop on Statistical Machine Translation, Uppsala, Sweden, July 2010.

59. Y. Xu and S. Seneff, "Two-Stage Translation: A Combined Linguistic and Statistical Machine Translation Framework," Proc. AMTA, Waikiki, Hawaii, USA, October 2008.

60. A. Gruenstein, J. Orszulak, S. Liu, S. Roberts, J. Zabel, B. Reimer, B. Mehler, S. Seneff, J. Glass, J. Coughlin, "City Browser: Developing a Conversational Automotive HMI," Proc. СШ, 4291-4296, Boston, April 2009.

61. Осипов Г.С. Построение' моделей предметных областей. Неоднородные семантические сети // Изв. АН СССР, техн. кибернетика, 1990. №5.

62. Падучева Е.В. Динамические модели в семантике лексики. М.: Языки славянской культуры, 2004, 607 с.

63. Падучева Е.В. О семантике синтаксиса. Материалы к трансформационной грамматике русского языка М.: Наука, 291с.

64. Падучева Е.В. Обратная теорема: алгоритмические и эвристические процессы мышления (в соавторстве с Т.Д.Корельской). М.: Знание, 1978.

65. Изольда Валерьевна Ли. Разработка методов представления и обработки естественного языка для представления проблемно-ориентированных систем автоматического понимания речи.

66. Санкт-Петербургский институт информатики и автоматизации Российской академии наук, 2004 г.

67. Linguatronic Product-Level Speech System for Mercedes-Benz Cars. http://acl.ldc.upenn.edn/H/H01/H01-1047.pdf

68. Mercedes COMAND Frequently Asked Questions (FAQ) http ://www.mercup grades. com/COMAND+FAQ-faq-1 .html

69. Road test: Mercedes-benz C-class http://classified.independent.co.uk/cars/article2452893.ece

70. The Future of Voice Arrives http://www.voicebox.com/technology/index.php

71. K. Livescu, B. Zhu, and J. Glass, "On the Phonetic Information in Ultrasonic Microphone Signals," Proc. ICASSP, Taipei, Taiwan, April 2009.

72. K. Livescu, A. Bezman, N. Borges, L. Yung, O. Cetin, J. Frankel, S. King, M. Magimai-Doss, X. Chi, and L. Lavoie, "Manual Transcription of Conversational Speech at the Articulatory Feature Level", Proc. ICASSP, Honolulu, Hawaii, April 2007.

73. R. Rifkin, K. Schutte, M. Saad, J. Bouvrie, and J. Glass, "Noise Robust Phonetic Classification with Linear Regularized Least Squares and Second-Order Features", Proc. ICASSP, Honolulu, Hawaii, April 2007.

74. M. Senoussaoui, P. Kenny, N. Dehak, and P. Dumouchel, "An i-Vector Extractor Suitable for Speaker Recognition with Both

75. Microphone and Telephone Speech," Proc. IEEE Odyssey Workshop, Brno, Czech Republic, June 2010.

76. T. N. Sainath and V. Zue, "A Comparison of Broad Phonetic and Acoustic Units for Noise Robust Segment-Based Speech Recognition," Proc. Interspeech, Brisbane, Australia, September 2008.

77. B. Hsu and J. Glass, "Spoken Correction for Chinese Text Entry," Proc. 5th International Symposium on Chinese Spoken Language Processing (ISCSLP), Kent Ridge, Singapore, December 2006.

78. J. Lee and S. Seneff, "Automatic Generation of Cloze Items for Prepositions", Proc. Interspeech, Antwerp, Belgium, August 2007.

79. J. Lee, "A Computational Model of Text Reuse in Ancient Literary Texts", Proc. ACL, Prague, CzechRepublic, June 2007.

80. J. Lee and S. Seneff, "Automatic Grammar Correction for Second-Language Learners," Proc. Interspeech, Pittsburgh, Pennsylvania, September 2006.

81. McGraw, B. Yoshimoto, and S. Seneff, "Speech-enabled Card Games for Incidental Vocabulary Acquisition in a Foreign Language," Speech Communication 2008.

82. J. Lee and S. Seneff, "Correcting Misuse of Verb Forms," Proc. ACL, Columbus, Ohio, USA, June 2008.

83. Пенроуз P. НОВЫЙ УМ КОРОЛЯ. О компьютерах, мышлении и законах физики. Серия "Синергетика: от прошлого к будущему". Перевод с англ. Изд.З. М.: Синергетика, 2008.

84. Лакофф Дж. Джонсон М. Метаформы, которыми мы живем. Пер. с англ. Изд 2. М. УРСС, 2008.

85. Наумов В.В. Лингвистическая идентификация личности. М.: Синергетика, 2010.

86. Поппер К.Р. Объективное знание: Эволюционный подход. Пер. с англ. М.: УРСС, 2010.

87. C. Cliao, S. Seneff, and C. Wang, "An Interactive Interpretation Game for Learning Chinese", to be presented at Speech and Language Technology in Education (SLaTE) Workshop, Farmington, Pennsylvania, October 2007.

88. S. Seneff, "Web-based Dialogue and Translation Games for Spoken Language Learning", to be presented at Speech and Language Technology in Education (SLaTE) Workshop, Farmington, Pennsylvania, October 2007.

89. S. Seneff, C. Wang, and C. Chao, "Spoken Dialogue Systems for Language Learning", Proc. HLT-NAACL, Rochester, NY, April 2007.

90. C. Wang and S. Seneff, "A Spoken Translation Game for Second Language Learning", Proc. AIED, Marina delRey, California, July 2007.

91. C. Wang and S. Seneff, "Automatic Assessment of Student Translations for Foreign Language Tutoring", Proc. HLT-NAACL, Rochester, NY, April 2007.

92. C. Wang and S. Seneff, "High-Quality Speech Translation in the Flight Domain," Proc. Interspeech, Pittsburgh, Pennsylvania, September 2006.

93. McGraw, C. Lee, L. Hetherington, S. Seneff, and J. Glass, "Collecting Voices from the Cloud," Proc. LREC, Malta.

94. Y. Xu and S. Seneff, "Speech-Based Interactive Games for Language Learning: Reading, Translation, and Question-Answering," International Journal of Computational Linguistics and Chinese Language Processing, vol. 14, no. 2 (2009).130 — I.

95. McGraw, A. Gruenstein, and A. Sutherland, "A Self-Labeling Speech Corpus: Collecting Spoken Words with an Online Educational Game," Proc. Interspeech, Brighton, UK, September 2009.

96. M. Peabody and S. Seneff, "Annotation and Features of Non-native Mandarin Tone Quality," Proc. Interspeech, Brighton, UK, September 2009.

97. A. Gruenstein, I. McGraw, and A. Sutherland, "A Self-Transcribing Speech Corpus: Collecting Continuous Speech with an Online Educational Game," Proc. SIGSLaTe, Warwickshire, England, September 2009.

98. B. Yoshimoto, I. McGraw, and S. Seneff, "Rainbow Rummy: A Web-based Game for Vocabulary Acquisition using Computer-directed Speech," Proc. SIGSLaTe, Warwickshire, England, September 2009.

99. Y. Xu, A. Goldie, and S. Seneff, "Automatic Question Generation and Answer Judging: A Q&A Game for Language Learning," Proc. SIGSLaTE, Warwickshire, England, September 2009.

100. J. Liu and S. Seneff, "Review Sentiment Scoring via a Parse-and-Paraphrase Paradigm," Proc. EMNLP, Singapore, August 2009.

101. J. Lee and S. Seneff, "An Analysis of Grammatical Errors in Non-Native Speech in English," Proc. Spoken Language Technology Workshop, Goa, India, December 2008.