автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Построение семантического словаря для обработки англоязычных текстов

кандидата физико-математических наук
Кутарба, Анна Юрьевна
город
Санкт-Петербург
год
2006
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Построение семантического словаря для обработки англоязычных текстов»

Автореферат диссертации по теме "Построение семантического словаря для обработки англоязычных текстов"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

'I

Кутарба Анна Юрьевна

ПОСТРОЕНИЕ СЕМАНТИЧЕСКОГО СЛОВАРЯ ДЛЯ ОБРАБОТКИ АНГЛОЯЗЫЧНЫХ ТЕКСТОВ

05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата физико-математических наук

Санкт-Петербург 2006

Работа выполнена на кафедре информатики математико-механического факультета Санкт-Петербургского государственного университета.

Научный руководитель: доктор физико-математических наук, профессор Тузов Виталий Алексеевич

Официальные оппоненты: доктор физико-математических наук, профессор Братчиков И.Л., кандидат физико-математических наук, доцент Комаров И.И.

Ведущая организация:

Санкт-Петербургский Экономико-математический институт РАН

Защита диссертации состоится "25" мая 2006 года в 14 часов на заседании диссертационного совета Д 212.232.51 по защите диссертаций на соискание учёной степени доктора наук при Санкт-Петербургском государственном университете по адресу: 198504, Санкт-Петербург, Старый Петергоф, Университетский пр., 28, математико-механический факультет, ауд. ^05

С диссертацией можно ознакомиться в Научной библиотеке имени М.Горького Санкт-Петербургского государственного университета по адресу: 199034, Санкт-Петербург, Университетская наб., д. 7/9.

Автореферат разослан апреля 2006 года.

Учёный секретарь диссертационного совета, доктор физико-математических наук

Мартыненко Б.К.

1. Общая характеристика работы

Актуальность работы. Современное общество часто называют информационным. Действительно, интенсификация обмена информацией идет на самых различных уровнях: от межличностного до межгосударственного. Несмотря на распространение знания иностранных языков, в первую очередь, мировых, изучение их не может полностью обеспечить многосторонние и неуклонно расширяющиеся международные связи. Это объясняется причинами как количественного, так и качественного характера. Во-первых, огромное количество языков вовлечены в международные контакты. Во-вторых, невозможно обеспечить достаточно высокий уровень владения иностранными языками при их массовом изучении. Современный всплеск интереса к структуре ЕЯ вызван необходимостью его использования в целом ряде перспективных научных и прикладных направлений, наибольший импульс которым придало широкое внедрение систем компьютерной обработки информации во все области деятельности.

В настоящей работе основой всех методов обработки текстов на ЕЯ является семантическая модель естественного языка, разработанная профессором факультета Прикладной математики - Процессов управления д.ф.-м.н. Тузовым В.А.

Существенным, на наш взгляд, результатом проделанной работы является получение семантического словаря английского языка [1]. Он позволяет эффективно реализовать разработанные алгоритмы поиска релевантной информации в текстах на естественном языке. В работе приведено нескольких из них - поиск, диалог и рубрицирование. Семантический анализатор, пользуясь информацией заключенной в семантическом словаре, способен извлечь из текста всю информацию, необходимую для сколь угодно точного решения любой из названных выше задач. Системы на основе этих ыстро получить

необходимые знания из больших объемов информации и гарантируют высокую степень точности результата.

Цель работы. Повышение качества использования естественного языка в компьютерных системах за счет разработки методов и средств обработки текстов на естественном языке с использованием формализованного представления ЕЯ. Построение адекватной модели семантического словаря для английского языка. Разработка методов автоматического поиска, диалога и рубрицирования информации в тексте на английском языке.

Методы исследования. В диссертации для построения логического аппарата используется математический аппарат теории формальных грамматик, теории множеств и реляционной алгебры. Для реализации поставленных целей применяются теория формализации естественных языков, в частности, функциональная модель естественного языка. Областью исследования являются математическое и программное обеспечение информационных технологий, модели и методы разработки программных средств обработки данных и знаний в естественно-языковой форме, программные инструментальные средства разработки интеллектуальных систем.

Научная новизна. В ходе исследования был построен семантический словарь для работы с англоязычными текстами, не имеющий в настоящее время аналогов в мировой практике.

Практическая ценность. Построенный в ходе исследования семантический словарь английского языка может использоваться в разнообразных системах обработки естественно-язычной информации, в управление документооборотом, в работе почтовых систем, обучающих программах, поисковых системах, программах слежения за потоками информации, автоматизации получения информации из архивов и библиотек и т.д. Семантический анализатор, используя полученный словарь, позволяет

реализовать разработанные алгоритмы поиска, диалога и рубрицирования текстов на естественном языке, дающих высокую степень адекватности результата запросу.

Апробация работы. Полученный семантический словарь английского языка был успешно (89,5% адекватности выборки запросу) использован в системе автоматического рубрицирования англоязычных текстов «Гардемарин» (Санкт-Петербург, 2004 г.).

Публикации. По теме диссертации опубликовано 3 работы [1]-[3].

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы и приложения. Текст диссертации изложен на 96 страницах. Список литературы содержит 118 наименований.

2. Содержание работы

Введение отражает актуальность, целевую установку и задачи исследования, направленность работы на использование в компьютерных системах, конкретизирует прикладное понятие семантики текста на естественном языке.

Первая глава содержит обзор наиболее известных подходов к формализации естественного языка и опыта использования естественного языка (ЕЯ) в компьютерных системах (КС). Приводятся модели понимания ЕЯ и обобщенные структуры лингвистических процессоров, реализующих их. Даются наиболее характерные примеры практического использования языковой информации в КС. Выявляются общие черты, достоинства и недостатки обсуждаемых подходов. Завершается глава указанием наиболее перспективного подхода к формализации ЕЯ, постановкой целей и задач исследования.

Во второй главе содержится описание выбранного подхода к формализации ЕЯ. В первой части главы приводятся общие требования к

формализованному представлению ЕЯ, излагаются основополагающие тезисы [1], лежащие в основе выбранного подхода.

Тезис 1. Язык представляет собой алгебраическую систему, М}, где - базисные функции на языке, а М - структура языка, представляющая собой набор базисных понятий т1,...тг и их иерархию (см. §2).

Тезис 2. Каждое предложение языка можно представить в виде суперпозиций базисных функций /„ через которые выражается и каждое слово языка, за исключение базисных понятий т^М.

Тезис 3. Каждая часть речи играет вполне определенную роль в организации синтаксической структуры предложения.

Существительные, являясь аргументами функций, образуют структуру данных языка; прилагательные - простейшие функции на существительных; глаголы - хорошо развитые функции в основном на существительных; наречия - функции на глаголах; простые предлоги — функции на существительных; сложные предлоги и союзы - функции, аргументами которых являются суперпозиции функций.

Тезис 4. Грамматика неразрывно связана с семантикой языка и представляет собой семантический словарь.

Каждое слово описывается в виде семантической формулы, состоящей из базисных функций.

Тезис 5. Усвоение языка компьютером есть построение и пополнение семантического словаря. Машина, как и человек, может использовать некоторое слово-функцию только тогда, когда знает, как присоединять к нему аргументы.

Тезис б. Не существует языка, который невозможно точно и строго формализовать.

Функциональная модель позволяет разбить описание языка на конечное число уровней, что серьезно упрощает процесс его формализации.

6

Трехуровневая модель естественного языка - морфосинтаксический, семантический и прагматический - полностью решает проблему его реализации на компьютере. Разбиение на три уровня определяется не абстрактными соображениями, а принципиальным различием задач, которые решаются на каждом уровне. На первом этапе обработки текст преобразуется в последовательность выполнимых функций. На втором этапе эта последовательность выполняется. На третьем - полученная информация отображается в базу знаний.

Материал представляется на примерах для русского и английского языков, со ссылками на основополагающие тезисы, но не затрагивает вопросы конкретной компьютерной реализации.

В третьей главе первый раздел посвящен моделированию значения единицы языка. Для достижения этой цели необходим семантический язык. Представление значений на этом языке должно содержать их толкования, на основе которых можно адекватно описать все интуитивно ощущаемые семантические связи между различными словами, предложениями, текстами.

Для успешной формализации необходимо мощное средство (формализм), легко работающее с естественным языком, не запутывая и без того сложную его организацию [1]. Такой формализм должен:

• содержать толкования единиц языка - семантический словарь;

• обладать достаточной динамичностью и гибкостью, для формализации такой «живой» субстанции, как естественный язык;

• ограничивать размножение формализации единиц языка.

• уметь выбирать правильный смысл единицы языка, адекватный ситуации, которую она описывает;

В семантическом словаре русского языка каждому из слов языка сопоставлены одна или несколько лексем. Каждая из лексем снабжена собственным обозначением и толкованием. Толкование лексемы определяет ее допустимое множество сущностей (ее значений) в зависимости от состава,

7

вида и значения ее аргументов. Каждое такое описание включает морфологические характеристики, семантический класс, список слов и конструкций, присоединяемых этим словом и описание семантики слова с помощью семантических функций [1].

Например, Класс $1612 Время Интервал времени Дата

ДАТА $1612(!Род)

ДАТИРОВАНИЕ №/о~ДАТА$ 1612(S0>Caus( !Тв ,IncepHab(! Род ДАТА51612(! Ото\!Тв)) ))

ДАТИРОВАТЬ №/о~ДАТ А$ 1612(Caus(! Им, 1псерНаЬ(! Вин ДАТ А$ 1612(! Ото\ !Тв)))) ДАТИРОВАТЬСЯ №/о-ДАТА$1612(Саи.ч(!Тв,1пссрНаЬ(!Им,ДАТА$1612(!Ото\!Тв)))) ДАТИРОВКА №/о~ДАТА$ 1612(S0>Caus(! Тв,1псерНаЬ( !РодДАТА$ 1612(!Ото\!Тв)) ))

ОТ №/<г-ДАТА$ 1612( Y1 >Temp( Y1: ДАТА$ 1612~! Когда\! Род))

ОТО Ы%~ДАТА$ 1612(Y 1 >Temp(Y 1: ДАТА$1612~!Род))

ЧИСЛО $1612(МЕСЯЦ$ 1603~!Род)

ПОСЛЕДНИЙ №/о~ЧИСЛО$ 1612(А1 >Тешр(А1 :ЧИСЛО$1612(ВРЕМЯ$ 16~!Род), КОНЕЦ511103 (МЕСЯЦ$ 1603(! Мах)))) Таким, образом, в настоящее время полное описание слова в

семантическом словаре русского языка содержит следующие элементы:

• морфологические характеристики;

• семантический класс;

• семантико-грамматический тип, порождаемый словом или конструкцией;

• описание моделей управления: слова и конструкции каких типов и классов может присоединять данное слово;

• описание семантики слова в виде формулы: семантика производных слов выражается через базовые с помощью семантических функций.

Для ряда слов некоторые элементы описания отсутствуют (например, описание семантики для базовых слов).

Разделение на семантические классы необходимо для описания моделей управления слова [1]. Для каждого слова существует ряд аргументов, которые оно может присоединять. Один из способов определить эти

аргументы - указать класс, которому должен принадлежать аргумент. Проблема неоднозначности слов решается простым указанием классов.

Например, слова "острый" и "коса" неоднозначны. В синтаксическом словаре для них существуют следующие альтернативы:

ОСТРЫЙ

ОСТРЫЙ $12/01905(20:а> ВЕЩЬ$1213\КЛЫК!124/41,21: !ноДат,22: Юто) ОСТРЫЙ №/о~0002. БОЛЕЗНЬ? 124/2(20: а> БОЛЕЗНЬ! 124/2) ОСТРЫЙ №/<г-0003.ВАЖНОСТЬ$1101631(20:а> ИНФОРМАЦИЯ$13154,г1: !Для,22: !Тв\!вПред)

ОСТРЫЙ №/о~0004. ВОСПРИЯТИЕ! 124/00(20:а> ВОСПРИЯТИЕ! 124/00) ОСТРЫЙ №/о~0005.ДЕЙСТВИЕ$15(20:а> ДЕЙСТВИЕ$15) ОСТРЫЙ №/<г~0006.ДУХ!131(20:а> ДУХШ1) ОСТРЫЙ №/о~0007,ОСТРОТА$13124(20:а> СЛОВО$1441) ОСТРЫЙ Ы%~0008.ПШЦА$124/1 (20:а> ПИЩА$124/1ЮБЕД$15205) ОСТРЫЙ №/о~0009.ШТРЕБНОСТЬ$1303(20:а>ПОТРЕБНОСТЬ$1303) ОСТРЫЙ №/о~0010.СИЛЬНЫЙ$110/13(20:а> ХАРАКТЕРИСТИКА! 12/0) ОСТРЫЙ №/о~0011.ЧУВСТВО!1300(20:а> ЧУВСТВО!1300)

КОСА

КОСА $1213113(21: !Род\!У,22: !Для)

КОСА $122416(20:з> БЕРЕГ!122416,21: !Род,22: !Где)

КОСА !1241/121(21: ЧЕЛОВЕК!1241~!Род\!У)

Однако, словосочетание "острая коса" становится вполне однозначным, поскольку совместимыми оказываются только альтернативы:

ОСТРЫЙ$ 12/01905(ZO:a>BEIHb$ 1213\КЛЫК$ 124/41 ,Z1 :!поДат,г2:!Ото)//001 КОСА $1213113(21: !Род\!У,г2: !Для)//001

В данном случае устранение неоднозначности возможно только за счет использования семантических классов.

Существует два подхода к описанию классов. В первом случае класс определяется набором семантических признаков. При таком подходе класс может даже не указываться явно. Этот подход является более гибким и универсальным, но и значительно более сложным. Для более-менее полного словаря языка (100 - 150 тысяч слов) задание для каждого слова точного набора семантических признаков становится слишком трудоемкой задачей

[1]. В нашей работе выбран другой подход, наиболее простой и эффективный: класс задается номером, отражающим его место в иерархии с одиночным наследованием. Описание таких классов собрано в специальном классификаторе.

При построении классификации мы руководствовались правилами:

• Все элементы класса должны иметь схожие семантические свойства, которые наследуются от другого класса, определяемого как надкласс. Элементы класса должны не только наследовать все семантические свойства надкласса, но могут и иметь свои индивидуальные признаки. Класс, стоящий в корне этой древовидной структуры назвали «нечто». Один или несколько подклассов могут иметь многие классы, но слишком мелкое деление является нецелесообразным.

• Если один элемент какого-либо класса может использоваться как аргумент в некоторой семантической формуле, то и остальные элементы этого класса могут быть аргументами в этой же формуле. То же должно выполняться и для подклассов данного класса, причем обратное не всегда верно.

Каждому из классов присваивается свой идентификационный номер, причем желательно, чтобы по номеру можно было определить надкласс данного класса. Настоящий способ иерархического описания является расширяемым.

Семантический словарь русского языка - мощный инструмент для решения многих вопросов обработки текстов. На основе информации, заключенной в нем, можно построить формальное представление текста с помощью семантического анализатора В. А. Тузова [1,2]. Анализатор решает две проблемы: правильный выбор (как правило, единственной) альтернативы слова и связывание выбранных альтернатив в единую конструкцию.

Проанализированный таким способом текст можно использовать в качестве входного для систем распознавания текстов, информационного

ю

поиска, классификации и рубрикации, синтеза текстов, реферирования и аннотирования, диалога и даже машинного перевода. Перечисленные задачи эффективно решаются для русского языка, и в настоящее время имеются несколько экспериментальных действующих систем.

Для работы с англоязычными текстами и создания эффективных систем их обработки было принято решение построить семантический словарь для английского языка (АЯ). При построении структуры подобной уже существующему семантическому словарю русского языка мы использовали семантический словарь русского языка и электронную версию переводного англо-русского словаря (60 700 словарных статей английского языка) [2]. Слиянием этих двух ресурсов, был построен третий словарь, в котором каждому английскому слову сопоставлены все возможные переводы на русский язык (из переводного словаря), а каждому переводу -семантическая конструкция со всеми необходимыми характеристиками (из семантического словаря русского языка): номером класса, морфологическими признаками, списком присоединяемых аргументов и т. д.

Полученный семантический словарь содержал около 1 млн. строк. Как видно из фрагмента, словарная статья объединяет английское слово или словосочетание, все его возможные русскоязычные переводы, далее набор семантических альтернатив для каждого слова перевода. В этой части статьи находятся лишние альтернативы, порожденные в виду неоднозначности русского языка и невозможности программно отобрать необходимые конструкции [2].

Например,

TAVERN

* таверна кабачок

(1) ТАВЕРНА $123402(!Род) {ж1 364}

(2) КАБА ЧОК Sl22131(!Pod,¡Откуда) {мЗ ЮНО}

(3) КАБАЧОК N%~KABAK$ 123402(Karese(KABAK$ 123402(!Род))) {мЗ 1080}

* бар

и

(4) БАР $123402(!Род) {м1 12}

(5) БАР $142 ¡5/3050 {м1 12}

В этой словарной статье присутствуют лишние альтернативы: (2) определяет растение, а (5) -меру давления. После удаления всех альтернатив, не относящихся к классу $123402 (ФО Поселения Учреждения ТорговляиОбслуживание), получим TAVERN

* таверна кабачок

ТАВЕРНА $123402(!Род) {ж1 364}

КАБАЧОК N%~KABAKS 123402(Karese(KABAK$ 123402(!Род))) {мЗ 1080}

* бар

БАР $123402(!Род) {м1 12}

Такой тщательный анализ был применен ко всему словарю и в настоящее время существует его версия, содержащая 965 803 строки. Созданием этого словаря мы добились одной из наших основных задач: мы отобразили подмножество английских слов (ограниченное количеством словарных статей англо-русского переводного словаря) на множество семантических классов РЯ. Вопрос о соответствии семантической классификации (классов) явлений и предметов для русского и английского языков может показаться спорным из-за различий в культурно-традиционном аспекте. Однако для решения поставленных в исследовании задач семантические классы РЯ могут считаться адекватными и для АЯ.

Во втором разделе главы описываются алгоритмы, разработанные для обработки англоязычных текстов, использующих в качестве входной информации формальное представления текста на естественном языке, формируемое семантическим анализатором на основе семантического словаря [3].

Алгоритм поиска информации в тексте: каждое предложение текста переводится в вектор-предложение, содержащее семантические классы, к которым относится каждое слово предложения. При этом в вектор войдет тот

класс, к которому относится слово именно в этом предложении. Определить эти классы позволяет построенный семантический словарь для английского языка. Слова запроса переводятся в форму вектора-запроса. Далее каждое вектор-предложение и запрос проверяются на совпадение классов. Для задания точности выборки вводится рейтинг предложения - количество совпавших семантических классов. Задавая рейтинг можно получить результат требуемой точности. Такой механизм поиска позволяет отобрать не только те предложения, которые непосредственно содержат слова запроса, но и те, в которых есть близкие по смыслу (относящиеся к одному семантическому классу), что существенно повысит процент адекватности выборки запросу.

Например, при запросе «intention» (намерения, класс $131340) к

следующему тексту:

Не aims to reform the organization. The plane took off to Saint-Petersburg as scheduled. Time had expunged from his memory all recollections of the event. My chief anxiety is to help you. He aspired to a career in medicine. His knowledge of Russian does not extend beyond small talk He chose to stay at home. He was innocent of the crime imputed to him. They are quite decided about it. He was an hour late for the train.

получим выборку:

He aims (планирует) to reform the organization. My chief anxiety (стремление) is to help you. He aspired (мечтал) to a career in medicine. He chose (предпочел) to stay at home. They are quite decided (настроены) about it.

Предложения выборки содержат вхождения слов, которые отражают чьи-либо намерения. Все они относятся к классу $131340 Психика Дух Воля Намерения.

Диалог на уровне, когда на запрос пользователя система реагирует определенным образом, можно реализовать с помощью семантического словаря. Каждое предложение текста, в котором содержатся ответы на наши будущие вопросы, переводится в вектор - цепочку семантических классов,

упорядоченных, например, по возрастанию. Каждый аргумент этого вектора - семантический класс, к которому относится слово данного предложения. Получаемая структура является глубоко информативной. Набор таких векторов можно называть базой знаний. Запрос к базе знаний строится на обычном естественном языке. На следующем этапе запрос приобретает форму вектора из семантических классов, и из текста выбираются все те предложения, в которых произошли совпадения по аргументам (семантическим классам). Чем больше аргументов совпадает, тем больше данное предложение будет удовлетворять нашему запросу. Для того чтобы выбрать наиболее правильный ответ на запрос (отвечающий смыслу), необходимо выбрать те предложения, вектора которых совпали по максимальному количеству позиций с нашим запросом. Для этого мы вводим рейтинг предложений, который вычисляется при проверке каждого вектора предложения на совпадение с вектором запроса. После этого, исследуя рейтинг, легко получаем ответ на наш запрос с высокой степенью точности. Пусть дан текст:

The man was considered to be guilty of the robbery, because he was in the bank when the police arrived. But actually he was innocent of the crime imputed to him. He came to the bank just to get the money from his bank account.

Вопрос: Was the man actually guilty of the crime? ($15, $1241, $110/0508. $131352. $15312)

The man was considered to be guilty of the robbery, because he was in the bank when the police arrived. Рейтинг=2($131352,$15312)

But actually he was innocent of the crime imputed to him. Рейтинг=3 ($110/0508, $131352, $15312) He came to the bank just to get the money from his bank account. Рейтинг=0

Ответ: But actually he was innocent of the crime imputed to him. (слова guilty и innocent будут отнесены к одному классу $131352 Психика Дух Поведение Грех Вина).

Рубрикация на основе семантического словаря способна дать очень высокую точность. Предлагаемая система позволяет осуществлять гибкую

настройку глубины и направления рубрикации в соответствии с требованиями заказчика. Каждое предложение текста преобразуется в набор номеров классов (в обобщенном варианте - каждый текст). Он является средством определения степени близости двух предложений (текстов). Степень близости определяется количеством совпадающих классов: чем больше совпадает классов, тем ближе они по смыслу. Рубрикация строится следующим образом: для каждой пары предложений (текстов) определяем степень близости, далее получаем таблицу из чисел-степеней. Выбираем из нее максимально совпадающие и получаем нижний уровень иерархии рубрикатора. Затем определяем степень близости сгруппированных текстов и до тех пор, пока мы не получим все возможные варианты в виде древовидной структуры. Каждая группа этой структуры представляет собой предложения (тексты) относящиеся к одной тематике. Таким образом, научившись определять степень семантической близости, мы можем реализовать задачу рубрикации с высокой степенью точности.

Поясним алгоритм на примере:

Исходный текст:

The cat sat on the sofa. The dog sat on the sofa. The cat sat on the porch. The dog sat on the porch.

Первый уровень (степень близости =2)

The cat sat (somewhere) $124224117, $154204 The dog sat (somewhere) $124224112, $154204

Второй уровень (степень близости =1)

on the sofa $121343 on the porch $12337 on the sofa $121343 on the porch $12337

или

(someone) sat on the sofa The cat $124224117

$154204, $121343 The dog $124224112

{someone) sat on the porch The cat $124224117

$154204, $1233 7 The dog $124224112

В приложении приводятся таблица соответствий некоторых лингвистических терминов, примеры подходов к формализации естественного языка, классификатор семантических классов, примеры поиска, диалога и рубрицирования, фрагмент словарных статей семантического словаря английского языка.

3. Основные результаты работы

1. Доказана эмпирическим путем возможность адекватного отображения подмножества английских слов на множество семантических классов русского языка.

2. Создан семантический словарь английского языка, где каждому английскому слову сопоставлены все возможные переводы на русский язык, а каждому переводу - семантическая конструкция со следующими характеристиками: номером семантического класса, морфологическими признаками, списком присоединяемых аргументов и т. д. На основе этих атрибутов семантический анализатор способен автоматически построить формальное представление текста.

3. Разработаны методы обработки англоязычных текстов на основе созданного семантического словаря АЯ, в частности, поиска, диалога и рубрицирования.

4. Публикации автора по теме диссертации

[1] Кутарба А.Ю. Семантический словарь для естественного языка. // «Актуальные проблемы науки в России». Материалы Всероссийской научно-практической конференции. Вып.З. Т. 2. — Кузнецк, 2005. — С.228-232.

[2] Кутарба А.Ю. Особенности построения семантического словаря английского языка. Деп. В ВИНИТИ № 1734 от 26.12.2005,12 с.

[3] Кутарба А.Ю. Обработка англоязычных текстов на основе семантического словаря. // Вестник С.-Петерб. ун-та. Сер.1. 2005. Вып.3-4. С.46-53.

Подписано в печать 15.04.2006 Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 1,0. Тираж 100 экз. Заказ № 306

Отпечатано в ООО «Издательство "JIEMA"»

199004, Россия, Санкт-Петербург, В.О., Средний пр., д.24, тел./факс: 323-67-74 e-mail: izd_lema@mail.ru

JûM

»"8 125

Оглавление автор диссертации — кандидата физико-математических наук Кутарба, Анна Юрьевна

Аннотация 2Список сокращений и условных обозначений

Глава 1. Использование естественного языка в компьютерных системах

1.1 Опыт формализации ЕЯ

1.1.1 Универсальный язык Ньютона

1.1.2 Реально-номинальный подход Г. Лейбница

1.1.3 Порождающие грамматики Хомского

1.1.4 Грамматические модели, основанные на ограничениях. Head-Driven Phrase-Structure Grammar(HPSG)

1.1.5 Анализ с помощью падежных фреймов

1.1.6 Система UNL (Universal Networking Language)

1.1.7 «Функциональная» модель естественного языка В.А. Тузова

1.2 Компьютерные системы обработки естественного языка

1.2.1 Информационно-поисковые системы

1.2.2 Системы рубрикации текстов на ЕЯ

1.2.3 Системы диалога

1.3 Поста1ювка задачи построения семантического словаря для обработкианглоязычных текстов

Глава 2. «Функциональный» подход к формализации естественного языка

2.1. Требования к формализации естественного языка

2.2. Подход к формализации естественного языка

2.2.1 Основные положения формализации '

2.2.2 Анализ предложения

2.2.3 База знаний

Глава 3. Особенности построения семантического словаря ЕЯ

3.1. Семантический словарь русского языка

3.1.1 Семантические классы

3.1.2 Семантико-грамматические типы

3.1.3 Поисковая система «Алхимик»

3.2. Семантический словарь для обработки англоязычных текстов

3.2.1 Построение семантического словаря

3.2.2 Системы поиска релевантной информации

3.2.3 Вопросно-ответная система

3.2.4 Рубрикаторы

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Кутарба, Анна Юрьевна

Введение отражает актуальность, целевую установку и задачи исследования, направленность работы на использование в компьютерных системах (КС), конкретизирует прикладное понятие семантики текста на естественном языке.

Глава 1 содержит обзор наиболее известных подходов к формализации естественного языка и опыта использования ЕЯ в компьютерных системах (КС). Приводятся модели понимания ЕЯ и обобщенные структуры лингвистических процессоров, реализующих их. Даются наиболее характерные примеры практического использования языковой информации в КС. Выявляются общие черты, достоинства и недостатки обсуждаемых подходов. Завершается глава указанием наиболее перспективного подхода к формализации ЕЯ, постановкой целей и задач исследования.

Глава 2 содержит описание выбранного подхода к формализации ЕЯ. В первой части главы приводятся общие требования к формализованному представлению ЕЯ, излагаются основополагающие тезисы, лежащие в основе выбранного подхода. Приводится общая структура лингвистического препроцессора. В материале предоставляются ЕЯ примеры, со ссылками на основополагающие тезисы, но не рассматривается их компьютерная реализация.

Глава 3 посвящена применению выбранного подхода формализации ЕЯ к англоязычным текстам. Дается описание процесса построения семантического словаря для английского языка. Приводится структура полученного отображения английских словарных статей на семантический словарь, разработанный профессором факультета Прикладной математики - Процессов управления д.ф.-м.н. Тузовым В.А. В главе содержится описание методов автоматического поиска, диалога и рубрицирования информации в тексте на английском языке.

Заключение содержит выводы по материалам исследования, возможность использования полученных результатов и рекомендации по дальнейшему направлению исследований.

В приложения вынесена часть основных результатов исследования.

Оглавление

Аннотация.2

Список сокращений и условных обозначений.6

Введение.7

Заключение диссертация на тему "Построение семантического словаря для обработки англоязычных текстов"

Заключение

В настоящей работе, посвященной повышению качества использования естественного языка в компьютерных системах, поставленная цель достигнута за счет использования формального представления ЕЯ и разработки методов автоматического поиска, диалога и информации, представленной в ЕЯ виде.

Для достижения поставленной цели решены следующие частные задачи:

1. Выбран метод формализации ЕЯ, допускающий эффективное использование в компьютерных системах.

2. Доказана эмпирическим путем возможность адекватного отображения множества английских слов на множество семантических классов русского языка.

3. Создан семантический словарь для обработки англоязычных текстов.

4. Разработаны методы обработки англоязычных текстов на основе созданного семантического словаря, в частности, поиска, диалога и рубрицирования.

Исследование опиралось на анализ современного опыта и задач естественно-языкового обеспечения КС, информацию о структуре и методах функционирования семантического языка. Общая логика исследования может быть отражена следующим образом.

В настоящее время отсутствует единый взгляд на использование ЕЯ в КС. Это вызвано расхождением большого числа авторов и школ на модели строения и функционирования ЕЯ. Синтез целостной модели функционирования ЕЯ, направленной на использование в КС позволяет формировать общий подход к построению естественно-языкового обеспечения. Формальная модель ЕЯ должна стать надмоделью всех известных моделей и оперировать, как минимум, с информацией на семантическом уровне. Этим требованиям удовлетворяет семантический язык, разработанный профессором факультета Прикладной математики - Процессов управления СПбГУ д.ф.-м.н. Тузо-вым В.А.

Полученный семантический словарь был использован в КС автоматического рубрицирования англоязычных текстов «Гардемарин» (Санкт-Петербург, 2004 г.). К сожалению, данная система является закрытой разработкой служб федерального значения и мы не вправе публиковать более подробную информацию в рамках данной работы.

Использование семантического анализатора ставит любую систему на его основе на уровень выше среди аналогичных. Однако особенности работы анализатора порождают обратно-пропорциональную зависимость: быстродействие - размеры обрабатываемого текста. Анализатор способен обрабатывать текст со скоростью 1,3 Кб в секунду (на компьютере с тактовой частотой 2600 МГц). При столь низком быстродействии и большом количестве информации, которую поставляет анализатор, возникает вопрос о целесообразности его использования для решения реальных задач (поиск в Internet, руб-рицирование электронных библиотек и т.д.). И даже увеличение быстродействия анализатора на два порядка не позволяет однозначно ответить на поставленный вопрос без конкретизации задачи. Поэтому выбор необходимых средств определяется самой задачей и степенью качества ее решения. Семантический анализатор способен извлечь из текста всю информацию, необходимую для сколь угодно точного решения любой из названных выше задач. Но точность решения должна быть соразмерна с затратами на его получение [93].

В ходе исследования был сделан неожиданный вывод: качество работы любой системы обработки текстов проанализированных семантическим анализатором, определяется качеством семантического словаря и не зависит от национальных особенностей языка.

Используя семантические словари можно построить практически любую систему обработки текста, в том числе одну из самых сложных - перевод с одного языка на другой. Большинство современных систем осуществляет пословный перевод, который не является конечным продуктом, передающим смысл предложения или текста. Такой перевод необходимо подвергать дополнительной, как правило, ручной обработке. Система на основе семантического словаря обеспечит корректный перевод с точки зрения семантики, грамматики и стилистики.

Ниже приведен небольшой фрагмент англо-русского переводного словаря. Английские слова с номером $0 указывают на альтернативу-фразеологизм. Русские слова с номером $20 в каждой альтернативе являются ее переводом на русский язык. Падежные формы слов и морфологические характеристики глаголов вычисляются по их семантико-грамматическим связям, которые эксплицируются в процессе анализа.

А {нО-1} ■ . , $711 (!Дат\! Тв) {пО -1} $ 15208(N%~ WALK$0(Copulo 1 (HE4TO$ 1 ~! % 1 ,ПРОГУЛКА$ 15208(! Куда))) [ [ПРОГУЛ КА$20] ]) , $153(Ы%-Сб$0(Сори1о1(НЕЧТО$1~!%1,ДВИЖЕНИЕ$153(!Куда,!поДат)))[[ДВИЖЕНИЕ$20]]) Ы%-НЕОПРЕДЕ Л ЕННЫЙ$ 110/02(Copula 1 (НЕЧТО$ 1 ~!% 1 .НЕОПРЕДЕЛ ЕННЫЙ$ 110/02))

AGO (с0 -1} $15304(Мии(ХОД$15304(НЕЧТО$1~!Род,!поДат\!Черсз,!Откуда,!Куда,!Где[[ХОДЬБА$20]])))

A WALK {с0-1} $ 15208(! Род, !поДат, !Где\!Куда[ [ПРОГУЛКА$20] ])

BAG {с0 -1} $1213142(!Род,!Для\!подВин,!Из-под[[МЕШОК$20]])

BACK {ж0 -1} $ 124/423(ЖИВОЙ$ 124- !Род\!У [[СПИНА$20]])

BROKEN{nO-l}

N%-0001 .Р A3BHT$20(PerfCausa 1 (!Тв,ЬаЬ(ВЕЩЬ$ 1213-!% 1 ,ПОРЧ А$ 15213( !Крат)))) BY

HP -1} И%~0001.РЯДОМ$ 12/ООЮ(Ьосе(#,РЯДОМ$ 12/00 Ш(РЯДОМ$20)))

ПР-1} N%~ @ Где(Ьосу( ЛАНДШ АФТ$ 1224- !Род,#(У $20)))

ПР -1} Ы%~@сТв(Ьосу(ЖИВОЙ$124~!Тв,#(РЯДОМС$20)))

ПР -1} N%~@TB(OperO 1у(ЖИВОЙ$ 124\ЦВИЖЕНИЕ$ 153-!Тв,#))

ПР -1} N%-@MHMo(Oper01y()KHBOft$124-!Pofl,#(MHMO$20)))

ПР -1} N%~ @ поДат(НаЬиу(ЛУ Н А$ 12271-! Дат, ДОРОГА$ 12321 (П0$20)))

ПР -1} Ы%~@поДат(НаЬиу(СООРУЖЕНИЕ\СТРАНА~!Дат,ДОРОГА (П0$20)))

FOOT {с0 -1} $ 124/43(ДВА$ 12001 (НОГА$ 124/43(ОБЪЕКТ:!Род\!У))[[НОГА$20]])

GO {ПК-1}

К%-ДЕЙСТВИЕ$15(Саи5(ЖИВОЙ-!Им,1псерОрег01([[ИДТИ$20]]!Им,ДЕЙСТВИЕ$15-!Куда))) Ы%~ИДТИ$20(Саи5(ЛИНИЯ$ 140031\ДОРОГА$12321\КОРИДОР$123314~!Им,Рипс

ВОЗМОЖНОСТЬ$ 11081 (ХОД$ 15304( !Им,! Где,! по ДатМЧерез,! Откуда, ТЕЛО$12~!Куда))))) N%~ИДTИ$20(Caus(!Им,IncepCopul(!Им,Sing(ЖИBOЙ$124~!OHИ$17@Им)))) Ы%~ИДТИ$20(Саи5(#,1псерЬаЬ(МЕСТО$121~!Им,ДЕЙСТВИЕ$15~!Куда))) Ы%-ИДТИ$20(Саи8(#,1псери5Ог(ДЕНЬГИ$1214~!Им,!наВин)))

К%~ИДТИ$20(Рипс(СОБЫТИЕ$111\ЦЕЙСТВИЕ$15\ОСАДКИ\ВРЕМЯ$16\ ПУТЬ$12321~!Им)) Ы%~ИДТИ$20(ОрегОО(ОДЕЖДА$ 12136- !Им,СООТВЕТСТВИЕ$ 11017(! Дат))) N%~HflTH$20(Oper01 (ЧАСЫ$1213231-!Им,РАБОТА$ 1511 (!Мах))) N%-H#m$20(0per01 (ЬаЬ(ОБЪЕКТ: !Им,НЕЧТО$ 1 ~ !ДееКак\!Как),ХОД$ 15304(#,#,#,#)))

Ы%~ХОД$15304(Саи5(Орег01(ЖИВОЙ$124\МЕСТО$121\ПРИРОДА$122~!Им,ХОД$15304

ИДТИ$20]!Им,ПУТЬ: !поДат\!Через,!Откуда,КУДА:!Куда)),!заТв\!И11фин,ВРЕМЯ: !КакДолго))

HEAD{cO -1} $ 124/41 (ГОЛОВА$ 124/41 (!Род\!У)[[ГОЛОВА$20]])

LIE {ПК-1}

N%-0001 .Л ЕЖАНИЕ$ 12/02211 (OperO 1 (!Им(СКОРЛУ П А$ 124/4~!Тв, !кДат),ЛЕЖАНИЕ$ 12/02211 сТв,ТЕЛО$ 12~ !наПред\!вПред\!Где[[Л ЕЖАТЪ$20] ]))) $12/0221 l(N%~BY$0(Ope г01(!Им(СКОРЛУПА$ 124/4-!Тв,!кДат),Л ЕЖАНИЕ$ 12/02211 сТв,ТЕЛО$12~!наПред\!вПред\!Где[[ЛЕЖАТЬРЯДОМ$20]])))

LONDON {с0 -1} $ 12314000(ЛОНДОН$20)

MAN {МО -1} $ 1241 (!Род(ЧЕЛОВЕК$20))

MOON {сО -1} $ 12271 (!Род(ЛУНА$20))

QUICKLY{HP -1} N%-0001.БЫСТРЫЙ$ 153/01 (Сори1е(#,БЫСТРЫЙ$ 153/01 [БЫСТРО$20]))

ROAD{cO -1} $12321(!Род,!кДат, .'Откуда, !Куда, НЕЧТО$1~!Через(ДОРОГА$20))

SEA {с0 -1} $122422(ПОСЕЛЕНИЕ$123~!Род(МОРЕ$20))

SIT {ПК-1} $ 12/02211 (OperO 1 (!Им( !Тв,! кДат),СИДЕНИЕ$ 12/02211 (!сТв,! наПредМ вПред, !Где[СИДЕТЬ$20]))) $12/0221 l(N%~BY$0(OperOl(!Им,CИДEHИE$12/02211(!cTв,!нaПpeд\!Гдe[CИДETЬPДЦOM$20])))

SWING {ПК-1}

N%~3AKHflbIBATb$20(Caus(Oper01(!MM,БРОСАНИЕ (!Вин,!Откуда)),1псерЕос(!Вин,!Куда))) TABLE{c0 -1} $ 121344(ЧЕЛОВЕК$ 1241\ПОСЕЛ ЕНИЕ$ 123- !Род,! Для(СТОЛ$20))

ТАКЕ{ПК -1}

К%~0001.БРАТЬ$20(1псерНаЬ(!Им,ВЕЩЬ$1213~!Вин)) N%-^0001 .СОВЕРШ АТЬ$20(ОрегО 1 (!Им, ДЕЙСТВИЕ$ 15- !Вип))

THE {пО -1} N%-OnPEДЕЛЕННЫЙ$ 110/02(Copula 1 (НЕЧТО$ 1 -! % 1 ,ОПРЕДЕЛЕННЫЙ$ 110/02» Т0{ПР-1}

N%~ @ Kyfla(Direkty(#,BHy ТРИ$ 12/00203(ПОСЕЛ ЕНИЕ$ 123-! В ин(В$20))) N%-@Kyfla(Direkty(#,MAHETA$1227-!BHii(HA$20))) N%~ @кДат(Шек1у(#,НЕЧТО$ 1\СТЕНА$ 12337- !Дат(К$20))) N%~@Kyaa(Direkty(#,CTIHHA$124/423~!Bmi(3A$20)))

WALK{nP -1}

N%~0001 ,ПРОГУЛКА$ 15208(0per01 (!Им,ПРОГУЛКА$ 15208( !поДат, !Где))[[ГУЛЯТЬ$20]]) N%-0001.ПPOГУЛKA$15208(Oper01(!Им,ПPOГУЛKA$15208(!Mимo,!Гдe))[[ПPOXOДИTЬ$20]])

WALL {с0 -1} $12337(ЧАСТЬ$ 1210/0841(ЗДАНИЕ$1233(!Род,!Ото))[[СТЕНА$20]])

WAS {ПК -1} N%~0008.BbLJIA$20(CopuI( .'Им,!прилТв))

WE {МО -1} $ 1241 (!сТв(МЫ$20))

WITH{nP-l} N%-@TB(Direkty(#,!TB)>

YOU {МО -1} $ 1241 (!сТв(ВЫ$20))

Рисунок 22. Фрагмент англо-русского переводного словаря.

Анализатор, первоначально созданный для анализа русских текстов, используя этот фрагмент словаря, оказался способным строить достаточно точные переводы. Например:

We sit by. Мы сидим рядом.

You go by the road to the man. Вы идете по дороге к человеку.

You go quickly to the wall. Вы идете быстро к стене.

We lie with head to the wall. Мы лежим головой к стене.

You take a go to the wall. Вы совершаете движение к стене.

You take a go to London. You take a go to the moon. You go by the road to the back, we sit by the sea. the road was broken by a go. the road was broken by the man. You walk by the man.

Вы совершаете движение в Лондон. Вы совершаете движение на луну. Вы идете по дороге за спину. Мы сидим у моря. Дорога была разбита движением. Дорога была разбита человеком. Вы проходите мимо человека.

Рисунок 23. Результат применения англо-русского переводного словаря.

Кроме этого, анализ текстов на естественном языке может быть полезен в управление документооборотом, в работе почтовых систем, обучающих программах, автоматизации получения информации из архивов и библиотек и т.д.

Библиография Кутарба, Анна Юрьевна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Автоматический перевод.// Сборник статей. Обзор Кулагина О.С., Мельчук А.И. М.: Прогресс, 1971. С. 45-89.

2. Адамович И.М. Интегрированная технология работы в Web-пространстве Internet.// Авт. дисс.к.т.н. М.: ИПИ РАН, 2000. - 237с.

3. Андриевский А., Дебили Ф., Флюр X, Холал Я. Исследования по лингвистике и автоматическому индексированию.// Взаимодействие с ЭВМ на естественном языке. Сб. научн. трудов под ред. А.С. Нариньяни. -Новосибирск: ВЦ СО АН СССР, 1976. С. 33-67.

4. Андронов Г.Д. Методы автоматической обработки сообщений СМИ// Информационные технологии и интеллектуальные методы. Вып. 2. СПИИРАН. СПб.: ТОО «Издательство Анатолия», 1997. С. 78-90.

5. Англо-русский словарь/ Авт.-сост. Н.В. Адамчик. Мн.: Современный литератор, 2003. - 832 с.

6. Апресян Ю.Д. Избранные труды. Т.1. Лексическая семантика: 2-е изд., испр. и доп. М.: Языки Русской Культуры, «Восточная литература» РАН, 1995. - 400 с.

7. Апресян Ю.Д. Синтаксическая обусловленность значений.// Русский язык в национальной школе, № 6, 1967. С. 3-15.

8. Апресян Ю.Д. Богуславский И.М., Иомдин J1.J1. Лингвистический процессор для сложных информационных систем М.: Н., 1992. - 380 с.

9. Апресян Ю.Д., Цинман Л.Л. Об идеологии системы ЭТАП2.// Формальное представление лингвистической информации. Сб. научных трудов. -Новосибирск: ВЦ СО АН СССР, 1982. С. 21-30.

10. Апресян Ю.Д., Цинман Л.Л. Перефразирование на компьютере// СИИ, № 36, 1998. С. 45-67.

11. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. В 2-х томах. /Пер. с англ. М.: Мир, 1978. - 612 с.

12. Ахо А., Сети Р., Ульман Дж. Компиляторы: принципы, технологии и инструменты./ Пер. с англ. М.: Издательский дом «Вильяме», 2001.-496 с.

13. Большаков И.А. Письмо Президенту АН СССР ак. Александрову А.П.// в. кн. Опыт теории лингвистических моделей «СМЫСЛ <=> ТЕКСТ». -М.: Языки Русской Культуры, 1999.

14. Братчиков И.Л., Филатов С.Я., Цейтин Г.С. О структуре словаря и кодировке информации для машинного перевода.// Материалы по машинному переводу. Л.: ЛГУ, 1968. С. 78-90.

15. Братчиков И.Л. Синтаксис языков программирования. М.: Н., 1976.340 с.

16. Буч Г., Рамбо Д., Джеккобсон А. Язык UML. Руководство пользователя. /Пер. с англ. М.:ДМК, 2000. - 560 с.

17. Бейлин Дж. Краткая история генеративной грамматики. В сб. обзоров: Фундаментальные направления современной американской лингвистики/ Под ред. А.А.Кибрика, И.М.Кобозевой и И.А.Секериной. М.: Изд-во МГУ, 1997.-С. 13-57.

18. Виноград Т. Программа, понимающая естественный язык. /Пер. с англ. -М.: Мир, 1976. 230 с.

19. Вышнин Е.Г Знаковая интерпретация текста.// Семантика и синтаксис текста. Межвузовский сборник научных статей. Куйбышев: КГУ, 1988. С. 45-55.

20. Ганилова Н.К. Предметно-пространственная референция текста.// Семантика и синтаксис текста. Межвузовский сборник научных статей. -Куйбышев: КГУ, 1988. С. 89-101.

21. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М.: Н. Главная редакция физико-математической литературы, 1985. - 345 с.

22. Гладкий А.В., Мельчук А.И. Элементы математической лингвистики. -М.: Н., 1969. 358 с.

23. Денинг В., Эссиг Г., Маас С. Диалоговые системы «Человек-ЭВМ». Адаптация к требованиям пользователя. Пер. Котова Ю.Б., под ред. Мартынюка В.В. М.: Мир, 1984. 112 с.

24. Дягилева А. В., Киселев С. Д., Сомин Н. В. Статистическая модель рубрикации текстов на примере сообщений СМИ. «Дистанционное образование», № 7. 1998. С. 16-21.

25. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000. - N 11. С. 45-78.

26. Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М: Русский Язык, 1987. - 588 с.

27. Каверина О.Н. Типы семантических отношений в лексико-семантическом поле. Балашов: Издательство БГПИ, 1999. - 349 с.

28. Кацнельсон С.Д. Заметки о падежной теории Филлмора.// ВЯ, № 1, 1988. С.157-189.

29. Кашелава В. Поисковые системы для Интернет.// PCWEEK/RE, №10 (84), 1997. С. 88-132.

30. Кашелава В. Поисковые системы.// PCWEEK/RE, № 21 (95), 1997. С. 152189.

31. Квантитативная лингвистика и семантика (КВАЛИСЕМ-99). Новосибирск: НГПУ, 1999. - 487 с.

32. Комаров И.И. Методы автоматического поиска релевантной информации в тексте на естественном языке. Дисс. к.ф.-м.н. СПб., 2003.

33. Комаров И.И. Методика динамического синтеза имитационных моделей для анализа систем распределения информации //Тематический научный сборник Проблемы совершенствования РЭТ ПВО, №6, ДСП, СПб.: СПВУРЭ ПВО, 1998. С. 34-42.

34. Кондратьев А.В, Кривцов А.Н., Лебедев И.С. Анализаторы текстов формальной модели русского языка для компьютера. СПб.: НИИ Химии СПбГУ, 1998.-443 с.

35. Кононенко Р.Н. Разработка методов и алгоритмов мультиагентного по- • иска релевантной информации в информационных средах гипертекстовой организации.// Авт. дисс.к.т.н. Таганрог, ТГУ, 2000.

36. Котов Р.Г., Новиков А.И., Скокан Ю.П. Прикладная лингвистика и информационная технология. М.: Н., 1987. - 423 с.

37. Котов Р.Г. Оптимизация речевого воздействия. М.: Н., 1990. - 276 с.

38. Кривцов А.Н. Проблемы формализации русского языка в процессах управления поисковых, обучающих и естественно-языковых сис-тем./Дис. . к.ф.-м.н. СПб.: СпбГУ, 1998.

39. Крупко Н.А., Цейтин Г.С. Разработка языкового процессора для системы управления.// Взаимодействие с ЭВМ на естественном языке. Сб. научн.трудов под ред. А.С. Нариньяни. Новосибирск: ВЦ СО АН СССР, 1976. С. 125-147.

40. Кузин J1.T. Основы кибернетики: В 2-х т. М.: Энергия, 1979. - 584 с.

41. Лезин Г.В., Тузов В.А. Моделирование текстов. // Информационные технологии в гуманитарных и общественных науках. Вып. 9: Семантико-синтаксический анализ текстов. СПб.: СПб Экономико-математический институт РАН, 2000. С. 45-67.

42. Лейкина Б.М., Никитина Т.М., Откупщикова М.И., Филатов С.Я, Цей-тин Г.С. Система автоматического перевода, разрабатываемая в группе математической лингвистики ВЦ ЛГУ, М.: НТИ № 1, 1966. - 180 с.

43. Лексическая и грамматическая семантика. Белгород: Белгородский ГУ, 1998.-330 с.

44. Лендваи Э. Лексическая семантика русского-языка. Budapest, Nemzeti Tankcnyvkiady Rt. 1998. - 432 с.

45. Леонтьева Н.Н. К теории автоматического понимания естественных текстов. В 2-х частях. М.:Изд-во МГУ, 2000. - 558 с.

46. Логический подход к искусственному интеллекту: от классической логики к логическому программированию./Пер. с фр. Тейз А., Грибмон П., Луи Ж. и др. М.: Мир, 1990. - 462 с.

47. Марселус Д. Программирование экспертных систем на Турбо Прологе. /Пер.с англ. М.: ФиС, 1994. - 375 с.

48. Мартемьянов Ю.С. О форме записей ситуаций.// Машинный перевод и прикладная лингвистика, вып. 8, 1964. 540 с.

49. МедиаЛингва. Программа смыслового (нечеткого) поиска текстовой информации Следопыт 1.0 http://www.medialinqua.ru.

50. Мельчук А.И. Опыт теории лингвистических моделей «СМЫСЛ <=> ТЕКСТ». -М.: Языки Русской Культуры, 1999. 543 с.

51. Минор А.Я. Повторная номинация темпоральных идентификаторов как средство организации текста.// Семантика и синтаксис текста. Межвузовский сборник научных статей. Куйбышев: КГУ, 1988. С. 78-90.

52. Минский Ч. Фреймы для представления знаний. М.: Энергия, 1979. -330 с.

53. Нагое З.В. Модель представления смысла текстовой информации. /Дис. .к.т.н. Нальчик, 2000.

54. Новое в зарубежной лингвистике. Вып. XXIII. Когнитивные аспекты языка: Пер. с англ. /сост., ред., вступ. ст. В.В.Петрова и В.И.Герасимова. -М.: «Прогресс». -1988.- 320 с.

55. Ньютон Исаак. Об универсальном языке (1651).// Семиотика и информатика вып. 35. М.: Языки Русской Культуры, Русские словари, 1997. 280с.

56. Отчет о НИР "Интранет-2" раздел 5, ФВУ ПВО, инв.№ ?!!, СПб, 2003.

57. Отчет о НИР "Синтез" СПВУРЭ ПВО, инв.№ ?!!, СПб, 1998.

58. Плугнян В.А., Рахилина Е.В. Парадоксы. валентностей.// Семиотика и информатика, № 36, 1997, с. 108-120.

59. Попов Э.В. Экспертные системы: Решение неформализованных задач в диалоге с ЭВМ. М.: Н., 1987. - 365 с.

60. Поспелов Д.А. Данные и знания. // В сб. Искусственный интеллект. В 3-х кн. - М.: РиС, 1990. С. 78-90.

61. Поспелов Д.А. Продукционные модели. // В сб. Искусственный интеллект. В 3-х кн. - М.: РиС, 1990. С. 45-97.

62. Поспелов Д.А. Уровни понимания. // В сб. Искусственный интеллект. -В 3-х кн. М.: РиС, 1990. С. 33-78.

63. Прагматические аспекты грамматической и лексической семантики. Тезисы докладов научной конференции. М.: Гос. институт русского языка, 2000. - 132 с.

64. Сайт рабочей группы АОТ http://www.aot.ru/.

65. Семантика. Функционирование. Текст. Киров: Вятский педагогический университет, 1999. - 441 с.

66. Семантика и прагматика текста. Барнаул: Алтайский ГУ, 1998. - 423 с.

67. Семантика и прагматика языка в диалоге культур. Самара: Самарский Университет, 1998. - 465 с.

68. Семантика и синтаксист текста //Межвузовский сборник научных статей. Куйбышев: КГУ, 1988. - 154 с.

69. Семантические единицы русского языка в диахронии и синхронии. -Калининград, КГУ, 2000. 225 с.

70. Синтаксическая семантика: проблемы и перспективы. Орел: Орловский ГУ, 1997. - 264 с.

71. Семантика и функционирование единиц языка и речи. Уфа: Башкирский педагогический институт, 1996. - 276 с.

72. Совпель И.В. Понимание текстов на естественном языке. // В сб. Искусственный интеллект. В 3-х кн. - М.: РиС, 1990. С. 101-124.

73. Современный русский язык. В 3-х томах. /Под. ред. Шубы П.П. -Минск: Плопресс, 1998. -733 с. ■ .

74. Сокирко А.В. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ) Дисс. к.т.н. М., 2001.

75. Сомин Н. В., Соловьева Н. С., Соловьев С. В. Система рубрикации текстовых сообщений. Труды междунар. семинара «Диалог 98» по компьютерной лингвистике и ее приложениям. Т. 2. Под ред. А.С. Нариньяни. Казань: ООО «Хэтер», 1998. С. 574-581.

76. Стил Т., Бельнап Н. Логика вопросов и ответов. Пер. с англ. Г.Е.Крейдлина -М.: «Прогресс». -1981. -288 с.

77. Структурный анализ диалога./ Александров А.А., Арсеньев А.В., Семенов А.И. Л.: АН СССР ЛНИВЦ (препринт) № 80, 1993. -226 с.

78. Татаренцева Е.Н. Секретность. Компетентность и прагматика. //Прагматические аспекты грамматической и лексической семантики. Тезисы докладов научной конференции. М.: Гос. институт русского языка, 2000. -125 с.

79. Тихонов А.Н., Садовничий В.А. и др. Компьютерные технологии в высшем образовании. М: Изд-во МГУ, 1994. -312 с.

80. Тузов В.А. Математическая модель языка. JL, Изд-во ЛГУ, 1984.- 340 с.

81. Тузов В.А. Языки представления знаний. Л., Изд-во ЛГУ, 1990. - 420 с.

82. Тузов В.А. Морфологический анализатор русского языка. //Вестник СПбГУ. Сер.1, 1996, вып.З (№15). С. 46-52.

83. Тузов В.А. Синтаксическая структура русского языка. //Вестник СПбГУ. Сер.1, 1997, вып.1 (№17). С. 15-23.

84. Тузов В.А. Семантический анализ текстов на русском языке. //Вестник СПбГУ. Сер.1, 1998, вып.1 (№21). С. 24-31.

85. Тузов В.А. Семантический анализатор текстов на русском языке. //Информационные технологии в гуманитарных и общественных науках. Вып. 9: Семантико-синтаксический анализ текстов. СПб.: СПб Экономико-математический институт РАН, 2000. С. 44-80.

86. Тузов В. А. Компьютерная семантика русского языка. СПб.: Изд-во С.-Пе-терб. ун-та, 2004. 400 е.

87. Учебный словарь сочетаемости слов русского языка. /Под ред. Денисова Н.П., Морковкина В.В. М.: Русский язык, 1978. - 443 с.

88. Филлмор Ч. Дело о падеже.// В кн.: Новое в зарубежной лнгвистике. Вып. Х.М. Лингвистическая семантика: Прогресс. 1981.

89. Харламов А. Автоматический структурный анализ текстов. «Открытые системы», № 10. 2002.

90. Хейс Давид Г. Методы исследования в области автоматического перевода. //Автоматический перевод. М.: Прогресс, 1971. - 359 с.

91. Хоштариа М.Г. Об одной семантической модели некоторой предикатной группы слов естественного языка.// СИИ, вып. 12, М.: ВНИИТИ, 1979. С. 76-81.

92. Хомский Н., Миллер Дж.А. Конечные модели использования языка. //Кибернетический сборник, новая серия, № 4. М.: Мир, 1967. С. 74-89.

93. Шафиков С.Г. Семантические универсалии в лексике. Уфа: Башк. ГУ, 1996. - 324 с.

94. Шенк Р. Обработка концептуальной информации. -М.: Энергия, 1980. -361 с.

95. Юсупов P.M., Заболотский В.П. Научно-методические основы информатизации. СПб.:Н., 2000. - 267 е.

96. Al-Halimi R. et al. WordNet: An Electronic Lexical Database. The MIT Press,1998.450 p.

97. Boguslavsky I., Frid N., Iomdin L., Kreidlin L., Sagalova I., Sizov V. Creating a Universal Networking Language Module within an Advanced NLP System: http://proling.iitp.ru, 2000.

98. Bobrow D.G. Natural Language Input for a Computer Problem Solving System, Semantic Information Processing, Cambridge, M.I.T., 1968. 321 p.

99. Cohen D. Picture pocessing in a a picture -language machine. Nat. bureau of standards report № 7885, Washington, 1963.

100. Chomsky Noam. Linguistics and cognitive science: Problem and Mysteries. In The Chomsky Turn. Ed /Asa Kasher. Cambridge, Mass.: Basil Blockwell.

101. Chomsky Noam Language and problems of knowledge /(Mass.), 1988. 324 p.

102. Iomdin L. Automatic symantic analysis in the CAT-2 MT system. Saarbrucken: Institut der Angewandten informationsforshung and der Universitat des Saarlandes Working paper № 33.

103. Fillmore Ch. J. The case for case // Universale in linguistic theory. /Ed. By E.Bach and B.Halms, N.Y., 1968.

104. Green P.F. BaseBall: An Automatic Question Answerer, Computers and Thought, New York, Mc-Graw-Hill, 1963. 224 p.

105. Lejbniz Gottfried Whillhem /Opuscules et fragments inedits de Leibniz, 1903.

106. Lehrer A. Semantics and lexical structure. Amsterdam, 1974. - 452 p.Noam Chomsky: Consensus and controversy. /New York, 1988. -217 p.

107. Pollard С., Sag I.A. Head-Driven Phrase-Stracture Grammar.// Center for the Study of Language and Information (CSLI) Lecture Notes. Stanford University Press and University of Chicago Press. -1994.

108. Scott S., Gaizauskas R. QA-LaSIE: A Natural Language Question Answering System // Proceedings of the 14th Biennial Conference of the Canadian Society on Computational Studies of Intelligence.

109. Sleator D. and Temperley D., "Parsing English with a link grammar," Computer Science Dept., Carnegie-Mellon Univ., Pittsburgh, PA, Tech. Rep. CMU-CS-91-196, Oct. 1991. 223 p.

110. Shank Roger C. Conceptual depended a theory of natural language understanding. Cognitive psychology, 1972, Vol.3, № 4. P. 57-89.

111. Symmons R.F. at cet. An Approach Toward Answering English Questions From Text, Proc. Fall Joint Comp Conf., New York, Sparton, 1964. 221 p.

112. Talmy L. Hay language structures space. //Rudzka-Ostin (ed.), 1988. 337 p.1:18. Uchida Hiroshi., Zhu Meiying.,Tarcisio Delia Senta. A Gift for a Millennium.http://www.unl.ias.unu.edu/), 1996.

113. Публикации автора по теме диссертации

114. Кутарба А.Ю. Семантический словарь для естественного языка. // «Актуальные проблемы науки в России». Материалы Всероссийской научно-практической конференции. Вып.З. Т. 2. — Кузнецк, 2005. — С.228-232.

115. Кутарба А.Ю. Особенности построения семантического словаря английского языка. Деп. В ВИНИТИ № 1734 от 26.12.2005, 12 с.

116. Кутарба А.Ю. Обработка англоязычных текстов на основе семантического словаря. // Вестник С.-Петерб. ун-та. Сер. 10. 2005. Вып.3-4. С.46-53.