автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов

кандидата технических наук
Толпегин, Павел Владимирович
город
Москва
год
2008
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов»

Автореферат диссертации по теме "Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов"

На правах рукописи

ТОЛПЕГИН Павел Владимирович

АВТОМАТИЧЕСКОЕ РАЗРЕШЕНИЕ КОРЕФЕРЕНЦИИ МЕСТОИМЕНИЙ ТРЕТЬЕГО ЛИЦА РУССКОЯЗЫЧНЫХ ТЕКСТОВ

Специальность 05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

0 5 ДЕК 2008

Москва - 2008

003456640

Работа выполнена в Вычислительном центре им. A.A. Дородницына Российской академии наук, Отдел математических проблем распознавания и методов комбинаторного анализа

Научный руководитель: доктор физико-математических наук, профессор

Рязанов Владимир Васильевич

Официальные оппоненты:

доктор технических наук Зеленков Юрий Григорьевич

доктор технических наук, профессор Местецкий Леонид Моисеевич

Ведущая организация: Институт системного анализа

Российской академии наук (ИСА РАН)

Защита диссертации состоится 18 декабря 2008 г. в 14 час. на заседании диссертационного совета Д 002.017.02 Вычислительного центра им. A.A. Дородницына Российской академии наук по адресу: 119333, Москва, ул. Вавилова, д. 40.

С диссертацией можно ознакомиться в библиотеке ВЦ РАН.

Автореферат разослан 17 ноября 2008 г.

Ученый секретарь диссертационного совета, д.ф.-м.н., проф.

В.В. Рязанов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Всемерное распространение и совершенствование информационных технологий вызвали мощный импульс к исследованиям в области анализа текстовых данных. При извлечении информации из текста на естественном языке (ЕЯ) важным условием качества понимания является отождествление повторно упоминаемых объектов. Актуальной задачей представляется разработка специализированных моделей распознавания и алгоритмических средств по переводу линейной структуры текста в структуру, отражающую сложные смысловые отношения между объектами Мира.

В представленной работе исследуется одна из центральных проблем автоматической обработки текстов (АОТ) - проблема автоматического разрешения анафорических связей. Предлагаются алгоритмы установления кореферентных связей, приводятся практические результаты для информационно-новостных текстов. Функциональная сторона разрешения анафоры*, как этапа ЕЯ-анализа, заключается в установлении зависимостей между объектами (именными и другими группами), расположенными в простых предложениях (клаузах) на протяжении единицы текста. Указанная проблема исследовалась на больших корпусах ЕЯ-текстов с использованием методов математической теории распознавания.

Работа с корпусами текстов представляется актуальной по ряду причин. Во-первых, в 60 - 90-е гг. XX в. различные виды знаний закладывались в ЭВМ вручную в форме частных правил, при этом не использовались средства их автоматического извлечения из корпусов текста. Во-вторых, достоверные числовые характеристики и показатели от работы с корпусом можно получить, оперируя с большими объёмами текста.

Особый интерес автоматическое разрешение анафорических связей (в частности - кореференции местоимений) представляет при проектировании систем автоматического машинного перевода, информационного поиска и разработке вопросно-ответных систем. Последние могут быть также полезны для расширения смыслового представления текста. Вместе с тем, несмотря на востребованность практических систем автоматического определения кореферентных связей, развитых разработок для русского языка в настоящее время не существует. На этом фоне, однако, продолжают совершенствоваться зарубежные разработки текстового анализа.

Учитывая изложенное, компьютерная обработка русскоязычного текста, осуществляющая автоматическое определение кореферентных связей между анафором (далее в нашем случае - местоимением третьего лица) и стоящим ранее по тексту неким объектом Мира (антецедентом), представляется актуальной задачей.

Теоретической и методологической основой исследования послужили труды отечественных и зарубежных ученых в

* использование выразительных свойств языка, которые могут быть корректно проинтерпретированы только в контексте (с учётом предшествующего фрагмента текста)

области математической и прикладной лингвистики, машинного перевода Н.Д. Арутюновой, Т.В. Булыгиной, Дж. Гандел, A.A. Кибрика, JI.H. Иорданской, Дж. Николе, Е.В. Падучевой, Е.В. Рахилиной, A.C. Чехова, А.Д. Шмелева, М.И. Откупщиковой, Р.В. Миткова, В.Г. Гака, И.А. Муравьевой, О.Ю. Богуславской, Ю.С. Мартемьянова, A.B. Гулыги, Е.М. Вольф, З.М. Шаляпиной, И.И. Ревзина, работы в области машинного обучения и распознавания образов Ю.И. Журавлева, В.Л. Матросова, К.В. Рудакова, В.В. Рязанова, О.В. Сенько, исследования специалистов в области искусственного интеллекта и автоматической обработки текстов Д.А. Поспелова, Г.С. Осипова, В.Ф. Хорошевского, Ю.Г. Зеленкова, А.Н. Аверкина, А.И. Эрлиха и др.

Цель и задачи исследования

Цель исследования - разработка подхода автоматического определения кореферентных связей для русского языка, основанного на анализе корпусов текстов с использованием методов теории распознавания.

Для достижения поставленной цели были решены следующие задачи исследования:

- систематизация формальных средств выражений анафорических связей и зависимостей для местоимений третьего лица;

- выделение и формализация признаков, влияющих на референциальный выбор;

- разработка методов и алгоритмов формирования новых признаков по неразмеченным корпусам текстов без привлечения средств семантики, логики и знаний о Мире;

-разработка алгоритмов и программ, основанных на подходах и методах теории распознавания, обеспечивающих автоматическое определение кореферентных связей между анафором и антецедентом.

-создание экспериментальной программной среды для аккумуляции статистической информации о референциальном выборе реального антецедента для местоимения третьего лица;

- создание корпуса русскоязычных ЕЯ-текстов, размеченных экспертом на предмет кореферентных связей между анафором и антецедентом, а также размеченных автоматически морфологическими, синтаксическими и первично-семантическими анализаторами;

- разрешение задачи установления кореферентных связей для информационно-новостных текстов, оценка влияния каждого из факторов на корректность определения кореферентных связей при принятии решения о референциальном выборе и поиск минимальных признаковых подпространств.

Объект исследования - сфера автоматического определения кореферентных связей, а также факторы и признаки, влияющие на этот процесс, их анализ при помощи методов машинного обучения.

Предмет исследования - методы и алгоритмы, формирующие признаковое пространство при определении кореферентных связей; свойства

признаков, генерируемых упомянутыми, методами и алгоритмами; модели распознавания кореферентных связей.

Материалами исследования послужили тексты электронных новостных изданий. Общий объём автоматически проанализированных текстов составил более 140 Мбайт.

Научная новизна. Современная деловая проза (в т.ч. информационно-новостные и др. тексты) русского языка не изучались до настоящего времени на предмет выявления закономерностей в референциальном выборе местоимений третьего лица при помощи методов машинного обучения и распознавания образов. В работе впервые применены подходы к изучению закономерностей кореферентных связей с применением методов машинного обучения и распознавания образов. Разработаны и апробированы новые методы и алгоритмы, «компенсирующие» нехватку семантических знаний, знаний «о Мире» и логических правил из неразмеченных корпусов текстов, новые алгоритмы синтеза корпусных признаков, а также предложены новые модели распознавания кореферентных связей.

Теоретическая значимость исследования заключается в разработке подхода для автоматического разрешения анафорических связей, создании методов синтеза корпусных признаков и моделей распознавания кореференции.

Практическая значимость состоит в использовании разработанных алгоритмов определения кореферентных связей при разрешении анафоры в задачах машинного перевода, автоматического реферирования текстов, извлечения информации в поисковых и диалоговых системах и других автоматических системах искусственного интеллекта в части АОТ.

На защиту выносятся следующие положения:

1. методы анализа неразмеченных корпусных ресурсов (источников большого объёма ЕЯ-текстов) и результаты их применения в задаче разрешения кореференции местоимений;

2. алгоритмы по расширению признакового пространства в задаче разрешения кореференции русскоязычных текстов:

- алгоритм вычисления оценок степени встречаемости одушевлённости для валентностей русскоязычных глаголов;

- алгоритм синтаксической деривации;

- алгоритм определения конфликтующих антецедентов;

- алгоритмы по формированию корпусных оценок степени встречаемости гипотетического антецедента и глагольной группы, управляющей анафором;

3. алгоритм некореферентности анафора с гипотетическим антецедентом и алгоритм некореферентности местоимений;

4. результаты анализа признаков при установлении кореферентных связей и минимальные подпространства признаков;

5. модели распознавания для разрешения анафоры местоимений третьего лица в русскоязычных текстах;

6. реализация моделей распознавания в виде программной среды, обеспечивающей дружественный интерфейс для работы эксперта по разметке текстов на предмет анафорических связей и автоматическую аккумуляцию признаков;

7. модель подготовки и обработки размеченных ЕЯ-текстов с целью выявления закономерностей и значимых систем признаков;

8. результаты испытания модели на размеченном корпусе информационно-новостных текстов (свыше 2000 фрагментов текстов объёмом, превышающим 3 Мбайт).

Апробация. Основные научные выводы и результаты исследования докладывались и обсуждались на:

(1) международной конференции «Диалог 2006» - Компьютерная лингвистика и интеллектуальные технологии (Бекасово, 31 мая - 4 июня

2006 г.);

(2) 10-ой национальной конференции по искусственному интеллекту с международным участием КИИ-06 (Обнинск, 25-28 сентября 2006 г.);

(3) научно-технической конференции «Информационные технологии в бизнесе» (Москва, ГУ ВШЭ, 2006);

(4) международной конференции «Диалог 2007» - Компьютерная лингвистика и интеллектуальные технологии (Бекасово, 30 мая - 3 июня

2007 г.);

(5) 7-ой международной конференции «Информационное общество, интеллектуальная обработка информации, информационные технологии», 24-26 октября 2007 г. НТИ-2007. (Москва, ВИНИТИ РАН).

Публикации. По теме диссертации опубликовано 18 работ, общим объёмом 197 стр. Из них2 -в издании из списка, рекомендуемых ВАК Минобрнауки России - журнал «Информационные технологии» (№№ 8,9,2006 г.).

Составляющие_диссертационной_работы

поддержаны:

(1) конкурсом ведущих научных школ «НШ-5833.2006.1» 2006 г.: «Развитие фундаментальных математических основ и алгоритмического аппарата для решения сложных задач интеллектуального анализа данных, распознавания и прогнозирования» (исполнитель проекта);

(2)научной стипендией ООО «Яндекс» 2004-2005гг.: «Разработка, создание и внедрение процедуры апостериорной оценки качества поиска на основе поведения пользователей» (рук. проекта);

(3) грантом РФФИ № 06-06-80464-а 2006 г.: «Разработка и реализация методов семантического и прагматического анализов ЕЯ-текстов русского языка» (рук. проекта);

(4)научной стипендией ООО «Яндекс» 2006-2007 гг.: «Формирование нечётких мер для валентностей русскоязычных глаголов» (рук. проекта).

' б

Структура работы. Диссертация состоит из введения, четырёх глав и заключения. Основной текст изложен на 179 стр. при общем объёме 241 стр., включая 3 приложения и библиографию из 181 наименования.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы её цели и задачи, описаны методы исследования.

В первой главе («Задача референцнального анализа и методы решения») приводится обзор современного состояния в данной области, описание существующих подходов и методов решения задачи разрешения анафоры, обоснование целесообразности разработки методов её решения на базе теории распознавания с использованием корпусных средств.

Вводится понятие первично-семантического графа, который строится автоматически для каждого отдельного предложения на этапе первичного семантического анализа [Сокирко, 2005]. Первично-семантический граф G -это ориентированное дерево, вершиной которого является глагольная группа (root), узлами которого являются члены предложения, а ребрами - валентные связи. Рассматривались следующие основные свойства узлов графа G: w¡.morpho - морфологические характеристики (кроме одушевлённости); w¡.inf - начальная форма; w¡.anim - одушевлённость; w¡.top - управляющий узел. Понятие первично-семантического графа прдеставляется базовым во многих задачах АОТ.

Рассматривается задача референциального анализа - построение когнитивной карты дискурса (абзаца, смысловой единицы текста). Разрешение анафорических связей (связи местоимения с расположенными до него по тексту объектами Мира) считается главным этапом при построении когнитивной карты и при семантическом связывании серии предложений.

Вводится перечень видов знаний, применяемых для разрешения местоименной анафоры (морфологические, синтаксические, семантические, знания дискурса, знания о Мире).

В [Аопе и Bennett, 1995, 1996] предложена идея разрешения анафоры с использованием алгоритмов распознавания образов - MLR (Machine learning resolver). Задача выявления кореферентной связи между заданным анафорой Анф и некоторым FAj при известном списке конкурирующих гипотетических антецедентов ГА\, ГА2,..., PAj решалась в два этапа. Сначала происходило распознавание наличия кореферентной связи между анафорой и каждым отдельным ГА,, г=1,2,... ,1, с помощью решающего дерева (алгоритм С4.5 [Quinlan, 1993]) по признаковым описаниям соответствующих пар <Анф,ГА;>. Далее применялись эвристические логические правила для выбора реального антецедента. В случае если пара <Анф, ГА,> является кореферентной, решающее дерево возвращает тип анафорической связи, Обучение осуществлялось только для тех местоимений, которые были идентифицированы программой автоматически. Корпус для обучения содержал 1971 анафор, 1359 из которых были идентифицированы

программой. Точность работы системы (доля правильно определённых кореферентных связей) составила от 83,49 до 88,55%.

Система RESOLVE [McCarthy и Lehnert, 1995] также использовала алгоритм С4.5 - решающие деревья. Вектор признаков, применяемый при обучении, формировался в отдельности для кореферентных и некореферентных пар <Анф, ГА{>. Выборка состояла из 322 объектов первого класса (кореферентные пары) и 908 объектов второго класса (некореферентные пары). Признаки содержали информацию о референции к имени собственному, о дублирующих референциях к одной и той же именной группе, метрические признаки (осуществляется ли кореференция к ГА, находящемуся в том же предложении, что и рассматриваемый Анф). Корпусные признаки и признаки одушевлённости не использовались. Точность работы системы составила 85,8%.

Подходы [Soon, Ng, Lim, 1999] и [Soon и др., 2001], основанные на алгоритмах С4.5 и С5, соответственно, дополнительно использовали определение семантических классов слов и их групп на основе словаря WordNet. Вектор признаков строился для пар <Анф, ГА,> и включал метрические показатели, признак согласованности в роде и числе, семантический класс, показатель имени собственного. Точность составила 68%.

В рамках настоящей работы были проведены эксперименты по разрешению анафоры для русскоязычных текстов, когда для описания объектов распознавания (соответствующих пар <Анф, ГАр>) использовались 14 базовых признаков: метрика, морфология, упрощённый синтаксис, упрощённая семантика и др. Точность распознавания с применением различных подходов на тестовой выборке составила около 62%. Анализ ошибочных контекстов показал, что величина ошибки в обучении преимущественно зависит от выразительных средств языка, которые не подчиняются правилам, отражённым в данной системе признаков. Делается вывод о необходимости расширять систему признаков, привлекая новые источники статистической информации (корпусные данные), и совершенствовать модели распознавания с целью повышения точности разрешения анафоры.

Во второй главе («Вычисление признаков в задаче установления кореферентных связей») приводится описание методов генерации новых признаков с применением корпусно-ориентированных средств и алгоритмов поиска оптимальных признаковых подпространств. Это позволяет расширить исходное признаковое пространство за счёт анализа корпусов текстов и частично компенсировать нехватку данных, относящихся к компетенции логики, семантики, знаний о Мире. Отсутствие комплексных семантических и онтологических ресурсов продиктовало необходимость в использовании корпуса текста большого объёма, размеченного синтаксическими связями, в качестве источника дополнительной информации. В основу подхода по формированию корпусных признаков положена идея оценки степени встречаемости глагольной группы и гипотетического антецедента в

синтаксически размеченном корпусе [Ido Dagan и Alón Itai, 1990,1991]. Предлагается вычислять численные оценки степени встречаемости глагольной группы, управляющей анафором, попарно с каждым из гипотетических антецедентов, используя неразмеченные корпуса текстов большого объёма, а также оценки степени одушевлённости валентностей русскоязычных глаголов (корпусные признаки), признак конфликтности антецедентов.

Иллюстрация корпусного признака:

В автомобиль? Иван? встроил блокиратор? коробки переключения передач. Теперь его сложно угнать.

По данным поиска шаблона «ГАр+«ГГ» в имеющемся неразмеченном корпусе текстов «угнать автомобиль» встречается в 124 раза чаще, чем <<угнать блокиратор». А «угнать Ивана» - в 43 раза реже, чем «угнать автомобиль». Соответствующие частоты используются для вычисления серии корпусных признаков.

Вычисление признаков в задаче установления кореферентных связей с использованием корпусных средств

(1) Корпусные признаки основаны на оценке степени встречаемости глагольной группы (ГГ), управляющей анафором, попарно с каждым из гипотетических антецедентов (ГА,) в неразмеченном корпусе текстов. Были предложены следующие корпусные признаки, реализующие идею сочетаемости ГГ и ГА,-:

корпусный признак №1. Степень сочетаемости ГГ и rA¡ с предлогом на расстоянии до t слов, в прямом или обратном порядке, без ограничений на морфологию;

корпусный признак №2. Степень сочетаемости ГГ и rA¡ с предлогом контактно, в прямом или обратном порядке, rAt находится в падеже анафора;

корпусный признак №3. Степень сочетаемости ГГ и rA¡ контактно в прямом или обратном порядке с уточняющим (присвязочным) словом.

(2) Признаки, характеризующие «степень одушевлённости» валентностей русскоязычных глаголов. Существуют контексты, референциальный выбор в которых требует наличия информации о степени одушевлённости у исследуемого глагола в заданной валентности.

Пример 1. Контекст, требующий знаний одушевлённости Маша купила ШШШУ,- Она её любит.

Предложен метод по автоматическому извлечению знаний об одушевлённости из корпусов неразмеченных текстов в целях формирования признаков степени одушевлённости.

Метод предполагает первичную обработку входных текстов процессором «Диалинг» с расширенным семантическим интерфейсом.

Например, для предложения «Фёдор вышел на террасу» анализатор возвращает следующую структуру:

№ предложения; № узла; w¡; w¡.inf,\vi.morpho+Wi.anirrf, № управляющего узла; valk

1;0; ФЕДОР;ФЕДОР;С,имя,од,мр,им,ед,;1;SUB;

1;1; ВЫШЕЛ;ВЫЙТИ;Г,дет,нп,св,прш,мр,ед,;ROOT;;

1;2;НА ТЕРРАСУ;ТЕРРАСА;С,но,жр,вн,ед,;1;TRG-PNT;

Для каждого идентифицированного глагола у, (v;. morpho =ГЛАГОЛ) устанавливаются подчинённые ему существительные {w,: Sval^vj, w,)} путём обхода первично-семантического графа как ориентированного дерева. Для каждого w¡ определяются морфологические характеристики, в частности -морфологическая одушевлённость. Таким образом, раздельный подсчёт числа одушевлённых (од) и неодушевлённых (но) w¡ для рассматриваемого входного условия {vj, valk} или {vf, vak, w,.morpho} позволяет сформировать оценки степени одушевлённости и алгоритмы их вычисления.

Оценка степени встречаемости неодушевлённости для глагола в рамках заданной валентности:

w,.anim ="но"|

Mi(vj,vah)= v~4 . ' „ .„i v=r¡-;-; т где суммирование по i:

2j\wramm - od' \ + 2_\wramm ~ tio \ J v

i I

val(Vj,w:) = valk, v,)Jop = vy.

Оценка степени встречаемости неодушевлённости для глагола в рамках заданных валентности и морфологических характеристик:

~Y_\wranim ="но" |

Mi(v„valk,Wj.morpho) = =r-. ' „ .„, v,-:-5—3 , где

2_\wramm = odj + 2_l\wl.amm но | i . суммирование по г: val(vJ,wl) = valk, wltop = vJ, {w¡.morpho -Vj.morpho).

Оценка степени встречаемости, показывающая насколько типично существование подчинённых прецедентов в той или иной валентности с определёнными морфологическими характеристиками у заданного глагола по сравнению с другими морфологическими характеристиками того же глагола и той же валентности:

^ | w, .morpho = Vj .morpho^

М2 (V;, valk, Vj .morpho) = —-^ morpho\-' ГДе сУммиРование по

i

i: valivj, w,) = val y, w, íop = vy.

Значения оценок степени одушевлённости //.(v^va/J , >íj(v,,valk,wj.morpho) и ft,(v,,valk,w¡.morpho) используются для расширенного признакового пространства в качестве числовых признаков с индексами BJ61, ВК62, BL63. На базе указанных числовых признаков формировались бинарные признаки (BY76, BZ77, СА78): значение признака устанавливалось равным «1» в случае достижения признаком максимального значения среди

антецедентов для рассматриваемого анафора, и равным «О» - в противном случае.

Для ранее приведённого контекста, местоимения она и её находятся в разных валентных зависимостях от глагола любить: SUB и CONTEN соответственно. Оценка степени одушевлённости /л, для этого глагола и валентности SUB составляет 70%, а для валентности CONTEN - 39%. Данный признак является важным для установления кореферентности следующих пар: она и Маша, её и машина.

В процессе практической реализации метода «начитано» 80 Мбайт ЕЯ-текстов, по которым автоматически сформирован словарь, содержащий глаголы с оценкой одушевлённости.

(3) Разработан алгоритм определения конфликтующих антецедентов, позволяющий формировать отдельный признак в объективно неоднозначных контекстах.

Пример 2. Омонимия выбора из конфликтующих антецедентов

Сложно понять логику? организации? речи?, которая1 нарушена у многих пациентов с поражением левого полушария.

Три антецедента: логика, организация и речь считаются конфликтующими.

Узлы W] и н>2 семантического графа G являются конфликтующими и значение признака CJ87 для каждого узла устанавливается равным «1», если выполнены следующие условия:

1. W\.morpho=W2.morpho - у рассматриваемых узлов совпадают род и число, и, таким образом, они могут одновременно выступать в качестве кандидатов для кореференции;

2. \v\.morpho=W2.morpho=CYü\,

3. 3 valk(W],w2) - между узлами существует связь.

При невыполнении хотя бы одного из условий значений признака CJ87 устанавливается равным «0».

Определение числа гипотетических антецедентов

При определении числа антецедентов, являющихся кандидатами при разрешении кореференции для заданного анафора, применялись следующие критерии их отбора.

(1) Два узла w2 и w3 ориентированного дерева G являются соподчинёнными, если 3 valx{w\, w2) и 3 valy(w\, w3). Для участия в референциальном выборе допускаются существительные, совпадающее в роде и числе с анафором, не соподчинённые рассматриваемому анафору, а также причастия или прилагательные, совпадающее в роде и числе с анафором, не имеющие зависимых существительных (напр., отдыхающие).

Областью поиска кандидатов для кореференции являются q предложений, стоящих ранее по тексту и предложение, в котором расположен анафор. Считается, что для каждого местоимения существует антецедент и он единственный.

(2) Применяется ограничительный признак наличия некореферентной связи анафора с гипотетическим антецедентом. Известно, что гипотетический антецедент и анафорическое выражение (кроме возвратного местоимения) не могут быть кореферентны, если они являются соподчинёнными.

(3)Признак наличия некореферентности местоимений: два местоимения не могут быть кореферентны, если они являются

Нахождение оптимального признакового пространства

В настоящей работе задача установления кореференции сводится к стандартным задачам распознавания. Пусть задано множество Л/={£} объектов 5. Известно, что М является объединением непересекающихся

подмножеств £,,/ = 1,/, называемых классами: = 0. Дана

начальная информация /0 о разбиении на классы в виде обучающей выборки

.........5 е К,,¡ = 1,1, то=0, т{=т. Считаем, что заданы признаковые описания

/(5() = (х|(5,),х2(6'().....*„(£,)) , /(Я) объектов 5,. , $ с помощью набора п

числовых признаков, характеризующих различные свойства объектов. Требуется ответить на вопрос: Яе К1 ?= 1,/.

Совокупность векторов-строк описаний объектов из обучающего множества Мо может быть записана в виде таблицы Ттп1, называемой стандартной таблицей обучения, где т - число объектов обучающего множества, п - размерность признакового пространства, / - число классов.

Важной компонентой обучения является нахождение минимальных признаковых подпространств, сохраняющих достигнутую точность распознавания для исходного признакового пространства. В работе были исследованы различные подходы для нахождения указанных подпространств для задач с двумя классами.

(а) поиск признакового подпространства на базе метода достоверных статистических разбиений

Производится оценка индивидуальной способности каждого из признаков по разделению объектов двух классов выборки Б\н1 , заданной в виде таблицы ТШ1 . Оценка производилась с использованием метода оптимальных статистически достоверных разбиений

[Журавлев, Рязанов, Сенько, 2006]. Для каждого признака X находится такая пороговая точка, которая наилучшим образом разделяет объекты классов К\ и К2 на выборке ,■„,• . Для оценки степени разделения используется функционал ^=[(V, - V,1 )2 щ + (V, - V,2 )2 т2 ] / V, (1 - V,), где И - доля объектов класса К\ в

V,1- доля объектов класса К\ в подмножестве Б1 т1 с Х<5\ V,2 - доля объектов класса К\ в подмножестве с /И] - число объектов с Х<5; «2- число объектов с Х> д.

Для каждого признака с помощью перестановочного теста и метода оптимальных разбиений оценивается статистическая значимость различий в распределениях объектов классов К\ и К2. Пусть требуется оценить статистическую значимость некоторой закономерности с пороговым значением 8'™ и оптимальным (максимальным) значением Г™ функционала F. Генерируется множество из М) случайных выборок {5,',...,, совпадающих по числу объектов с В каждой из выборок

осуществляется случайная перестановка меток классов. Для полученной выборки Б',г ищется оптимальное пороговое значение Зор1 вместе с оптимальным значением Рср! функционала К Данные вычисления повторяются N0 раз.

В качестве меры статистической значимости закономерности (р-значения) принимается доля выборок из для которых Рор1 > .

(б) выделение значимых признаков на основе тупиковых тестов

Использовались результаты работы стохастического варианта метода «Голосование по тупиковым тестам». В качестве входных данных используются выходные параметры тупиковых тестов случайных подтаблиц таблицы Ттп\. веса и номера признаков. Пусть проведена серия из N1 расчетов на обучающей выборке 5 ,„,.

Определение степени значимости признаков X, и их ранжирование проводится по формуле:

ЩХ,) = -^-+ У ' , где

" N % IV ' д

Ы- общее число вхождений признака в тупиковые тесты единичной длины;

IV- число признаков, участвующих в данном тупиковом тесте для тестов неединичной длины;

V- общее число вхождений признака в тупиковые тесты неединичной длины; \ук'(Х,), - веса тупиковых тестов.

(в) оптимизация признакового пространства на основе логических корреляций

При минимизации признакового пространства используются логические закономерности классов, найденные по обучающей выборке. Пусть N(iJ) -число одновременных вхождений признаков Xh Xj в одну закономерность по множеству логических закономерностей Р, найденных по данным обучения.

Величина LogCorr(iJ) = 1—. -называется логической корреляцией

ram{N(f),N(j))

признаков Xi и Xj.

Рассматривается задача нахождения кластеров признаков, для которых входящие в них признаки обладают близкими корреляционными свойствами. В качестве меры корреляционной близости рассматривается критерий, основанный на полуметрике:

r(i,j) = fi\logCorr(i,l)-LogCorrU,l)\ + W- 2) х (1 - LogCorrQJ))

1-4*1 j

В качестве алгоритма кластеризации для заданной полуметрики r(ij) и фиксированного числа кластеров используется иерархическая группировка, в которой расстояние между кластерами определялось согласно функции:

г{Кр,Кя)= тах (/•(;,;))

После нахождения 1 ¿t<,n кластеров в сокращенную подсистему признаков включаются наиболее информативные признаки, по одному из каждого кластера. Таким образом находятся подсистемы из ( наиболее информативных и некоррелированных признаков.

В третьей главе («Модели распознавания нереферентной связи») приводится постановка общей задачи для определения кореферентной связи между анафором и антецедентом, модель MB распознавания кореференции, а также модель DSE распознавания кореференции.

Постановка общей задачи для определения кореферентной связи между анафором и антецедентом, модель MB распознавания кореференции

Общая задача определения кореферентной связи между анафором и антецедентом состоит в следующем. Задан некоторый дискурс и в нём выделено местоимение третьего лица. Необходимо определить кореферентную связь анафора с одним из гипотетических антецедентов, стоящих ранее по тексту. Сведем данную задачу к решению задач распознавания по прецедентам, в которых исходная информация задается анализаторами, обрабатывающими размеченные и неразмеченные тексты.

Пусть некоторому анафору Анф соответствует совокупность гипотетических антецедентов ГА\, ГА2,..., ГА/, один из которых является

истинным (УАнфЭГА, :соге/(Анф ,ГА,) = 1, / е 1...../, V/ * /,соге/(Анф,ГАу) = 0 ). В

качестве объектов S будем рассматривать совокупности <Анф, ГА\, ГАг.....

ГАр> (S ~ <Анф, ГА и ГА2.....ГА/>). Пусть паре <Анф, ГА,> соответствует

признаковое описание х(Анф, ГА,) = (с\{Анф, ;), с2(Анф, /), •••» сп(Анф, /)), с,(Анф, г) - значение признака номер t относительно пары <Анф, ГА^>. Признаковым описанием /(5) объекта 5 будем считать вектор строку 1(8)=(х(Анф, ГА\), х{Анф, ГА2),... ,х(Анф, ГА!)) размерности их/. В качестве множества М рассматриваем множество всех совокупностей 8=<Анф, ГА\, ГА2,... ,ГА{>, допустимых в русском языке. Разбиение на классы определяется реальным антецедентом соответствующего анафора.

Пусть задан некоторый размеченный корпус текстов. Выделяется множество всех анафоров и соответствующих им антецедентов, т.е.

находятся множества совокупностей М,={8-<Анф, ГАь ГА2..... ГА1>},

¡=1,2,...,Ь. Признаковые описания объектов множества М/ и образуют таблицу обучения | ы ; для задачи распознавания с / классами. По данным

обучающим таблицам строятся стандартные алгоритмы распознавания А/ с 1 классами, /=2,3,...,1.

Пример 3. Схема референциального выбора для трёх кандидатов

..., стиль?.....Паустовский?....,талант?,... он\ .... /=3

Вектор признаков для примера 3 в таблице из второго класса:

г

класс = II

Анф=он, Л4з=стиль

34 признака

Анф=оп, /Мг=Паустовский

94 признака

Анф- он, Л41=талант

94 признака

Пусть задан некоторый анафор Анф. Определяется соответствующее ему число / гипотетических антецедентов. Кореферентная связь анафора с одним из них устанавливается в результате решения задачи распознавания алгоритмом А/. Данную модель распознавания кореференции обозначим МВ (общая модель).

Модель ОБЕ распознавания кореференции

В главе также описана модель распознавания кореференции, основанная на решении специальной дихотомической задачи распознавания

в пространстве признаковых описаний /(,!?,) = (*, (Я, ),д;2 (Я,).....*„(£,)) и задач

распознавания в пространстве оценок (модель ОБЕ).

В качестве множества М={£} допустимых объектов 5 возьмем допустимые наборы <Анф, ГА,>, где Л4,- - произвольный гипотетический антецедент для анафора Анф. Первый класс К\ образуют наборы, в которых ГА, - реальный антецедент, г-1,2,...,! (АГ]={5'}: согеДАнф, ГА!)= 1), К2 = М\К\). Признаковым описанием Б является х(Анф, ГА/) = (с\(Анф, г), с2(Анф, /),..., сп(Анф, г)).

Три вектора признаков для примера 3:

Анф=он, ГАз=стиль -> класс = 11

Анф-он, Л42=Паустовский ✓ класс = 1

Анф=он, Л4,=талант класс = 11

- 94 признака ,- выСорэкспврш

Таким образом, совокупности таблиц 7|м|пх/^>' = 2>3.....можно

I

поставить в соответствие таблицу Г,, и2. где /я* = £|м,|хг (для простоты будем обозначать далее данную информацию как /0). При этом число

представителей первого класса в таблице Тт„п2 равно . Задачу

' ' /.1

отнесения 5 по начальной информации 7т, п2 к одному из двух классов обозначим как задача Ъа. Отнесение £ в один из классов соответствует ответу на вопрос, имеется или нет кореференция анафора с соответствующим ГА. Данный ответ не может считаться окончательным, поскольку в задаче Ъ0 рассматривается вопрос связи анафора с каждым из ГА независимо друг от друга. Таким образом, после решения задачи 20 требуется разработка уточнённого алгоритма кореференции, учитывающего информацию о кореференции анафора с группой ГА в дискурсе.

Пусть построен некоторый стандартный алгоритм распознавания А=Вхг для решения задачи г0 , где Я - распознающий оператор, г -решающее правило. 1{(10,х(Анф,ГА,)) = (а1\а12) , где а,1,а,2 - оценки, вычисляемые распознающим оператором за первый и второй классы, соответственно.

Сформулируем новую задачу распознавания г, * . Множество допустимых объектов М* = {5*} формируется по результатам применения распознающего оператора к признаковым описаниям х(Анф, ГА\), х(Анф, ГА2),..., х(Анф, ГА!) (где / - число ГА некоторого Анф), соответствующих всем ГА анафоров Анф - числовые векторы-строки

/(^■ЯМоДяДвЛв,2.....а/,а,2). Тогда М* = (]М,, М,(>Г, =0,/,/ = 1,2,...,и*].

1-2

Здесь М] - совокупность объектов 5* = (й1',а12,а21,а22.....яДа,2). Разбиение на

классы множеств М] задается порядковыми номерами реальных антецедентов, соответствующих исходному для 5* элементу 5 =<Анф, ГА\, ГА2,..., ГА,>. Задачу распознавания объектов из М' обозначим как 1'а* а соответствующую начальную (обучающую информацию) как 1'й * . Алгоритмы решения задачи Ъ[ * обозначим А* и будем искать их в виде стандартных распознающих алгоритмов Рассматривались два

варианта их построения.

1. Алгоритмы решения задач с решающим правилом максимума оценок:

Л*г ¡1 * с\— 1 „1 „к „*/„! а1 > >./ = 1>2,...,/,7

Со ¿ГЩ ,а2 ),г,аг.....а, )-•I '

[О, иначе

2. Алгоритмы решения задач Ц* как стандартные алгоритмы распознавания в пространствах оценок (а* ,а2г.....о/,о,3).

В данном случае для заданной задачи г'0 * рассматриваются стандартные методы построения распознающих операторов и решающих правил для различных базисных моделей: алгоритмы вычисления оценок, голосование по тупиковым тестам, метод опорных векторов и др.

Анф=он, Л4з=стиль Анф=он, Л42=Паустовский Анф=он, ГИ1=талант

1 У 1 ■> - .. 1 2 -

В четвертой главе («Программный комплекс распознавания кореферентных связей и результаты практических применений»)

приводится технологическая карта программного комплекса распознавания кореферентных связей, результаты практических применений моделей распознавания кореференции МВ и ББЕ и результаты поиска оптимального признакового пространства.

Для решения задачи распознавания был создан программный комплекс распознавания кореферентных связей, включающий программы подготовки и обработки ЕЯ-текстов, сервисные и вспомогательные программы, программную систему распознавания по прецедентам «РАСПОЗНАВАНИЕ». Программы созданы в соответствии с общей алгоритмической моделью подготовки и обработки ЕЯ-текстов. Модель направлена на нахождение статистических данных, описывающих процесс референциального выбора, и влияющих факторов в целях дальнейшего применения ММРО (Схема, с.20).

На базе новостных лент двух информационных агентств сформировано две обучающие выборки (2167 объект класса К] и 11238 объектов класса К2) и (127 объектов класса К\ и 1239 объектов класса К2), где классы определяются согласно модели БвЕ.

При формировании обучающих выборок использовалось д=2 - число предложений, в которых производится отбор гипотетических антецедентов.

Для обучения использовалась подмножество объектов С помощью генератора случайных чисел выборка 51,„,- была разбита на две подвыборки:

- обучающую выборку по 1000 объектов из К\ и К2\

- контрольную выборку ^ сопт включающую не вошедшие в о ¡г объекты ¿"'щ (1186 объектов из класса К\ и 10219 объектов из класса К2).

Для распознавания выбирались 11, 42, 61 и 84 лучших признаков по функционалу Г.

Для решения задачи распознавания использовались методы, вошедшие в систему интеллектуального анализа данных «РАСПОЗНАВАНИЕ» [Журавлев, Рязанов, Сенько, 2006]:

- метод g-ближайших соседей, версия алгоритма с поиском оптимального числа ближайших соседей по обучающей выборке в режиме скользящего контроля;

- линейный дискриминант Фишера;

- линейная машина;

-метод ABO (алгоритмы вычисления оценок), вариант метода с голосованием по всевозможным опорным множествам;

-метод опорных векторов (SVM), вариант метода с гауссианой размера 6,0 в качестве потенциальной функции;

- логические закономерности;

-статистически взвешенные синдромы (СВС), «быстрый» вариант метода с разбиениями интервалов допустимых значений признаков одной точкой и без дополнительного отбора признаков.

Определение кореферентного антецедента в модели МВ

В таблице 1 приведены результаты распознавания в модели МВ, где в качестве стандартного алгоритма распознавания A¡ использовался метод опорных векторов. Табл. 1.

обучающая выборка --- точность распознавания, % число объектов число признаков задачи

Мг 84,2 i 292 74,1.......7 352 ~ 188

М, 282

М4 63,5 307 376

М5 51,6 250 470

мй 55,5 232 564

М1 49,5 186 658

Совокупная точность распознавания: 64,95%

Учитывая наличие 168 объектов, для которых в качестве альтернативы был всего лишь один кандидат, совокупная точность алгоритма референциального выбора, построенного на базе модели распознавания, составила 68,24%. Представляется, что малая точность распознавания обусловлена большим числом признаков, увеличивающимся с ростом числа гипотетических антецедентов, а также сравнительно малым числом объектов в каждой из выборок.

Определение кореферентного антецедента в модели ОБЕ

В табл. 2 приведены результаты распознавания контрольных выборок Лм/г и ^¡щ алгоритмами решения задач Х'а* с решающим правилом максимума оценок. Столбцы (1)-распознавание связей для пар (Анфх, ГА,) по модели Б8Е (таблица ). Столбцы (2) - оценки результата работы

решающего правила по числу верно установленных кореферентных связей в дискурсе для анафора по модели ББЕ (стандартный распознающий алгоритм А с решающим правилом максимума оценки).

Табл. 2. Точность распознавания модели с правилом максимума оценок

метод распознавание объектов из выборки S\ontr (1), % (2), % распознавание объектов из выборки ^ % (2) 0/о

БУМ 79,9 : 78,2 74,8 77,9

свс 79,8 ! 68,0 78,1 60,6

Линейная машина 81,5 79,8 72,2 70,9

Результаты решения задач г'0 * с применением стандартных алгоритмов распознавания в пространствах оценок представлены в таблице 3, где приводится точность обучения и распознавания таблиц методом опорных векторов.

Табл. 3. Точность распознавания задач * методом опорных векторов

точность число

число

задача ¡ число классов задачи распознавания, объектов признаков

% задачи

zo* í 1=2 \ 92,0 292 4

1=3 86,2 352 6

К* 1=4 82,4 307 8

zí* ■ 1=5 79,6 250 10

К*! 1=6 73,0 232 12

А* | 1=1. 66,0 186 14

í Совокупная точность распознавания: 81,29%

о

х

о

Н о X

я о а о <-1 к л п> о я я

SC

я

43

о J3

я о ia

-I

о

4

0 ю я

5

я

43

S

3

а н я Я

S to

1

н «

о

4 о ш

1. Обеспечивает

добавление признаков одушевленности (ВО 51. ВК 62, В1_ 63);

2. Описана в разделе: Алгоритм составления нечетких оценок валентностей русскоязычных глаголов.

3. Автор: П.В Толлегин

1. Обеспечивает добавление дополнительных признаков синтаксиса (СЕ 82-СР.93), к Z Источник: ООО «Яндекс»

/ База данных: Д / «Нечеткие оценки / I валентностей ^ русскоязычных \

Дополнительные признаки синтаксиса

7

С#*надстройка

1. Обеспечивает добавление корпусных признаков (Т. 19, АТ.45, AU.46, AV.47. BG.58, ВН.59, BN.65, ВР 67 и другие), характеризующих встречаемость ГГ и ГА в большом корпусе неразмеченных текстов:

2. Источник: ООО «Яндетеж,

3. Объем: более 20 Тбайт

ЕЯ-текст

Модуль Диалинг [АОТ]

txt-файл

1. Обеспечивает добавление признаков морфологии, синтаксиса, первичной семантики; формирует два файла (csv, tut);

2. Авторы: AB Сокирко и др.

! 1. Обеспечивает : обработку вводимого пользователем текста, >! корректировку I статистических данных, получаемых из модуля Диалинг:

2. Автор: П В.Толпегин;

3. Язык: С#

1. Функция. На основе csv-и txt-файпов, а также информации из других источников строит html-файл для каждого дискурса в целях последующей разметки экспертом-лингвистом;

2. Автор. П.В. Толпегин

3. Язык: Perl

1. Содержит визуальное представление местоимений и кандидатов для референции, а такж< признаковое описание прецедентов,

2. Формат: хшМ11т1

1. Обеспечивает

указание

экспертом-

лингвистом

реального

антецедента для

каждого

местоимений в

специальной

программной

среде (СО 81)

1. Используется

для анализа

методами

распознавания

Учитывая наличие 168 объектов, для которых в качестве альтернативы был всего лишь один кандидат, который выбирался исходя из условий построения системы, совокупная точность алгоритма референциального выбора, построенной на базе модели распознавания, составила 83,05%. Результаты решения задач Z'0* с применением метода опорных векторов в пространствах оценок показало большую точность (83,05%), чем решающее правило максимума оценок (79,8%).

Найдены оптимальные признаковые подпространства при использовании методов достоверных статистических разбиений, тупиковых тестов и логических корреляций. Оценки точности распознавания для различных признаковых подпространств приведены на рис.1. Следует отметить, что в оптимальные признаковые подпространства входила значительная часть корпусных признаков (ВН59, BG58, СВ79 и другие), подпространства, полученные с помощью различных подходов, имели существенное пересечение.

На рис.1 приводится оценка точности распознавания в скользящем контроле S\r - подвыборки обучающей выборки S\ni, содержащей в каждом классе по 1000 случайным образом выбранных объектов.

75 •- < . .....- -г -

1 4 7 1013161922252831343740434649525558616467707376798285

число признаков

Рис. 1. Эффективность выбора оптимального признакового пространства

82

t Достоверные стат. разбиения

■ Логические корреляции

—»—на основе тупиковых тестов

Исследованы изменения в точности распознавания выборки Б\г при ранжировании числа признаков тремя различными способами: на базе метода достоверных статистических разбиений, на основе тупиковых тестов, на основе логических корреляций. Результаты расчетов показали предпочтительность применения метода достоверных статистических разбиений, использование оптимальных признаковых подпространств из 2025 признаков практически не снижало точность распознавания.

В заключении сформулированы основные теоретические и практические результаты, полученные в ходе работы над диссертацией.

Семантика остается в центре внимания для современных задач прикладной и математической лингвистики, в частности - в задаче автоматического разрешения местоименной анафоры. В связи с труднодоступностью полноценных семантических словарей и иных ресурсов, в исследовании задействованы неразмеченные корпуса текстов больших объёмов, а также методы и алгоритмы по извлечению специфичной статистической информации в целях её использования в качестве системы признаков в задаче машинного обучения.

На предмет установления кореферентных связей между анафором (местоимением) и антецедентом (существительным, причастием и проч.) вручную размечен информационно-новостной корпус (2186 дискурсов), на порядок превышающий объёмы текстов, на которых проводились опыты отечественными и зарубежными разработчиками.

Серия экспериментов по анализу сформированной статистической выборки показала точность в 83,05% (модель ББЕ, распознавание в пространстве оценок) и 77,9% (модель ББЕ, с решающим правилом максимума оценок) на независимых тестовых выборках, что приблизительно на 20% выше, чем аналогичный результат, полученный без использования новых введённых признаков.

По итогам анализа контекстов причина ошибок в точности обусловлена:

(1) ошибкой анализаторов в снятии морфологической и синтаксической омонимии - 9,45%;

(2) недостатком статистических данных, получаемых теориями фокуса и центрирования - 2,7%;

(3) другими ошибками - 4,8%.

Полнота (отношение числа анафорических местоимений третьего лица, для которых экспертом было успешно проведено связывание с реальным антецедентом, к общему числу анафорических местоимений третьего лица) составила 79,2% на тестовой выборке. Соответственно, 20,8% ошибок полноты работы системы вызваны:

(^накапливающейся ошибкой в снятии омонимии, используемыми анализаторами. Так, например, «Полевой», являясь реальным антецедентом, определялся не как имя собственное мужского рода, а как прилагательное женского рода. Следовательно, в рассматриваемом дискурсе невозможно

было осуществить связывание анафора и антецедента. При анализе таких местоимений как его, их и др., которые имеют морфологическую омонимию, гипотетические антецеденты выбирались в соответствии с родом (и числом), идентифицированным анализатором, что также влияло на полноту - 16,45%;

(2) ограничением в ц~2 предложения - как область поиска антецедента, т.е. реальный антецедент мог существенно предшествовать анафору по тексту - 2,8%;

(3) ошибками иного рода - 1,55%.

Если на начальном опыте при анализе процента ошибок точности (38%) на обучающей выборке отмечалось влияние выразительных средств языка, то анализ значимости новых признаков показал, что введённые корпусные признаки занимают места с номерами 4, 5, 9, 10, 13, 16, 28, 33 в перечне из 94 позиций, ранжированном по убыванию функционала качества. Именно эти признаки, как выявил контекстный анализ, большей частью компенсируют нехватку семантики, логики и знаний о Мире, что является новым в развитии рассматриваемой проблемы.

Признаки, связанные с одушевлённостью, занимают менее высокие позиции: 14, 57, 68, 73. Симптоматично, что не столь высокая эффективность признаков одушевлённости как у корпусных признаков объясняется не таким частым появлением контекстов, в которых одушевлённость играет решающую роль. Гипотетические антецеденты могут быть одинаково одушевлённым или неодушевлёнными, однако после применения вышеуказанных признаков остается более одного антецедента «прогнозируемой» одушевлённости.

Вместе с тем, если корпусные признаки «строились» на объёме текста порядка 20 Тбайт, то оценки степени одушевлённости - на тексте около 80 Мбайт по причине значительной вычислительной сложности эксперимента. Различия в объёмах входных данных при построении мер оказали влияние на их полноту. При создании обучающей выборки три оценки одушевлённости «отказались» возвратить значение за отсутствием таковой в 15,8; 16,5 и 16,5% случаев, т.е. полнота мер №№ 1-3 составила 84,2; 83,5 и 83,5% соответственно.

Алгоритмы анализа, обеспечивающие формирование показателей фокуса и центра, не оценивались в силу незначительной полноты их применения. Функционирование указанных алгоритмов определяется точностью синтаксического анализатора, поэтому число случаев их применимости и безошибочного определения зависимых слов, оказались ощутимо малыми.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Разработаны общая модель распознавания кореференции (МВ) и модель распознавания кореференции, основанная на решении специальной дихотомической задачи распознавания в пространстве признаковых описаний и задач распознавания оценок (ОБЕ). Полнота и точность модели ОБЕ составили 79,2% и 83,05% соответственно.

2. Предложены и программно реализованы алгоритмы, формирующие расширенное признаковое пространство в задаче разрешения местоименной анафоры третьего лица для русскоязычных текстов:

а. алгоритм составления оценок степени встречаемости одушевлённости для валентностей русскоязычных глаголов;

б. алгоритм синтаксической деривации;

в. алгоритм определения конфликтующих антецедентов;

г. алгоритм некореферентности анафора с гипотетическим антецедентом;

д. алгоритм некореферентности местоимений;

е. алгоритмы по формированию корпусных оценок встречаемости гипотетического антецедента и глагольной группы, управляющей анафором.

3. Методами математического обучения исследована эффективность корпусных признаков (оценок встречаемости гипотетического антецедента и глагольной группы, управляющей анафором) при принятии решения референциального выбора.

4. Тремя подходами получены результаты анализа признаковых систем и информативные системы признаков, исследованы системы признаков и информативных подмножеств признаков.

5. Создан комплекс программ для ЭВМ, обеспечивающих предобработку ЕЯ-текстов и вычисление значений признаков.

Список публикаций по теме диссертации

1. Толпегин П.В. Информационно-поисковая система своими руками. XXIX Международная молодежная научная конференция «Гагаринские чтения», т. 5, М.: ИЦ«МАТИ», 2003, с. 16-17

2. Толпегин П.В. Словоформы Русского Языка для Информационно-Поисковой Системы. Свидетельство Роспатента о регистрации базы данных № 2003620059,2003

3. Толпегин П.В. Программа искусственной генерации словоформ английского языка. Свидетельство Роспатента о регистрации программы для ЭВМ №2003610875,2003

4. Толпегии П.В. Программа искусственной генерации словоформ русского языка. Свидетельство Роспатента о регистрации программы для ЭВМ № 2003610874,2003

5. Толпегин П.В. Программа поиска и восстановления словоформ по базе данных. Свидетельство Роспатента о регистрации программы для ЭВМ№2003610871,2003

6. Толпегин П.В. Текстовый поиск по сходству. XXX Международная молодежная научная конференция «Гагаринские чтения», т. 5., М.: ИЦ «МАТИ», 2004, с. 62-63

7. Толпегин П.В. Технологические приемы построения текстовых информационно-поисковых систем. М.: Издательский центр «МАТИ», 2004, с. 1- 73

8. Толпегин П.В. Агентно-ориет ированный подход к построению корпоративных систем безопасности с применением методов классификации и распознавания. XXXI Международная молодежная научная конференция «Гагаринские чтения», т. 4., М.: ИЦ «МАТИ», 2005, с. 38-39

9. Толпегин П.В. Машинное обучение в референциалыюм анализе русских естественно-языковых текстов. Международная молодежная научная конференция XXXII «Гагаринские чтения», т. 4., М.: «МАТИ», 2006, с. 4849

10. Толпегин П.В., Ветров Д.П., Кропотов Д.А. Алгоритм автоматизированного разрешения анафоры местоимений третьего лица на основе методов машинного обучения. Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая -4 июня 2006 г.) / Под ред. Н.И. Лауфер, A.C. Нариньяни, В.П. Селегея. - М.: Изд-во РГГУ, 2006,648 е.: ил. с. 504-507

11. Толпегин П.В. Информационные технологии анализа русских естественно-языковых текстов. Часть I. II Информационные технологии. - 2006. - №8. - С. 41-50

12. Толпегин П.В. Информационные технологии анализа русских естественно-языковых текстов. Часть II. // Информационные технологии. - 2006. - №9. - С. 2-7

13. Толпегин П.В., Ветров Д.П., Кропотов Д.А. Прагматический анализ с применением подходов к автоматизированному созданию онтологической базы данных. Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-06 (25-28 сентября 2006 г., Обнинск): Труды конференции. В 3-т. Т.2. - М.: Физматлит, 2006, с. 498 - 505

14. Толпегин П.В. Новые методы и алгоритмы автоматического разрешения референции местоимений третьего лица русскоязычных текстов. М.: КомКнига, 2006, - 88 с.

15. Толпегин П.В. Автоматизированная межклаузная референция в задаче когнитивного анализа текстов. Информационные технологии в бизнесе: Тезисы докладов научно-технической конференции студентов, аспирантов и молодых специалистов. - М.: Государственный университет - Высшая школа экономики. 2006, с. 115-118

16. Толпегин П.В. Роль корпусных ресурсов поисковых систем в формировании признакового пространства для разрешения местоименной анафоры. Материалы 7-ой международной конференции Информационное общество, интеллектуальная обработка информации, информационные технологии. 24-26 октября 2007 г. НТИ-2007 М.: ВИНИТИ РАН, с. 314-317

17. Толпегин П.В. Формирование нечетких мер валентностей русскоязычных глаголов. Отчет конкурса «Интернет-математика» ООО «Яндекс», 2007, [Электрон, документ]. (http://download.yandex.ruAMAT2007/tolpegin.pdf)

18. Толпегин П.В. Разработка и реализация методов семантического и прагматического анализов ЕЯ-текстов русского языка (грант № 06-06-80464-а). ВЦ РАН. Москва. Информационный бюллетень РФФИ №14. М.: Наука, 2007

Напечатано с готового оригинал-макета

Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. Подписано к печати 17.1 Í.2008 г. Формат 60x90 1/16. Усл.печ.л. 1,5. Тираж 100 экз. Заказ 670. Тел. 939-3890. Тел./факс 939-3891. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М,В. Ломоносова, 2-й учебный корпус, 627 к.

Оглавление автор диссертации — кандидата технических наук Толпегин, Павел Владимирович

Аппарат сокращений, терминов и понятий.

ВВЕДЕНИЕ.

ГЛАВА 1. ЗАДАЧА РЕФЕРЕНЦИАЛЫЮГО АНАЛИЗА И МЕТОДЫ

РЕШЕНИЯ.

1.1. Первично-семантический граф.

1.2: Вопросы референциального анализа.

1.3. Классификация видов межклаузной кореференции.

1.3.1. Вид №1. Кореференция на основе местоимений.

1.3.2. Вид №2. Синонимия отдельных слов, именных групп и более сложных конструкций.

1.3.3. Вид №3. Меронимические, родовые и видовые отношения.

1.3.4. Вид №4. Логико-интуиционистские нечеткие правила.

1.3:5. Вид №5. На основе метафорического переноса.

1.4. Знания, используемые дляразрешения местоименной анафоры.

1.4.1. Морфологические и лексические знания.

1.4.2. Синтаксические знания.

1.4.3. Семантические знания.

1.4.4. Знания дискурса.

1.4.5. Знания о Мире.

Г. 5. Этапы разрешения местоименной анафорьь.

1.5.1. Идентификация анафорических местоимений.

1.5.2. Идентификация анафорических именных групп.

1.5.3. Центрирование.

1.5.4. Соподчинённостъ.

1.6. Обзор существующих исследований и решений. Работы 60-х, 70-х и 80-х гг.

1.6.1. SHRDLU.

1.6.2. LUNAR.

1.6.3. Алгоритм Дж. Хоббса.

1.6.4. BFP-алгоритм:.

1.6.5. " Упрощенный подход Картера.

1.6.6. Распределенная архитектура Рич и ЛуперФой.

1.6.7. Стратегический подход Карбонелл и Браун.

1.6.8. Другие работы.

1.7. Корпусно-ориентированные подходы 90-х годов.

1.7.1. Подход, основанный на сочетаелюсти шаблонных компонентов.

1.7.2. Алгоритм Шалом Лапшин и Герберт Лисс.

1.7.3. Сравнение с другими подходами.

1.7.4. Подход Кеннеди и Богураев.

1.7.5. Национальные практические решения по разрешению анафоры.

1.7.6. Машинное обучение в задаче разрешения анафоры.

1.8. Автоматическое разрешение кореференции для стандартного набора признаков.

1.8.1. Технология решения.

1.8.2. Признаковое пространство.

1.8.3. Структура решающего правила.

1.8.4. Алгоритм разрешения анафоры.

1.8.5. Результаты.

1.9. ВЫВОДЫ.

ГЛАВА 2. ВЫЧИСЛЕНИЕ ПРИЗНАКОВ В ЗАДАЧЕ УСТАНОВЛЕНИЯ КОРЕФЕРЕНТНЫХ СВЯЗЕЙ.

2.1. Структура решения.

2.2. Разрешение референции для расширенного признакового пространства

2.3. Структура решения.

2.4. Технологические аспекты разработанных алгоритмов по формированию расширенного признакового пространства.

2.4.1. Расширение набора частей речи, способных выступать в качестве гипотетического антецедента.

2.4.2. Порядок слов запроса при поиске в неразмеченном корпусе.

2.4.3. Способ определения глагольной группы, управляющей анафором.

2.4.4. Специфика притяжательных местоимений.

2.4.5. Роль уточняющего (присвязочного) слова при корпусном поиске.

2.5. Алгоритмы и методы формирования расширенного признакового пространства.

2.5.1. Алгоритм составления оценок степени одушевлённости для валентностей русскоязычных глаголов.

2.5.2. Алгоритм синтаксической деривации для способа 2.4.3•.

2.5.3. Алгоритм определения конфликтующих антецедентов.

2.5.4. Алгоритм некореферентности анафора с гипотетическим антецедентом.

2.5.5. Алгоритм некореферентности местоимений.

2.5.6. Алгоритм построения гипотез сочетаемости глагольной группы н гипотетического антецедента.

2.6. Разрешение кореференции для расширенного признакового пространства.

2.6.1. Определение числа гипотетических антецедентов.

2.6.2. Нахождение оптимального признакового пространства.

ГЛАВА 3. МОДЕЛИ РАСПОЗНАВАНИЯ КОРЕФЕРЕНТНОЙ СВЯЗИ

3.1. Признаковое пространство задачи.

3.2. Постановка общей задачи для определения кореферентной связи между анафором и антецедентом.

3.3. модель MB распознавания кореференции.

3.4. Модель DSE распознавания кореференции.

ГЛАВА 4. ПРОГРАММНЫЙ КОМПЛЕКС РАСПОЗНАВАНИЯ

КОРЕФЕРЕНТНЫХ СВЯЗЕЙ И РЕЗУЛЬТАТЫ ПРАКТИЧЕСКИХ ПРИМЕНЕНИЙ.

4.1. Методы и показатели распознавания.

4.2. Определение кореферентного антецедента в модели MB.

4.3. Программная среда установления кореферентных связей и аккумуляции статистических данных.

4.4. Определение кореферентного антецедента в модели DSE.

4.5. Параметры анализируемых текстов.

4.6. Влияние разрешения кореференции в разрешении морфологической неоднозначности.

4.7. Расширенная постановка задачи.

4.7.1. Описание задачи.

4.7.2. Подходы к решению.

ГЛАВА 5. ВЫВОДЫ.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Толпегин, Павел Владимирович

г

Автоматическое разрешение анафорических (кореферентных) связей в естественно-языковых (ЕЯ) текстах находится в фокусе внимания исследователей и является одной из центральных проблем в автоматической обработке текстов (АОТ).

Описывая некоторый объект, многообразие его связей и отношений с другими объектами, говорящий (или пишущий) вынужден неоднократно прибегать к упоминанию в тексте имени одного и того же объекта. Это обстоятельство обусловлено линейной структурой текста. При извлечении информации из текста, написанного на естественном языке, одной из важнейших лингвистических проблем является отождествление объектов, повторно упомянутых в тексте [Ильин и др., 1969]. Актуальным является перевод линейной структуры текста в структуру, содержащую сложные смысловые отношения между объектами Мира. Установлению таких отношений (отношений тождества, или отношений кореференции) на примере местоимений третьего лица и посвящено настоящее исследование.

Разрешение анафоры — установление анафорических связей, является одной из центральных проблем в задаче автоматического синтаксического анализа г русскоязычных ЕЯ-текстов. Функциональная сторона разрешения анафоры, как этапа ЕЯ-анализа, заключается в установлении зависимостей между объектами (именными и другими группами), упоминаемыми в простых предложениях г клаузах) на протяжении целого дискурса. г

В представленной работе исследуется проблема разрешения анафоры с использованием больших корпусов текстов и методов математической теории распознавания.

Работа с корпусами текстов представляется актуальной по ряду причин. Во-первых, в 60 - 90-е гг. XX в. семантические и иные виды знаний закладывались в ЭВМ вручную в форме частных правил, что не гарантировало их объективность, репрезентативность, полноту и точность. Во-вторых, получить достоверные числовые характеристики и показатели от работы с корпусом можно, оперируя с большими объёмами текста (более 10 Тбайт). Эффективная работа с текстами указанного объёма стала возможной за последнее время благодаря развитию компьютерной техники, поисковых технологий и доступности больших объёмов текстовых данных в сети Интернет.

Особый интерес автоматическое разрешение анафорических связей (в частности - кореференции местоимений) представляет при проектировании систем автоматического машинного перевода, информационного поиска и разработке вопросно-ответных систем. Последние могут быть также полезны для расширения смыслового представления текста (например, в модели «Смысл <-> Текст» [Мельчук, 1974], а также в модуле первичного семантического анализа [Сокирко, 2005]). Вместе с тем, несмотря на востребованность практических систем автоматического определения кореферентных связей, известных развитых разработок для русского языка в настоящее время не существует. На этом фоне, однако, продолжают совершенствоваться зарубежные разработки анализа национальных текстов.

Учитывая изложенное, компьютерная обработка русскоязычного текста, осуществляющая автоматическое определение кореферентных связей между местоимением (анафором, в нашем случае - местоимением третьего лица) и г стоящим ранее по тексту неким объектом Мира (антецедентом), представляется актуальной задачей. г

Согласно [Дикарева, 1987], анафора представляет собой явление, при котором смысл одного элемента текста (линейно вторичного) определяется смыслом другого элемента того же текста (линейно первичного, антецедента). Анафорической функцией могут обладать особые разряды местоимений и другие текстовые средства - повторы, синонимы, перифразы, а также нулевой анафорический знак - эллипсис.

Так, в примере: «Вот на берег выйти гостьЦарь Салтан зовет шс, в гости» (А. Пушкин) анафорическая связь «гости-их» реализует отношение г кореферентности, т.е. тождества лиц, обозначенных анафором (зд. — местоимением) и его антецедентом.

В последнее время становятся популярными работы на научной базе Г. Хирста, Ш. Лаппина, Р. Миткова, М. Поэсио и др. по созданию ЕЯ-корпусов для западноевропейских языков, размеченных на предмет референции. К сожалению, Национальный корпус русского языка [НКРЯ] не имеет на сегодняшний момент анафорической разметки.

Помимо задачи создания размеченного на предмет референциальных связей корпуса, более сложной и нетривиальной представляется задача выделения признаков, влияющих на референциальный анализ. Вместе с тем, большую роль играют программные средства, позволяющие с высокой степенью точности автоматически определять параметры ЕЯ-текста в* рамках определенных признаков.

Можно выделить следующие сложившиеся подходы, применяющиеся для решения как задачи референциального анализа, так и смежных задач.

1. Подход, основанный на системе правил. Правила задают условие и решение (по референциальному выбору). Приоритет правил устанавливается в зависимости от заданных коэффициентов. Как и правила, так и коэффициенты (в ряде систем - штрафные очки) задаются экспертом вручную. Подход применим для адекватно простых задач. С обратной стороны, заданные вручную правила могут не отвечать требованиям полноты и могут не покрывать полное пространство возникающих случаев. Ручное введение оценочных и штрафных значений нередко создает коллизии даже тогда, когда правила работают верно.

2. Современные методы машинного обучения [Журавлев и др., 2006] позволяют получать обученные модели вместе с показателями их репрезентативности и эффективности. Для этого требуется сформировать обучающую выборку, в которую войдут статистические данные по признакам и установленный экспертом правильный ответ (номер класса). Исследование может оказаться малоэффективным, если статистические данные формируются не автоматически. Данный подход является наиболее универсальным, но для получения корректных результатов требуется кропотливая подготовка экспериментальной статистики, ручная работа эксперта по указанию правильного ответа для каждого объекта обучения и особого профессионального опыта работы с различными методами машинного обучения. г

З.п-грамм является известным подходом, получил большую огласку в связи с выпуском в продажу международной поисковой компанией Google 6 DVD-дисков с пентаграммами для английского языка в августе 2006 года. Подход n-грамм может быть использован как отдельно, так и совместно с подходами, упомянутыми выше.

К исследованиям в области математической и прикладной лингвистики с помощью n-грамм можно отнести: работу [Сокирко и др., 2005] в области автоматического снятия морфологической омонимии для русскоязычных текстов. В основу идеи, положена работа с триграммами, имеющими предварительную ручную морфологическую разметку; работу [Протасов, 2006] по обучению «с нуля» грамматики связей русского языка, которая не требует ручной работы эксперта по разметке и обучению, что в очередной раз доказывает оригинальность подхода. С помощью русскоязычных n-грамм созданное автором решение способно устанавливать синтаксические связи внутри простого предложения. В сети Интернет по адресу http://sz.ru/parser/ расположена версия анализатора, позволяющая проводить анализ в режиме реального времени.

К сожалению, вход большинства русскоязычных словарей n-грамм состоит из двух слов (бигрсиммы), и они создаются разработчиками из малых корпусов текстов под конкретные специфические нужды, что может свидетельствовать об их относительной репрезентативности.

Теоретической и методологической основой исследования послужили труды отечественных и зарубежных ученых в области математической и прикладной лингвистики, машинного перевода Н.Д. Арутюновой, Т.В. Булыгиной, Дж. Гандел, A.A. Кибрика, JI.H. Иорданской, Дж. Николе, Е.В. Падучевой, Е.В. Рахилиной; A.C. Чехова, А.Д. Шмелева,

М.И. Откупщиковой, Р. Миткова, В.Г. Гака, И.А. Муравьевой, О.Ю. Богуславской, Ю.С. Мартемьянова, A.B. Гулыги, Е.М. Вольф, З.М. Шаляпиной, И.И. Ревзина, работы в области машинного обучения и распознавания образов Ю.И. Журавлева, B.JL Матросова, К.В. Рудакова, В.В. Рязанова, 0:В. Сенько, исследования специалистов в области искусственного интеллекта и автоматической обработки текстов Д.А. Поспелова, Г.С. Осипова, В.Ф. Хорошевского, Ю.Г. Зеленкова, А.Н. Аверкина, А.И. Эрлиха и др.

Цель и задачи исследования

Цель исследования - разработка подхода автоматического определения кореферентных связей для русского языка, основанного, на, анализе корпусов текстов с использованием методов теории распознавания.

Для достижения поставленной цели были решены следующие задачи исследования: систематизация формальных средств выражений анафорических связей и зависимостей для местоимений третьего лица;

- выделение и формализация признаков; влияющих на референциальный выбор;

-разработка методов и алгоритмов формирования новых признаков по неразмеченным корпусам текстов без привлечения средств семантики, логики и знаний о Мире; разработка алгоритмов и программ, основанных на подходах и методах теории распознавания, обеспечивающих автоматическое определение г кореферентных связей между анафором и антецедентом. создание экспериментальной программной среды для аккумуляции статистической информации о референциальном выборе реального антецедента для местоимения третьего лица;

-создание корпуса русскоязычных ЕЯ-текстов, размеченных экспертом г на предмет кореферентных связей между анафором и антецедентом, а также размеченных автоматически морфологическими, синтаксическими и первично-семантическими анализаторами; разрешение задачи установления кореферентных связей для информационно-новостных текстов, оценка влияния каждого из факторов на корректность определения кореферентных связей при принятии решения о референциальном выборе и поиск минимальных признаковых подпространств.

Объект исследования — сфера автоматического определения кореферентных связей, а также факторы и признаки, влияющие на этот процесс, их анализ при помощи методов машинного обучения.

Предмет исследования - методы и алгоритмы, формирующие признаковое пространство при определении кореферентных связей; свойства признаков, генерируемых упомянутыми методами и алгоритмами; модели распознавания кореферентных связей.

Материалами исследования послужили тексты электронных новостных изданий. Общий объём автоматически проанализированных текстов составил более 140 Мбайт.

Научная новизна. Современная* деловая проза (в т.ч. информационно-новостные и др. тексты) русского языка не изучались до настоящего времени на предмет выявления закономерностей в референциальном выборе местоимений третьего лица при помощи методов машинного обучения и распознавания образов. В работе впервые применены подходы к изучению закономерностей кореферентных связей с применением методов машинного обучения и распознавания образов. Разработаны и апробированы новые методы и алгоритмы, «компенсирующие» нехватку семантических знаний, знаний «о Мире» и логических правил из неразмеченных корпусов текстов, новые алгоритмы синтеза корпусных признаков, а также предложены новые модели распознавания кореферентных связей.

Теоретическая значимость исследования заключается в разработке подхода для автоматического разрешения анафорических связей, создании методов синтеза корпусных признаков и моделей распознавания кореференции.

Практическая- значимость состоит в использовании' разработанных алгоритмов определения кореферентных связей при разрешении г анафоры в задачах машинного перевода, автоматического реферирования текстов, извлечения информации в поисковых и диалоговых системах и других автоматических системах искусственного интеллекта в части АОТ.

На защиту выносятся следующие положения;

1. методы анализа неразмеченных корпусных ресурсов (источников большого объёма ЕЯ-текстов) и результаты их применения в задаче разрешения кореференции местоимений;

2. алгоритмы по расширению признакового пространства, в задаче разрешения кореференции русскоязычных текстов:

- алгоритм вычисления оценок степени встречаемости одушевлённости для валентностей русскоязычных глаголов;

- алгоритм синтаксической деривации;

- алгоритм определения конфликтующих антецедентов;

- алгоритмы по формированию корпусных оценок степени встречаемости гипотетического антецедента и глагольной группы, г управляющей анафором; г

3. алгоритм некореферентности анафора с гипотетическим антецедентом и алгоритм некореферентности местоимений;

4. результаты анализа признаков при установлении кореферентных связей и минимальные подпространства признаков;

5. модели распознавания для разрешения анафоры местоимений третьего лица в русскоязычных текстах;

6. реализация моделей распознавания в виде программной среды, обеспечивающей дружественный интерфейс для работы эксперта по разметке текстов на предмет анафорических связей и автоматическую аккумуляцию признаков;

7. модель подготовки и обработки размеченных ЕЯ-текстов с целью выявления закономерностей и значимых систем признаков;

8. результаты испытания модели на размеченном корпусе информационно-новостных текстов (свыше 2000 фрагментов текстов объёмом, превышающим 3 Мбайт).

Апробация. Основные научные выводы и результаты исследования докладывались и обсуждались на:

1) международной конференции «Диалог 2006» - Компьютерная лингвистика и интеллектуальные технологии (Бекасово, 31 мая - 4 июня

2006 г.);

2) 10-ой национальной конференции по искусственному интеллекту с международным участием КИИ-06 (Обнинск, 25-28 сентября 2006 г.);

3) научно-технической конференции «Информационные технологии в бизнесе» (Москва, ГУ ВШЭ, 2006);

4) международной конференции «Диалог 2007» — Компьютерная лингвистика и интеллектуальные технологии (Бекасово, 30 мая — 3 июня

2007 г.);

5) 7-ой международной конференции «Информационное общество, интеллектуальная обработка информации, информационные технологии», 24-26 октября 2007 г. НТИ-2007. (Москва, ВИНИТИ РАН).

Публикации. По теме диссертации опубликовано 18 работ, общим объёмом 197 стр. Из них 2 - в издании из списка, рекомендуемых ВАК Минобрнауки России - журнал «Информационные технологии» (№№ 8,9, 2006 г.).

Составляющие диссертационной работы поддержаны:

1) конкурсом ведущих научных школ «НШ-5833.2006.1» 2006 г.: «Развитие фундаментальных математических основ и алгоритмического аппарата для решения сложных задач интеллектуального анализа данных, распознавания и прогнозирования» (исполнитель проекта);

2) научной стипендией ООО «Яндекс» 2004-2005 гг.: «Разработка, создание и внедрение процедуры апостериорной оценки качества поиска на основе поведения пользователей» (рук. проекта);

3) грантом РФФИ № 06-06-80464-а 2006 г.: «Разработка и реализация методов семантического и прагматического анализов ЕЯ-текстов русского языка» (рук. проекта);

4) научной стипендией ООО «Яндекс» 2006-2007 гг.: «Формирование нечётких мер для валентностей русскоязычных глаголов» (рук. проекта).

Структура работы. Диссертация состоит из введения, четырёх глав и заключения. Основной текст изложен на 179 стр. при общем объёме 241 стр., включая 3 приложения и библиографию из 181 наименования.

Заключение диссертация на тему "Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов"

5.2. Основные результаты работы

1. Разработаны общая модель распознавания кореференции (МВ) и модель распознавания кореференции, основанная на решении специальной дихотомической задачи распознавания в пространстве признаковых описаний и задач распознавания оценок (ОЗЕ). Полнота и точность модели Б8Е составили 79,2% и 83,05% соответственно.

2. Предложены и программно реализованы алгоритмы, формирующие расширенное признаковое пространство в задаче разрешения местоименной анафоры третьего лица для русскоязычных текстов: а. алгоритм составления оценок степени встречаемости одушевлённости для валентностей русскоязычных глаголов; б. алгоритм синтаксической деривации; в. алгоритм определения конфликтующих антецедентов; г г. алгоритм некореферентности анафора с гипотетическим антецедентом; д. алгоритм некореферентности местоимений; е. алгоритмы по формированию корпусных оценок встречаемости гипотетического антецедента и глагольной группы, г управляющей анафором.

3. Методами математического обучения исследована эффективность корпусных признаков (оценок встречаемости гипотетического г антецедента и глагольной группы, управляющей анафором) при принятии решения референциального выбора.

4. Тремя подходами получены результаты анализа признаковых систем и информативные системы признаков, исследованы системы признаков и информативных подмножеств признаков.

5. Создан комплекс программ для ЭВМ, обеспечивающих предобработку ЕЯ-текстов и вычисление значений признаков.

Библиография Толпегин, Павел Владимирович, диссертация по теме Теоретические основы информатики

1. Allen, 1995. Allen, J. Natural language understanding. The Benjamin|Cummings Publishing Company Inc.

2. Alshawi, 1992. Alshawi, H. The core language engine. Cambridge, MA: MIT Press.

3. Aone h Bennett, 1995. Aone, C., & Bennett, S. W. Evaluating automated and manual acquisition of anaphora resolution strategies. In Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, pp. 122—129 Cambridge, MA.

4. Asher h Wada, 1988. Asher, N., Wada, H. A computational account of syntactic, semantic and discourse principles for anaphora resolution. Journal of Semantics, 6, C. 309-344.

5. Baldwin, 1997. Baldwin, B. CogNIAC: high precision coreference with limited knowledge and linguistic resources. Proceedingsof the ACL'97/EACL'97 workshop on Operational Factors in Practical, Robust Anaphora Resolution, C. 38-45. Madrid, Spain.

6. Baldwin m ap., 1995. Baldwin, B., Reynar, J., Collins, M., Eisner, J.m Ratnaparki, A., Rosenzweig, J., Sarkar, A., Bangalore, S. Description of the University of Pennsylvania System Used for MUC-6, C. 177-191. Columbia, Maryland, USA.

7. Bateman, 2006. Bateman J. Natural Language Generation Systems. -http://www.fblO.uni-bremen.de/anglistik/langpro/NLG-table/nlg-table-date-sort.html

8. Bean h Rilof, 1999. D. L. Bean, E. Riloff. 1999. Corpus-based identification of non-anaphoric noun phrases. In Proc. of the 37th ACL, pages 373—380, University of Maryland

9. Bobrow, 1964.* D.G. Bobrow. A question-answering system for high school algebra word problems. AFIPS Conference Proceeings, 26, 591-614.

10. Boguraev, 1979.- B. Boguraev. Automatic resolution of linguistic ambiguities. TR-11, University of Cambridge Computer Laboratory, Cambridge.

11. Brennan h 1987.S. Brennan, M. Friedman, C. Pollard.,A centering approach to pronouns. Proceedings of the 25th Annual Meeting of the ACL (ACL'97), 155-162: Stanford, CA, USA.

12. Burges, 1998. Burges C.J.C. A Tutorial on. Support Vector Machines for Pattern Recognition//Data Mining and Knowledge Discovery 2, 121-167, 1998.

13. Carbonell h Brown, 1988. Carbonell; J. G., R. D. Brown. Anaphora Resolution: a-Multi-Strategy Approach. In Proceedings of the 12th International Joint Conference on Computational Linguistics, pages 96—101.

14. Cardie h Wagstaff, 1999. C. Cardie, K. Wagstaff. 1999. Noun phrase coreference as clustering. In EMNLP-99, pages 82—89:

15. Carter; 1986. A shallow processing approach to anaphor resolution*. PhD thesis, University of Cambridge

16. Carter, 1987a. D.s Carter. Interpreting anaphora in natural'language texts. Chichester: Ellis Horwood.

17. Carter, 1987b. ^Carter, D. Common Sense Inference in a Focus-Guided Anaphor Resolver, Journal of Semantics, 4, 237-246

18. Carvalho, 1996.'Carvalho, A. Logic grammars and pronominal anaphora. Processing of the Discourse Anaphora and'Anaphor Resolution: Coreference (DAARC'96), 106-122. Lancaster, UK.

19. Charniak, 1972. E. Charniak. Toward a Model of Children's Story Comprehension. Ph.D. thesis, Massachusetts Institute of Technology, Cambridge, MA

20. Dagan h Itai, 199011- Dagan, A. Itai. Automatic processing of large corpora for the resolution of anaphora references. Proceedings of the 13th International Conference on Computational Linguistics (COLING'90), Vol.III, 1-3. Helsinki, Finland.

21. Dagan h Itai, 1991. I. Dagan, A. Itai. A statistical filter for resolving pronoun references. Artificial intelligence and computer vision, 125-135. Elsevier Science Publishers (North-Holland)

22. Dahl, 1986. D. Dahl. Focusing and reference resolution in PUNDIT. Processingth • of the 5 National Conference on Artificial Intelligence. Philadelphia.

23. Dahl h Ball, 1990. D. Dahl, C. Ball. Reference resolution in PUNDIT. Research Report CAIT-SLS-9004. Paoli: Center for Advanced Information Technology.

24. Denber, 1998. M. Denber. Automatic resolution of anaphora in English. Technical report, Imaging Science Divison, Eastman Kodak Co.

25. Di Engenio, 1990. B. Di Eugenio. Centering theory and the Italian pronominaliLsystem. Proceedings of the 13 Conference on Computational Linguistics (COLING'90), 270-275. Helsinki, Finland.

26. Dunker h Umbach, 1993. G. Dunker, C. Umbach. Verfahren zur Anaphernresolution in KIT-FAST. International Report KIT-28.Technical Univesity of Berlin.

27. Elaine Rich h Susann LuperFoy, 1988. cm. Rich h Luperfoy, 1988]

28. EuroWordNet, 1999. EuroWordNet-http://www.illc.uva.nl/EuroWordNet/

29. Evans, 2000. R. Evans. A comparison of rule-based and machine learning methods for identifying non-pronominal it. Natural Language Processing NLP2000. Lecture noteas in Artificial Intelligence, 233-242/ Springer Verlag.

30. Evans, 2001. R. Evans. Applying machine learning toward an automatic classification of it. Literary and Linguistic Computin, 16 (1), 45-57.

31. Ferrandez h ,np., 1997. A. Ferrandez, M. Palomar, L. Moreno. Slot unification grammar and anaphora resolution. Proceedings of the International Conference on

32. Recent Advances in Natural Language Processing (RANLP'97), 294-299. Tzagov Chark, Bulgaria.

33. Ferrandez и др., 1998. A. Ferrandez, M. Palomar, L. Moreno. Anaphora resolution in unrestricted texts with partial parsing. Proceedingsa of the 17th International Conrefence on Computational Linguistics (COLING'98/AGL'98), 385391. Montreal, Canada.

34. Ge и др., 1998.''N. Ge, J. Hale, E. Charniac. A statistical approach to anaphora resolution. Proceedings of the Workshop on Very Large Corpora, 161-170. Montreal, Canada.

35. Google, 2007. Google. Языковые инструменты Electronic resource]. 2007. -Mode of access: http://www.google.ru/languagetools?hl=ru

36. Gordon и др., 1993. P. Gordon, B. Grosz, L. Gilliom. Pronouns, names and the centering attention in discourse. Cognitive Science, 17 (3), 311-347.

37. Grishman, 1986. G. Grishman. Computational linguistics. Cambridge: Cambridge University Press.

38. Grosz, 1977 a. B. Grosz. The representation and use of focus in a system forjLunderstanding dialogs. Proceedings of the 5 International Joint Conference on» Artificial Intelligence (IJCAI'77), 67-76. Cambridge, Massachusetts.

39. Grosz, 1977 b. B. Grosz. The representation'and'use of focus in dialogue understanding, Technical*report No: 151, SRI International, Menlo Park, California.

40. Grosz и др., 1983.<B'. Grosz, A. Joshi, S. Weinstein. Providing a unified'account of definite noun phrases hrdiscourse. Proceedings of the 21st Annual Meeting of the Association for Computational Linguistics (ACL'83), 44-50. Cambridge, Massachusetts.

41. Grosz h /jp., 1995J B. Grosz, J. Arvind, S. Weinstein. Centering: a framework for modelling the local coherence of discource. Computationsl Linguistics, 21 (2), 203225.

42. Gunter h Lehmann, 1983. F. Gunter, H. Lehmann. Rules for prominalisation. Proceesings of the First Conference of the European Chapter of the Association for Computational Linguistics. 144-151. Pisa, Italy.

43. Haegeman, 1994. L. Haegeman. Introduction to government and bining theory.Oxford: Blackwell.

44. Hahn h Strube, 1997. U. Hahn, M. Strube. Centering-in-the-large: computing referential discourse segments. Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, 104-111. Madrid, Spain.

45. Hirst, 1981. G. Hirst. Anaphora in natural language understaning. Berlin: Springer Verlag.

46. Hobbs, 1976. J. Hobbs. Pronoun resolution. Research Report 76-1. New York: Department of Computer Science, City University of New York

47. Hobbs, 1978. J. Hobbs. Resolving pronoun references. Lingua, 44, 339-352

48. Jensen, 1986. K. Jensen. PEG 1986: a broad-coverage computational syntax of English. Technical report, IBM T.J. Watson Research Center.

49. Joshi h Weinstein, 1981. A. Joshi, S. Weinstein. Control of inference: role of some aspects of discourse structure centering. Proceedings of the 7th International Joint Conference on Artificial Intelligence (IJCAI-81), 385-386. Vancouver, Canada.

50. Kameyama, 1985. M. Kameyama. Zero anaphora: the case of Japanese. Ph.D. thesis, Stanford University, Linguistics Department.

51. Kameyama, 1986. M. Kameyama. A property-sharing constraint in centering. Proceedings of the 24 Annual Meeting of the Association for Computational Linguistics (ACL'86), 200-206. New York, USA.

52. Kameyama, 1997. M. Kameyama. Recognizing referential links: an information extractionperspective. Proceedings of the ACL'97/EACL'97 Workshop on Operational Factors in Practical, Robust Anaphora Resolution, 46-53. Madrid, Spain.

53. Kameyama, 1998. M. Kameyama. Intrasentential centering: a case stydy. In Walker, M., Joshi, A., Prince, E. (Eds.) Centering theory in iscourse, 89-112. Oxford: Clarendon Press.

54. Kantor, 1977. R. Kantor. The management and comprehension of discourse connection by pronouns in inglish, PhD thesis. Department of Linguistics, Ohio University.

55. Karlsson h ,np., 1995. F. Karlsson, A. Voutilainen, J. Heikkila, A. Antilla (Eds.) Constraint grammar: a language-independent system for parsing free text. Berlin|New York: Mouton de Gruyter.

56. Kehler, 1997b. A. Kehler. Probablistic coreference in information extraction. Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing (EMNMLP-2), 163-173. Providence, Rhode Island, USA.

57. Kehler, 1997a. A. Kehler. Current theories of centering and pronoun interpretation: a critical evaluation. Computational Linguistics, 23 (3), 467-475.

58. McCord, 1989. M. McCord. A new version of slot grammar. Research Report RC 14506, IBM Research Division, Yorktown Heights, New Yourk.

59. Mitkov, 1994a. R. Mitkov. An integrated model for anaphora resolution. Proceedings of the 15th International Conference on Computational Linguistics (COLING'94), 1170-1176. Kyoto, Japan.

60. Mitkov, 1994b. R. Mitkov. A new approach to tracking center. Proceedings of he International Conference "New Methods inn Language Processing" (NeMeLaP-1), 150-154. Mabchester, UK.

61. Mitkov, 1995a. R. Mitkov. Anaphora resolution in Natural Language Processing and Machine Translation. Working Paper. Saarbrucken: IAI.

62. Mitkov, 1995b. R. Mitkov. An- uncertainty reasoning approach for anaphora resolution. Proceeings of the Natural Language Processing Pacific Rim Symposium (NLPRS'95), 149-154. Seoul, Korea.

63. Mitkov, 1996. R. Mitkov. Pronoun resolution: the practical alternative. Paper presented* at the Discourse Anaphora and Anaphor Resolution Colloquium (DAARC), Lancaster, UK.

64. Mitkov, 1998a. R. Mitkov. Evaluating anaphora resolution approaches. Proceedings of the Discourse Anaphora and Anaphora Resolution Colloquium (DAARC'2), 164-172. Lancaster, UK.

65. Mitkov, 1998b. R. Mitkov. Robust pronoun resolution with limited knowledge.tli

66. Proceedings of the 17 International Conference on Computational Linguistics (COLING'98/ACL'98), 869-875. Montreal, Canada.

67. Mitkov, 2002. R. Mitkov. Anaphora Resolution. London: Longman Press, 2002

68. Munoz, 2001. R. Munoz. Tratamiento y resolucion de las descripciones definidas y su applicacion en sistemas de extraccion de informacion. PhD thesis, University of Alicante.

69. Munoz h Palomar, 2000. R. Munoz, M. Palomar. Processing of Spanish definite description with the same head. Proceedings of NLP'2000, 2120220. Patras, Greece.

70. Murata h Nagao, 2000. M. Murata, M. Nagao. Indirect reference in Japanese sentences. In Botley, S. and McEnry, A. (Eds.) Corpus-based and computational approaches to discourse anaphora, 211-226. Amsterdam/Philadelphia.

71. McCord, 1993. M. McCord. Heuristics for board-coverage antural language parsing. Processing, ARPA Human Language Technology Workshop. University of Pennsylvania.

72. Nakaiwa и др., 1996.iH. Nakaiwa, F. Bond, T. Uekado, Y. Nozawa. Resolving zero pronouns in texts using textual structure. Proceedings of the International Conference "New Methods in Language Processing" (NeMLaP-2), 25-36. Ankara, Turkey.

73. Nasukawa, 1994. T. Nasukawa. Robust method of pronoun resolutionmsing full-text information. Proceedings of the 15th International Conference on GomputationalLinguistics (COLING'94), 1157-1163. Kyoto, Japan.

74. NGD. Normalized Google Distance. Электрон, ресурс] 2007. - Режим доступа: http://www.arxiv.org/PScache/cs/pdf/0412/0412098.pdf

75. Orasan и др., 2000." С. Orasan, R. Evans. Experimenting in optimizing the task of anaphora resolution. Proceeings of ICEIS 2000, 191-195. Stanford, UK.

76. Paice и Husk, 1987. C. Paice, G. Husk. Towards the automatic recognition* of anaphoric features in English text: the impersonal pronoun "it". Computer Spech and Language,2,109-132.

77. Perl. Practical' extraction and report language Электрон, ресурс] 2007. -Режим доступа: www.perl.com,www.cpan.org, www.activestate.com

78. Poesio и др., 2000.(M. Poesio, H. Cheng, R. Henschel, J. Hitzerman; R. Kibble, R. Stevenson. Specifying the parameters of centering theory: a corpus-based evaluation using text from application-oriented domains. Proceedinggs of the 38th

79. Annual Meeting of the Association for Computational Linguistics (ACL). 400-407. Hong Kong.

80. Poesio M. и др., 1997. Poesio M., Vieira R., Teufel S. Resolving bridging references in unrestricted text. Proceedings of the ACL'97/EACL'97 Workshop on Operational Factors in Practical, Robust Anaphora Resolution, 1-6. Madrid, Spain, 1997

81. Popescu-Belis и Robba, 1997. A. Popescu-Belis, I. Robba. Three methods for evaluating reference resolution. Proceedings of the Workshop on Linguistic Conference. Granada, Spain.

82. Prince, 1981. E. Prince. Toward a taxonomy of given-new information. In Cole, P. (Ed.) Radical pragmatics, 223-255. New York: Academic Press.

83. RapidMiner. Программа RapidMiner (YALE) Электрон, документ]. (http://rapid-i.com/)

84. Reinhart, 1981. Reinhart T. Definite NP-anafhora and c-command domatus, Linguistic inquiry 12: 605-635

85. Reinhart, 1983. T. Reinhart. Coreference and bound anaphora: a restatement of the anaphoraquestions. Linguistic and Philosophy, 6, 47-88.

86. Rich и Luperfoy, 1988. E. Rich, S. LuperFoy. An architecture for anaphora resolution. Proceedings of the Second Conference on Applied Natural Language Processing (ANLP-2), 18-24. Texas, USA

87. Rolbert, 1989. M. Rolbert. Resolution de formes pronominales dans 1'interface d'interrogation d'une base de donnees. These de doctorat. Faculte des Science de Luminy.

88. RussNet, 2005. RussNet-http://www.phil.pu.ru/depts/12/RN/index.shtml

89. Ryazanov, 1994. Ryazanov V.V. Recognition Algorithms Based on Local Optimality Criteria // Pattern Recognition and Image Analysis. 1994. Vol.4, no.2. P.98-109

90. Saiz-Noeda h ,np., 2000. M. Saiz-Noeda, J. Peral, A. Suares. Semantic compatibility thechniques for anaphora resolution. Proceedings of the Workshop on Corpora and NLP, 43-48. Monastir, Tunisia.

91. Sidner, 1979. C. Sidner. Toward a computational theory of definite anaphora comprehension in English. Technical report No. AI-TR-537. Cambridge, Massachussetts: MIT Press.

92. Sidner, 1983. C. Sidner. Focusing in the comprehension of definite anaphora. In Brandy, M. and Berwick, R. (Eds.) Computational models of discourse. Cambridge, Massachussets: MIT Press.

93. Strube, 1998. M. Strube. Never look back: an alternative to centering.th

94. Proceedings of the 17 International Conference on Computational Linguistics (COLING'98/ACL'98), 1251-1257. Montreal, Canada.

95. Strube h Hahn, 1996. M. Strube, U. Hahn. Functional centering. Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics, 270-277. Santa Cruz, California, USA.

96. Stuckardt, 1996. R. Stuckardt. An independency-sensitive approach to anaphor resolution. Proceedings of the international Colloquium on Discourse Anaphora and Anaphora Resolution. Lancaster (DAARC), 400-413, UK.

97. Stuckardt, 1997. R. Stuckardt. Resolving anaphoric references on deficient syntactinc descriptions. Proceedings of the ACL'97/EACL'97 Workshop on Operational Factors in Practical, Robust Anaphora Resolution, 30-37. Madrid, Spain.

98. Suri h McCoy, 1994. L. Sun, K. McCoy. RAFT/RAPR and centering: a comparison and discussions of problems related to processing complex sentences. Computational Linguistics, 20 (2), 301-317.

99. Tetreault, 1999. J. Tetreault. Analysis of syntax-based pronoun resolutiontVimethods. Proceeings of the 37 Annual Meeting of the Association for Computational Linguistics (ACL'99), 602-605. Maryland, USA.

100. Tin h Akman, 1994. E. Tin, V. Akman. Situated processing of pronominal anaphora. Proceeings of the KONVENS'94 Conference, 369-378. Vienna, Austria.

101. Vapnik, 1998. Vapnik V. Statistical Learning Theory // Wiley, 1998. Vieira h Poesio, 2000] R. Vieira, M. Poesio. An empirically-based system for processing definite descriptions. Computational Linguistics, 26 (4), 525-579.

102. Voutilainen h ^p., 1992. A. Voutilainen, J. Heikkila, A. Anttila. A constraint grammar of English: a performance-oriented approach. Publication No. 21, Helsinki: University of Helsinki.

103. Wakao, 1994. T. Wakao. Reference resolution using semantic patterns intVi

104. Japanese newspaper articles. Proceedings of the 15 International Conference on Computational Linguistics (COLING'94), 1133-1137. Kyoto, Japan.

105. Walker, 1997. Centering Theory in discourse, Edited by Marilyn A.Walker, Oxford University Press, 464 c.

106. Walker, 1989. M. Walker. Evaluating discourse processing algorithms. Proceedings of the 27th Annual Meeting of the ACL (ACL'97), 251-261. Vancouver, Canada.

107. Walker, 1998. M. Walker. Centering, anaphora resolution and discourse structure. In Walker, M., Joshi, A. and Prince, E. (Eds.) Centering theory in discourse. Oxford: Clarendon Press.

108. Walker m #p., 1994. M. Walker, M. Iida, S. Cote. Japanese discourse and the process of centering. Computational Linguistics, 20 (2).

109. Webber, 1979. В. Webber. A formal approach to discourse anaphora. New York: Garland Publishing.

110. Wilks, 1973. Y. Wilks. Preference semantics. Stanford At Laboratory memo AIM-206. Stanford University.

111. Wilks, 1975a. Y. Wilks. Preference semantics. In Keenan, E. (Ed.) The formal semantics of natural language. Cambridge: Cambridge University Press.

112. Wilks, 1975b. Y. Willks. An intelligent analyzer and understander of English. Communications of the ACM, 18, 264-274.

113. Winograd, 1972. T. Winograd. Understanding natural language. New Yourk: Academic Press/Edinburgh: Edinburgh University Press.

114. Woods, 1968. W. Woods. Procedural semantics for a question-answering machine. AFIPS Conference Proceedings, 33, FJJC, 457-471.

115. Woods, 1970. W. Woods. Transition network grammars for natural language analysis. Communications of the ACM, 13 (10), 591-606.

116. Woods и др.,,1972. W. Woods, R. Kaplan, B. Nash-Webber. The LUNAR Sciences Natural Language information System: final report. Report 2378. Cambrige, MA: Bolt Beranek and Newman.

117. WordNet, 2004. Русский WordNet http://www.pgups.ru/WebWN/wordnet.uix

118. WordNet, 2006. WordNet http://wordnet.princeton.edu/

119. Абрамова и др., 2007. Абрамова Н. Н., Абрамов В. Е. Автоматическое составление обзорных рефератов новостных сюжетов. Интернет-математика 2007: Сборник работ участников конкурса. — Екатеринбург: Изд-во Урал, унта, 2007. — 224 с.

120. АОТ. Автоматическая;обработка текстов: Электрон: ресурс] — 2006: -Режим доступа: www.aofcru

121. Баранов, 1996. Баранов О.С. Идеографический словарь русского языка -М.: ЭТС 1996. (http://baranovoc.narod.ru)

122. Ветров, Рязанов, 2001.Шетров Д:П., Рязанов В®^ О минимизации признакового пространства-в задачах распознавания: Доклады; 10-й# Всероссийско№конференции«"Математические методы распознавания образов . (ММРО-Ю)^', Москва, 2001? стр^ 22-25

123. Еавриловашщр;, 2000.Щаврилова Т.А., Хорошевский В;Ф; Базы знаний^ интеллектуальных систем СПб: Питер, 2000. - 384:е.: ил.

124. Дикарева, 1987. ДикаревагС^С~ Семантика анафоры-// Структурная и прикладная лингвистика. Межвузовский сборник. Вып. 3, Л::ЛГУ, 1987г. С. 2937

125. Журавлев, 1978. Журавлев Ю.И: Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. М.: Наука: 1978, вып. 33, стр. 5-68'.

126. Журавлев шдр;, 2006.гЖуравлевгЮЖ, Рязанов В.В., Сенько О.В. "РАСПОЗНАВАНИЕ". Математические методы. Программная система. Практические применения. М.: ФАЗИС, 2006.

127. Иванова, 1961. Иванова В.А. О конструкциях с плеонастическим употреблением местоимений современном русском языке // УЗ Волгоград. ПИ. 1961. Вып. 14. С. 43-61.

128. Ильин и др., 1969. Ильин Г.М., Лейкина Б.М., Никитина Т.Н., Откупщикова М.И., Филатов С.Я. Модель семантики текста и система «запрос-ответ» (к постановке задачи). «НТИ», сер. 2, 1969, № 1, с. 10-14.

129. Карпова, 1978. Карпова Г.Д. Об алгоритме установления анафорических связей для русских местоимений // Вопросы информационной теории и практики. М., 1978. №36. С. 92-108

130. Кибрик, 1985. Кибрик A.A. Референциальный конфликт при местоименно-анафорической номинации // Семиотические аспекты формализации интеллектуальной деятельности. Тезисы докладов Всесоюзной школы-семинара. Кутаиси, 1985. М.: ВИНИТИ, 1985.

131. Клещев и др., 2001. Клещев С.А., Артемьева И.Л. Математические модели онтологий предметных областей. Часть 1. Существующие подходы к определению понятия «онтология» // Научно-техническая информация, серия 2 «Информационные системы и процессы», 2001. №2.

132. Коринф, 2006. Новости рынка Интернет. Внешнеторговый вестник «Коринф». №8, 2006г.

133. Красавина, 2006. Красавина О.Н. Корпусно-ориентированное исследование референции (принципы аннотации и анализ данных) // дисс. на соискание уч. степ. канд. филол. наук.М.: МГУ, 2006г.

134. Кувалдина, 1971. Кувалдина JT.H. Анафорические связи в русском языке (на материале научных, научно-популярных и научно-технических текстов). Информационные вопросы семиотики, лингвистики и автоматического перевода. Вып. 2. М.: ВИНИТИ, 1971. С. 47-54.

135. Леонтьева, 1998. Леонтьева H.H. Категоризация единиц в русском общесемантическом словаре (РОСС) // Труды Международного семинара «Диалог'98» по компьютерной лингвистике и ее приложениям. Т.2. С.519-532.

136. Мельчук, 1974. Мельчук И.А. Опыт теории лингвистических моделей "Смысл <-> Текст" // М., 1974.

137. Мошков, 2006. Поиск по библиотеке М.Мошкова, версия 2006 года, 844 млн. токенов. Электрон, ресурс] 2006. - Режим доступа: http://www.aot.ru/searchl .html

138. НКРЯ. Национальный корпус русского языка, www.ruscorpora.ru

139. Ножов, 2000. Ножов И.М. Процессор автоматизированного морфологического анализа без словаря. Деревья и корреляция. //Диалог'2000. Труды конференции Протвино, 2000. Т.2. С. 284-290.

140. Ножов, 2002. Ножов И.М. Проектирование сегментационного анализатора русского предложения. // КИИ-2002. Труды конференции М.: Физматлит, 2002. Т.1. С. 212-222.

141. Ножов, 2003. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели и программы) // Диссертация на соискание ученой степени кандидата технических наук. — М. 2003.

142. Откупщикова, 1971.,Откупщикова М.И. Роль местоимений в сокращении структуры связного текста. Информационные вопросы семиотики, лингвистики и автоматического перевода. Вып. 2. М.: ВИНИТИ, 1971. С. 68-77.

143. Откупщикова, 1987. Откупщикова М.И. Части речи и местоимения в русском языке // Структурная и прикладная лингвистика. JL: ЛГУ, 1987. Вып. 1.

144. Падучева, 1983. Падучева Е.В. Возвратное местоимение с косвенным антецедентом и семантика рефлексивности. Семиотика и информатика — сборник научных статей, вып. 21, 1983г.; С.3-33.

145. Падучева, 1974. Падучева Е.В. Анафорические связи и глубинная структура текста // Ин-т русск. яз. АН СССР. Предварительные публикации. М.: Наука, 1974.

146. Падучева, 1980. Падучева Е.В. Проблемы логического анализа местоимений // Семиотика и информатика. М.: ВИНИТИ, 1980. Вып. 16.

147. Протасов, 2006. Протасов C.B. Обучение с нуля грамматики связей русского языка // X Национальная конференция по искусственному интеллекту с международным участием «КИИ-06». -М. 2006. С. 515-524

148. Сироткина, 1974. Сироткина О.Б. Конструкции с плеонастическим местоимением в разговорной речи // Синтаксис и норма. М.: Наука, 1974.

149. Сокирко, 2001. Сокирко A.B. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ) // Диссертация на соискание ученой степени кандидата технических наук. М. 2001.

150. Сокирко, 2005. Сокирко A.B. Первичный семантический анализ -http://www.aot.ru/docs/seman.html

151. Тестелец, 2001. Я.Г. Тестелец. Введение в общий синтаксис. М.: РГГУ, 2001. —798 с.

152. Толпегин, 2003а. Толпегин П.В. Словоформы Русского Языка для Информационно-Поисковой Системы. Свидетельство Роспатента о регистрации базы данных № 2003620059. 2003 г.

153. Толпегин, 2003b. Толпегин П.В. Программа искусственной генерации словоформ русского языка. Свидетельство Роспатента о регистрации программы для ЭВМ № 2003610874. 2003 г.

154. Толпегин, 2006а. Толпегин П.В. Информационные технологии анализа русских естественно-языковых текстов. Часть I // Журнал «Информационные технологии», № 8. 2006. с. 41-50

155. Толпегин, 2006b. Толпегин П.В. Информационные технологии анализа русских естественно-языковых текстов. Часть II // Журнал «Информационные технологии», № 9. 2006. с. 2-7

156. Толпегин П.В., 2006с. Толпегин П.В. Новые методы и алгоритмы автоматического разрешения референции местоимений третьего лица русскоязычных текстов. М.: КомКнига, 2006. 88 с.

157. Хорошевский, 2004. Хорошевский В.Ф. OntosMiner: семейство систем извлечения информации из мультиязычных коллекций документов. Труды конференции КИИ-2004, Тверь, Россия, 2004.

158. Чехов, 1981. Чехов A.C. Отождествляющее анафорическое выражение как фактор внутренней организации // Машинный перевод и прикладная лингвитика. М.: ВИНИТИ, 1981. Вып. 19.

159. Шумилина, 1961. Шумилина A.JI. Вопросы анализа личных местоимений 3-го лица // Лингвистические исследования по машинному переводу. М.: ВИНИТИ, 1961. Вып. 2. С. 142- 151.

160. Яндекс. Синтаксический анализатор, не использующийрезультаты морфологического анализа. Результаты анализа предоставлены ООО «Яндекс», 2007г.