автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Исследование методов установления значений синтаксических единиц естественных языков на основе интеллектуального анализа данных
Автореферат диссертации по теме "Исследование методов установления значений синтаксических единиц естественных языков на основе интеллектуального анализа данных"
На правах рукописи
Смирнов Иван Валентинович
ИССЛЕДОВАНИЕ МЕТОДОВ УСТАНОВЛЕНИЯ ЗНАЧЕНИЙ СИНТАКСИЧЕСКИХ ЕДИНИЦ ЕСТЕСТВЕННЫХ ЯЗЫКОВ НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
Специальность 05.13.01 Системный анализ, управление и обработка информации (информационно-вычислительное обеспечение)
Автореферат диссертации на соискание ученой степени кандидата физико-математических наук
Москва - 2008
003451301
Работа выполнена в Российском университете дружбы народов на кафедре информационных технологий факультета физико-математических и естественных наук.
Научный руководитель: доктор физико-математических наук,
профессор
Осипов Геннадий Семенович
Официальные оппоненты: доктор технических наук, профессор
Финн Виктор Константинович
кандидат физико-математических наук, доцент Аверкин Алексей Николаевич
Ведущая организация: Институт программных систем РАН
Защита состоится "17" ноября 2008 г., в 11 часов на заседании диссертационного совета Д.002.086.02 при Институте системного анализа Российской академии наук по адресу: 117312, Москва, проспект 60-летия Октября, 9.
С диссертацией можно ознакомиться в библиотеке Института системного анализа Российской академии наук.
Автореферат разослан "16 " октября 2008 г.
Ученый секретарь
диссертационного совета Д.002.086.02 доктор технических наук
А.И. Пропой
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования
Принятие решений по управлению сложными системами должно основываться на информации, отражающей текущее состояние систем. Эта информация может быть получена в результате предварительного поиска «сырых» данных и их последующего анализа. Методы обработки структурированной (числовой, или фактографической) информации, достаточно развиты и дают хорошие результаты. Иначе обстоит дело с обработкой полуструкгурированной информации - поиском и извлечением данных из текстов. Методы извлечения информации из текстов в настоящее время исследованы недостаточно и дают приемлемые результаты только для узких предметных областей. Методы поиска информации также оставляют желать лучшего. Известно, что традиционные поисковые системы обладают низкой релевантностью и большим шумом. Это связано с тем, что традиционный подход к поиску основывается только на статистических характеристиках слов, при этом игнорируется лингвистическая составляющая текстов, а слово рассматривается просто как цепочка символов. Не учитывается смысл, передаваемый текстом на естественном языке.
Преодоление указанных трудностей состоит в применении методов семантического анализа текстов, когда каждое предложение текста рассматривается как осмысленное высказывание, состоящее из синтаксических единиц, каждая из которых несет элементарный смысл. Семантика всего высказывания при этом складывается из комбинации смыслов этих синтаксических единиц. Применение методов семантического анализа в поиске текстов является весьма актуальным, т.к. позволяет находить документы, близкие запросу по смыслу, тем самым существенно повышая точность поиска.
Методы, реализующие семантический анализ текстов, должны опираться на лингвистические теории, описывающие механизмы передачи смысла (семантики) языковыми средствами, однако эти механизмы, как правило, не отражены в грамматиках языков. Настоящая работа посвящена исследованию и применению методов интеллектуального анализа данных для выявления механизмов передачи семантики применительно к задачам семантического поиска и извлечения фактографической информации из текстов на примере русского языка.
Цели и задачи исследования
Целью диссертационной работы является повышение точности автоматического семантического анализа текстов на естественных языках.
Для достижения поставленной цели в работе решаются следующие задачи:
1. Применение методов теории коммуникативной грамматики русского языка для построения реляционно-ситуационной модели текста.
2. Разработка индуктивного метода порождения правил установления значений
синтаксических единиц текста (сиктаксем).
3. Разработка метода снятия семантической многозначности (полисемии) синтаксем на основе полученных правил.
4. Разработка программных средств порождения правил установления значений и снятия полисемии синтаксем.
5. Экспериментальная проверка разработанных методов.
Методы исследования
В диссертационной работе использованы методы интеллектуального анализа данных, методы теории множеств, методы представления знаний, в частности, неоднородные семантические сети, теория коммуникативной грамматики русского языка.
Научная новизна работы
Научная новизна работы заключается в следующем:
1. Для представления семантики высказываний применены теория неоднородных семантических сетей и теория коммуникативной грамматики русского языка.
2. Предложена модификация ДСМ-метода порождения гипотез, расширяющая область его применимости, в частности, позволяющая оперировать лингвистическими объектами, имеющими сложную логическую структуру.
3. Предложен индуктивный метод автоматического получения правил установления значений синтаксических единиц естественных языков.
4. Предложен метод использования полученных правил для снятия семантической многозначности синтаксических единиц естественных языков, позволяющий значительно повысить точность семантического анализа текстов.
Практическая значимость работы
Предложенная в работе модификация ДСМ-метода порождения гипотез может применяться в решении задач интеллектуального анализа данных.
Полученные правила установления значений синтаксических единиц текста могут использоваться в любых приложениях в области компьютерной лингвистики, имеющих дело с семантическим анализом текста, в частности, в семантических поисковых машинах.
Реализация результатов работы
Методы, правила, и алгоритмы реализованы в виде независимых программных модулей и используются в следующих проектах:
• Программа фундаментальных исследований отделения информационных технологий и вычислительных систем РАН (ОИТВС РАН) "Фундаментальные основы информационных технологий и систем", проект № 2.9.
• «Разработка программных средств смыслового поиска и анализа материалов научных исследований в области наук о жизни, опубликованных на естественных языках в
научной печати и в Интернете» шифр ИТ-13.5/001, выполняемого в рамках федеральной целевой научно-технической программы «Исследования и разработки по приоритетным направлениям развития науки и техники».
• «Исследование и разработка параллельных алгоритмов анализа больших объемов текстовой информации из глобальной сети и алгоритмов принятия решений на основе когнитивных методов» научно-технической программы Союзного государства «Развитие и внедрение в государствах-участниках Союзного государства наукоёмких компьютерных технологий на базе мультипроцессорных вычислительных систем» (шифр «ТРИАДА»),
Апробация работы
Основные положения работы докладывались и обсуждались на следующих научных конференциях:
• Научная конференция «25 лет исследований по ДСМ-методу: логика, анализ данных, интеллектуальные системы (ДСМ-2006)», декабрь 2006, ВИНИТИ РАН, г. Москва.
• 7-я Международная конференция «Научно-техническая информация - 2007» («НТИ-2007»), октябрь 2007, ВИНИТИ РАН, г. Москва.
• Вторая Международная конференция «Системный анализ и информационные технологии» САИТ-2007, сентябрь 2007, г. Обнинск.
• ХЫ, ХШ, ХЬШ всероссийские конференции по проблемам математики, информатики, физики и химии в секции «Программные системы», 2005-2007 гг., РУДН, г. Москва.
Публикации
Основные результаты, полученные по теме диссертационной работы, опубликованы в 6 печатных работах (в том числе 1 публикация в ведущем рецензируемом научном издании, рекомендованном ВАК, 3 публикации в трудах научных конференций).
Личный вклад соискателя
Результаты, выносимые на защиту, получены автором самостоятельно.
Структура и объем работы
Диссертация состоит из введения, пяти глав, заключения, списка литературы и приложений. Работа изложена на 177 стр. машинописного текста, содержит 7 таблиц, 12 рисунков, 3 приложения, библиография включает 71 наименование.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы диссертационной работы, показывается её научная новизна, формулируются основные цели и задачи исследования и практическая значимость работы.
В первой главе приводится обзор работ в области семантического анализа текстов. Рассматривается несколько направлений исследований, каждое из которых оценивается с точки зрения возможности использования в автоматическом семантическом анализе.
Работы Кембриджского лингвистического кружка (конец 50-х годов). Основным результатом работы кружка является язык-посредник для записи семантики высказываний на разных языках. Недостатком разработанного языка является его лексическая и семантическая бедность.
Трансформационная грамматика Хомского (начало 60-х годов). Представляет собой грамматику, порождающую все правильные предложения языка. Недостатком трансформационной грамматики является то, что по своей природе она порождающая, т.е. подходит больше для синтеза предложений и текстов, и плохо применима при решении обратной задачи - автоматического семантического анализа текстов на естественных языках.
Формальная семантика Монтегю (начало 70-х годов) является результатом синтеза математической логики и лингвистики. За основу формальной семантики Монтегю взята теория исчисления предикатов, расширенная интенсиональной логикой, включающей лямбда исчисление, расширенную структуру типов, типы функций, играющие важную роль в интенсиональной логике, структуры возможных миров и моментов времени. Недостатками формальной семантики Монтегю являются сложность и чрезмерный формализм, не позволяющие реализовать семантический анализ на практике.
Семантические падежи Филлмора (конец 60-х годов). Чарльз Филлмор предложил предикатно-аргументный синтаксис, который описывает универсальные глубинные структуры языка, и правила перевода глубинных структур в поверхностные, которые реализуются в каждом языке по-своему. Ключевое место в подходе Филлмора занимает понятие падежа, который выражает роль - семантическое содержание аргумента при предикате. Роль - элемент глубинной структуры, а падеж лишь выражает семантическую роль участника ситуации.
Модель «Смысл-Текст» (И.А. Мельчук, середина 60-х годов) основывается на предположении о существовании универсальных ядерных структур, которые встречаются в значительном числе языков мира или во всех языках. Ключевым понятием модели является лексическая функция, ставящая в соответствие данному слову или словосочетанию X другое слово или словосочетание У, определенным образом связанное с X по смыслу.
Во второй главе приводится анализ работ в области автоматического установления смысловых значений лексических единиц - слов и словосочетаний в текстах на естественных языках. Рассматриваются и анализируются результаты применения методов анализа данных для установления семантических ролей лексических единиц текста.
Проблема автоматического установления смысловых значений лексических единиц сводится к построению эвристик, позволяющих определять смысловые значения на основании характеристик элементов предложения, окружающих данную лексическую единицу. Под смысловыми значениями подразумеваются семантические падежи или роли, введенные Ч.Филлмором. Поскольку указанные эвристики невозможно или очень сложно
получить из грамматик естественных языков, приходится использовать методы анализа данных для автоматического порождения указанных эвристик из размеченных корпусов текстов. В первой части главы кратко описаны принципы, на которых основаны типичные методы анализа данных, применяемые в решении этих задач.
Методы анализа данных, известные также как методы Data Mining, предназначены для выявления скрытых закономерностей, причинно-следственных эмпирических зависимостей в данных. Это необходимо для решения задач прогнозирования или диагностики, когда выявленная закономерность используется для определения причин возникновения некоторого явления или предсказания его последствий.
Общая схема работы методов анализа данных состоит из следующих шагов:
1. Предоставление множества обучающих примеров или прецедентов.
2. Выполнение алгоритма обучения.
3. Оценивание предсказательной силы выявленных закономерностей.
4. Применение результатов обучения к новым данным.
Выделено два типа методов анализа данных, применяемых в задачах установления смысла лексических единиц: статистические и логические. Статистические методы опираются на вероятностные подходы к анализу данных, их результатами являются параметры распределений, числа, веса. Логические методы основываются на индуктивном обобщении данных, их результатами являются обычно правила или деревья решений, которые легко интерпретируются человеком.
Для решения задачи установления смысловых значений слов используются с некоторыми модификациями статистические байесовские методы, метод опорных векторов, метод максимизации энтропии, метод к ближайших соседей. Среди логических методов применяются индуктивный метод ЮЗ и методы индуктивного логического программирования (Inductive Logic Programming).
В качестве информативных признаков используются синтаксические и морфологические характеристики элементов предложения, окружающих лексическую единицу, для которой устанавливается смысловое значение. Наиболее важные из них это: взаимное расположение элементов предложения друг относительно друга, отношение синтаксического подчинения слов, пути в синтаксическом дереве от одного слова до другого, типы синтаксических групп, залог глагола, частеречная принадлежность слов. В большинстве работ учитываются слова-лексемы, конкретные словоформы предикатов, имен существительных и предлогов.
Анализ работ показал, что средняя точность предсказания на новых данных для статистических методов составляет 0.815 при полноте 0.67, средняя точность для логических методов составляет 0.75 при полноте 0.54.
Статистические методы дают результаты, обладающие большей предсказательной силой по сравнению с результатами логических методов, поэтому чаще отдаётся предпочтение именно статистическим методам. Статистические методы действенны при больших объёмах обучающих выборок. Для английского языка создано довольно много открытых корпусов, по которым можно создать обучающие примеры. Для русского языка подобных корпусов очень мало и они не достаточно полны.
Все рассмотренные работы в области применения методов анализа данных к установлению смысловых значений лексических единиц текста имеют дело с английским языком, который имеет аналитический строй, в отличие от русского, который имеет синтетический строй. Русский язык более флективен, со свободным порядком слов, поэтому многие признаки, используемые в рассмотренных работах, например, позиция относительно предиката, или залог глагола, являются не столь важными для определения смысловых значений в русском языке. Недостатком рассмотренных подходов является также их опора на лексику, что ограничивает их применение предметной областью, к которой принадлежат корпусы текстов, используемые при обучении.
В третьей главе приводится краткое введение в теорию коммуникативной грамматики русского языка, приводится описание реляционно-ситуационной модели текста и ставится задача исследований.
Известно, что язык служит человеку средством передачи информации. Картина реального мира, жизнь человека в обществе, пропущенные через коллективное человеческое сознание, отражается в языке и становится содержанием коммуникации. Текст на естественном языке отражает общую модель языкового видения человеком мира.
Теория коммуникативной грамматики русского языка, разработанная в Институте русского языка им. В.ВЛЗиноградова РАН Г.А. Золотовой, имеет в основе предположение о тесной связи синтаксиса и семантики в языке, их взаимодействии при выполнении коммуникативной функции языка. Согласно этой теории, синтаксис играет важную роль в формировании осмысленных предложений. Слова-лексемы, единицы словарного состава языка в совокупности его конкретных грамматических форм и выражающих их флексий, а также возможных конкретных смысловых вариантов, сами не передают смысл высказывания. Синтаксис имеет дело с осмысленными единицами, несущими свой не индивидуально-лексический, а обобщенный, категориальный смысл в конструкциях разной степени сложности. Эти единицы характеризуются всегда взаимодействием морфологических, семантических и функциональных признаков. Эти единицы получили название синтаксем. Именная синтаксема характеризуется морфологической формой -предлогом, падежом, категориально-семантическим классом существительного, от которого она образована, и значением. Значение синтаксемы является единицей передаваемого смысла, например, субъект - производитель действия. В конкретном предложении лексическая единица выступает в качестве единицы смысла именно как синтаксема. Таким образом, при работе с текстом необходимо оперировать не лексемами, а синтаксемами.
Реляционно-ситуационная модель текста является формализацией основ коммуникативной грамматики. С помощью аппарата неоднородных семантических сетей текст представляется в виде множества ситуаций, участников этих ситуаций, и отношений между ними. Участники представляются в тексте именными синтаксемами, роли участников в ситуации соответствуют значениям синтаксем, отношениям на множестве участников соответствуют семантические связи. Представление текста в виде семантической сети позволяет находить смысловую близость двух разных текстов сравнением соответствующих им семантических сетей.
Построение реляционно-ситуационной модели заключается в выделении в предложениях текста синтаксем, определении их значений и выявлении связей между синтаксемами. При этом анализ текста выполняется в следующем порядке:
1. Морфологический анализ.
2. Синтаксический анализ.
3. Семантический (реляционно-ситуационный) анализ.
На первом этапе выделяются предложения и слова, на втором этапе устанавливаются подчинительные связи между словами и происходит выделение синтаксем. Семантический анализ имеет своей целью установление смысловых значений синтаксем и определение связей между ними.
Морфологическая форма и категориально-семантический класс именной синтаксемы не однозначно задают её значение, поэтому в анализ вовлекается контекст - глагол или отглагольное существительное, т.е. предикатное слово, при котором именная синтаксема встречается в предложении. В специально созданном словаре перечисляются все возможные значения для синтаксем, а также допустимые синтаксемы при конкретных предикатных словах.
В безглагольных предложениях синтаксемы присутствуют рядом с другими элементами предложения, и несут своё значение только в данном контексте. Зависимость значения синтаксемы от собственных морфологических характеристик и характеристик соседних элементов предложения (не глаголов) является языковой закономерностью, которую необходимо формализовать и зафиксировать для выполнения семантического анализа безглагольных предложений. Такую закономерность для значений синтаксемы можно записать в виде правила, где в посылке правила находятся характеристики самой синтаксемы и соседствующих с ней синтаксем и других элементов предложения, а в заключении правила находится значение, которое необходимо приписать целевой, рассматриваемой синтаксеме.
Построение правил экспертом требует больших трудозатрат на просмотр текстов, где встречаются анализируемые синтаксемы, анализ контекста синтаксем, обобщение признаков, влияющих на значение синтаксемы в разных текстах. Поэтому встала задача автоматического построения таких контекстных правил.
В конце третьей главы приводится постановка задачи исследования: разработка методов автоматического получения правил установления значений синтаксем на основании доступных характеристик самих синтаксем и других элементов предложения, соседствующих с рассматриваемыми синтаксемами в предложении, для снятия семантической многозначности синтаксем.
В четвёртой главе описывается метод порождения правил установления значений синтаксем. Предложенный метод основывается на ДСМ-методе автоматического порождения гипотез, и модифицирует его в направлении учета особенностей характеристик синтаксических единиц текста. После описания модифицированного ДСМ-метода описываются особенности его применения к решению задачи установления значений синтаксем.
ДСМ-метод порождения гипотез, предложенный В.К. Финном, применяется для выявления скрытых причинно-следственных закономерностей в некоторой предметной области. Его задачей является обнаружение причин возникновения некоторого явления, или наличия свойств у объектов из некоторого множества. Решение этой задачи основывается на фактах или обучающем множестве объектов. Найденные причины используются для прогнозирования наблюдения явлений в дальнейшем.
Индуктивный вывод в ДСМ-методе основывается на принципе единственного сходства, сформулированном Д.С. Миллем:
Если какое-то обстоятельство постоянно предшествует наступлению исследуемого явления, в то время как иные обстоятельства изменяются, то это обстоятельство есть, вероятно, причина данного явления.
Суть метода порождения гипотез излагается с помощью теории множеств.
Пусть А - универсальное множество признаков. Оно содержит элемент а® такой, что V а е А, а и ао = а. Этот элемент мы назовем пустым признаком. Признак - некоторая характеристика, идентифицирующая объект, позволяющая отличить его от других объектов.
Любое подмножество А множества признаков будем называть объектом. Объект, не содержащий признаков, будем называть пустым объектом, и обозначать 00.
Определение 1. Фрагментом/объекта о е О называется подмножество его признаков.
Определение 2. Множество признаков называется характеристикой сходства множества объектов О', О' сО, если оно является фрагментом каждого объекта из О'.
Операция вычисления сходства объектов о находит характеристику сходства двух объектов о' б О и о" е О, и обладает следующими свойствами:
1. Коммутативность: о' г> о" = о" с\ о';
2. Ассоциативность: о' о (о" п о'") = (о' п о") п о'".
Для любого непустого подмножества множества О может существовать непустая характеристика сходства, поэтому можно говорить о множестве So характеристик сходств для множества объектов О.
На множестве объектов определим отношение вложенности <:
Объект о'вложен в объект о", если о' является фрагментом о", т.е. о' < о" О о' по" =
о'.
Определение 3. Характеристика сходства s множества объектов О' с О называется максимальной, если она не вложена в другую характеристику сходства, образованную теми же объектами, из которых образована s, и если в неё не вложена характеристика сходства, образованная другими объектами множества О'.
Если предположить, что максимальная характеристика сходства может существовать для каждого подмножества множества О, тогда можно говорить о множестве S0max максимальных характеристик сходств.
Определение 4. Пусть О* - множество непустых подмножеств множества O'er О. Операцией вычисления сходства множества объектов О' с О называется отображение П: О* О, такое, что ПО' = Somax.
Операция вычисления сходства отображает множество объектов в множество максимальных характеристик сходства всех его подмножеств.
Пусть Р - множество свойств объектов. Введем двухместный предикат РОЗЗЕБЙСо, р), интерпретирующий тот факт, что объект о е О обладает свойством р б Р. Этот предикат принимает значения {+, -, 0, т}, что означает следующее:
РОББЕЗЗСо, р) = + означает, что объект о обладает свойством р.
Р088Е88(о, р) = - означает, что объект о не обладает свойством р.
РОБВЕЗБСо, р) = 0 означает, что существует противоречие, и можно сказать, что объект о как обладает свойствомр, так и не обладает им.
Р088Е88(о, р) = т означает неизвестность относительно того, обладает объект о свойством р, или нет.
Множество 0+р = {о | оеО л реР л Р088Е88(о, р) = +} назовем множеством положительных примеров для свойства р.
Множество Ор = {о | оеО а реР л Р088Е88(о, р) = -} назовем множеством отрицательных примеров для свойства р.
Множество 0°р = {о | оеО д реР л Р088Е88(о, р) = 0} назовем множеством противоречивых примеров для свойства р.
Множество Отр = {о | оеО д реР л Р088Е88(о, р) = т} назовем множеством недоопределенных примеров для свойства р.
Задача состоит в том, чтобы выяснить, обладают недоопределенные объекты-примеры свойством р или нет. В зависимости от особенностей предметной области и характера обучающей выборки возможно принятие различных моделей причинно-следственных зависимостей. Опишем простую симметричную модель без блокировок и запретов на контрпример.
Пусть А - характеристика сходства множества из более одного объекта.
Множество Н+ор = {Ь | (Ь е ПО+р)л(Ь £ ПОр)л(Ъ £ ПО°р)} назовём множеством положительных гипотез для свойства р. Это множество гипотез о причинах наличия свойства у объектов.
Множество Н'ор = {Ь | (Ь е ПОр)л(Ъ г ПО+р)л(Ь г ПО°р)} назовём множеством отрицательных гипотез для свойства р. Это множество гипотез о причинах отсутствия свойства у объектов.
Множество Н°ор = {11 | ((Ь е ПОр)л(Ь е ПО+р)^(Ь е ПО°р)} назовём множеством противоречивых гипотез для свойства р. Это множество гипотез, на основании которых можно говорить как о наличии свойства, так и о его отсутствии.
Определим правила для установления значения предиката Р088Е88'(о, р), о е О, р е Р, который выражает предположения о наличии свойства р у объекта о. Р088Е88'(о, р) = Р088Е88(о, р), если Р088Е85(о, р) ф х. Для тех объектов и свойств, для которых Р088Е88(о, р) = т:
Р085Е58'(о,р) =
+,если(Э5:5<ол5еН^р)л(-1Э5':5'<ол5'еН^)л(-1Э8":8"<ол5"еН^р), если(35:5<ол5еН^)л(-,35':$'<ол8'еН^)л(-.3$":5"<ол8"еН?>р), 0, если ((Зб : б < о л б е Н^,) л (Зб': в' 5 о л б' е Н^)) V (Зб" : б" < о л б" е Н^), г, если (^Зб : б < о л б е Н^) л (-пЗб1: в' < о л в е Н^) л (-.Зб" : б" < о л б" е Н^).
Расширим операцию вычисления сходства так, чтобы можно было оперировать объектами с признаками любой природы. Предположим, что на множестве признаков существует отношение выводимости <, которое можно интерпретировать так, что признак а выводится из признака а*, а < а*, если при наблюдении признака а*, можно говорить также о наблюдении признака а, при этом верно, что а < а. Характеристикой сходства двух признаков назовем признак, выводимый одновременно из каждого из двух данных признаков. Понятие характеристики сходства распространяется и на большее число признаков.
Определение 5. Операцией вычисления сходства на множестве признаков А называется отображение ги: А х А —>А, такое, что сопоставляет двум признакам их характеристику сходства.
Операция вычисления сходства двух объектов о' е О и о" е О будет выполняться по формуле:
о'по"= . и (а'пАа") (*)
о €0 ¿1 ЁО
В связи с появлением операции вычисления сходства на множестве признаков, необходимо переопределить понятие характеристики сходства объектов.
Определение 6. Множество признаков называется характеристикой сходства множества объектов О', О' с О, если каждый его элемент является характеристикой сходства признаков каждого объекта из О'.
Поскольку переопределенная характеристика сходства является множеством признаков, то для неё остаются действительными отношения вложенности и максимальности, и, следовательно, остается в силе определение операции вычисления сходства множества объектов (определение 4.).
Имеет место следующее утверждение:
Утверждение 1. Операция вычисления сходства (*) п объектов о' еОио" еО обладает свойствами коммутативности и ассоциативности тогда, когда этими же свойствами обладает операция вычисления сходства Па на признаках.
В рассматриваемой предметной области существуют совокупности признаков, в которых элементы не могут существовать друг без друга. Такая совокупность является неделимым признаком, который назовем составным признаком.
Составной признак состоит из нескольких признаков, но рассматривается не как множество независимых признаков, а как один признак. Для составного признака определяется своя операция вычисления сходства, результатом которой является составной
признак, но не его составляющие по отдельности. Составной признак может быть в составе другого составного признака.
Простейшим примером операции вычисления сходства двух составных признаков является объединение результатов операции вычисления сходства для всех составляющих их признаков.
Пусть са' и са" - составные признаки, са' = {а1, : a'i g A}, i = 1... Nca', са" = {а" : а" е A}, i = 1... Тогда
Nca' NoCa' Пд са" = и и (a'i пАа";)
M )-1
Составные признаки специально введены для того, чтобы операцию вычисления сходства на них можно было определить особенным образом, при соблюдении свойств коммутативности и ассоциативности этой операции. Например, можно потребовать, чтобы число признаков результата операции вычисления сходства двух составных признаков равнялось числу признаков одного из операндов.
INca' Nca' ' Nca' Nca' '
и и (a' i nA a"j), если | u y (a', nA a"j) |= min(N c,, Na..), ^ a 0, иначе.
Имеет место следующее утверждение:
Утверждение 2. Операция вычисления сходства составных признаков (**) обладает свойствами коммутативности и ассоциативности тогда, когда этими же свойствами обладает операция вычисления сходства компонентов составного признака.
Пусть контекст с объекта о s О описывается множеством признаков из универсального множества А. Тогда можно говорить о множестве С контекстов объектов. Множество контекстов образовано так же, как множество объектов, поэтому все свойства множества объектов выполняются и для множества контекстов. Например, операцию вычисления сходства двух контекстов естественно определить так же как операцию вычисления сходства двух объектов с признаками произвольной природы (см. формулу (*)).
Определение 7. Объектом в контексте ос назовем пару <о, с>, где о е О, с е С.
Операция вычисления сходства двух объектов в контексте будет выполняться по следующей формуле:
{< о'оо''.с'пс''>,если o'no'V о.,
(***)
< Ои. с« >, иначе.
Имеет место следующее утверждение:
Утверждение 3. Операция вычисления сходства объектов в контексте (***) обладает свойствами коммутативности и ассоциативности тогда, когда этими же свойствами обладает операция вычисления сходства над элементами множеств С и О.
Во второй части четвёртой главы подробно описывается применение предложенного метода к задаче порождения правил установления значений синтаксем.
Пусть PPS - множество предлогов русского языка, PPS = {в, над, под, ...} (всего 102 предлога). CAS - множество падежей русского языка, CAS = {именительный, родительный, дательный, винительный, творительный, предложный}. CAS* - множество непустых
подмножеств множества CAS. Множество категориально-семантических классов KSC содержит следующие элементы: KSC = {личное, предметное, признаковое, пространственное, темпоративное, параметр_измерения, единица_измерения}. Множество PST = {до, после, не важно} - множество позиций, множество POS = {числительное, прилагательное в сравнительной степени} - множество частей речи. Перечисленные признаки являются элементарными.
Множество синтаксем SYN содержит тройки <pps, cas*, ksc>, где pps е PPS, cas* s CAS*, ksc e KSC. Множество синтаксем в позиции SYNPST состоит из пар <syn, pst>, где syn e SYN, pst e PST. Множество частей речи в позиции POSPST состоит из пар <pos, pst>, где pos б POS, pst 6 PST. Перечисленные признаки являются составными. Зададим операции вычисления сходства:
1.
Vsyn' е SYN, Vsyn' 's SYN, syn' гл л syn' ' =
|< pps' пА pps' '.cas*' nл cas*' ',ksc' nA ksc' '>,если
(pps' r\A pps' ' Ф a0) л (cas*' r¡A cas*' a0) л (ksc' n^ ksc' a0) a0.иначе
2.
Vsynpst* e SYNPST, Vsynpst' 'e SYNPST, synpst' nA synpst' ' =
{< syn' n^ syn' ',psf nA pst' '>,если syn' nA syn' a0 а0.иначе
3.
Vpospst' e POSPST, Vpospst' 'e POSPST, pospst' n A pospst' '=
{< pos' r¡A pos' ',pst' nA pst' '>,если pos' nA pos' 'Ф a0 а0.иначе
Синтаксема описьшается одним составным признаком типа «синтаксема». Контекст синтаксемы описывается признаками типа «синтаксема в позиции» и «часть речи в позиции».
Определение 8. Синтаксемой в контексте ос называется пара <о, с>, где о e SYN, с е SYNPST х POSPST.
Под правилом подразумевается логическая связка «если посылка, то заключение». Введем формальное определение:
Определение 9. Правилом установления значения синтаксем является пара rp = <hp, р>, где hpeHpcOç - посылка правила, получаемая в результате выполнения операции вычисления сходства для множества синтаксем, имеющих значение р, а р - заключение правила, являющееся значением синтаксем.
Определение 10. Множеством конфликтных правил Rconf называется множество правил с одинаковыми посылками, но с разными заключениями.
Пусть Р - множество синтаксических значений, Р = {аблатив, абстинатив,...} (всего 81 элемент). Тот факт, что синтаксема ос е Ос имеет или не имеет значение р будем выражать
предикатом Р055Е85(ос, р). Этот предикат в несимметричной положительной модели принимает два значения {+ (истина), т (неизвестно)}.
Множество синтаксем в контексте, для которых предикат РОЗБЕБЗф, р) истинен, обозначим как 0£.
= {ос | осеОс л реР л РОББЕЗЗ^с, р) = +}.
Критерии поиска посылок правил установления значений синтаксем:
Ь 6 Нр <=> (Ь 6 ПО£) л (-пЭр': Ь е ПО£).
Ь бНсоотО(Эр:ЬбПО^)л(Зр':ЬбПО£').
Алгоритм порождения правил установления значений синтаксем
Шаг А. Предварительно все синтаксемы разбиваются на множества синтаксем, имеющих одинаковые значения. Далее дня каждой синтаксемы определяются её морфологически признаки и устанавливаются признаки контекста. Строятся объекты «синтаксема в контексте». Далее каждое множество объектов-синтаксем в контексте обрабатывается по следующему алгоритму:
Шаг А.1. Выбирается первый не пустой объект, он считается текущим;
Шаг А.2. Берется другой объект и находится характеристика сходства его с текущим объектом. Если характеристика сходства - пустой объект, то происходит переход к другому объекту, если характеристика сходства не пуста, применяется операция сходства для неё и следующего объекта и так далее, пока не просмотрено все множество объектов;
Шаг А.З. Запоминается найденная характеристика сходства и объекты первоначального множества, в которые она вложена. Из объектов, в которые вложена характеристика сходства, вычитаются признаки, формирующие эту характеристику сходства. Процедура повторяется с шага 1, пока находятся непустые характеристики сходства;
Шаг А.4. Для каждой полученной характеристики сходства выполняется операция сходства для объектов из первоначального множества, в которые вложена данная характеристика сходства. Если полученный результат совпадает с данной характеристикой сходства, то данная характеристика сходства добавляется в правило в качестве посылки. Следствием этого правила является значение синтаксем текущего множества.
Шаг Б. После того, как обработаны все множества объектов-синтаксем в контексте с одинаковыми значениями, для каждого полученного правила проверяется, не вложена ли его посылка в какую-либо посылку правил установления другого значения. Если вложенности нет, то правило помещается в конечное множество правил, если вложенность есть, то правило помещается в множество конфликтных правил.
Оценена сложность алгоритма и доказано следующее утверждение:
Утверждение 4: Описанный выше алгоритм порождает правила установления значений синтаксем.
В конце четвертой главы представлен алгоритм порождения правил установления значений синтаксем.
В пятой главе описывается экспериментальная проверка предложенного метода порождения правил установления значений синтаксем, анализируются полученные в результате выполнения метода правила.
Материалом для построения контекстных правил установления значений синтаксем послужила электронная версия синтаксического словаря Г.А. Золотовой, в котором перечисляются синтаксемы и приводятся примеры их встречаемости в текстах русской литературы и периодики. В словаре синтаксемы размечены специальными знаками, что позволяет автоматически построить обучающие примеры - синтаксемы в контексте.
После построения обучающих примеров выполнялось обучение - порождение правил установления значений синтаксем. Для каждого правила сохранялись обучающие примеры, по которым оно было построено. Для более доступного восприятия правил была реализована специальная процедура формирования словесной интерпретации правил. Приведем пример работы данной процедуры для правила установления значения «дестинатив» (назначение предмета или действия) для синтаксемы родительного падежа с предлогом «для»:
Правило: Если встречается синтаксема в падеже <родительный> с предлогом <для>, имеющая категориальный класс <личное>, а до неё встречается синтаксема в падеже <именительный>, имеющая категориальный класс <предметное>, то полагается, что первая синтаксема имеет значение «дестинатив - назначение предмета или действия>
Фрагмент обучающей выборки:
Пример 1:
ЗНАЧЕНИЕ = дестинатив
ЦЕЛЕВАЯ СИНТАКСЕМА = для тебя; КСК: личное
СОСЕДНЯЯ СИНТАКСЕМА = Все; ПРЕДЛОГ: ¡ПАДЕЖ: им.вин.; КСК: предметное; ПОЗИЦИЯ: до
===КОНТЕКСТ: и песни, и силы - Все для тебя.
Пример 2:
ЗНАЧЕНИЕ = дестинатив
ЦЕЛЕВАЯ СИНТАКСЕМА= для различных рачков; КСК: личное
СОСЕДНЯЯ СИНТАКСЕМА = пища; ПРЕДЛОГ: ;ПАДЕЖ: им.; КСК: предметное; ПОЗИЦИЯ: до
===КОНТЕКСТ: Эти растения - пища для различных рачков
В примерах поле «КОНТЕКСТ» содержит предложение, из которого был построен пример. Метод порождения правил выполнялся для всех синтаксем словаря, кроме синтаксем именительного падежа. В результате было получено более тысячи правил.
Было обнаружено большое количество конфликтных правил, которые при одинаковых посылках имели разные заключения. Причиной наличия конфликтных правил оказалась противоречивость примеров обучающего множества. Для того чтобы снизить действие конфликтных правил, была предложена специальная процедура предсказания значений на новых данных, которая взвешивает множество конфликтных правил и позволяет выбрать одно из них, наиболее вероятное.
Проверка предсказательной силы полученных правил показала, что точность предсказания на новых данных составила 0.83 при полноте 0.58, что соответствует средним показателям результативности применения логических методов анализа данных к задачам установления смысловых значений слов.
Для снятия многозначности синтаксем предложен алгоритм, использующий полученные правила, состоящий из следующих шагов для каждой синтаксемы:
Алгоритм снятия семантической многозначности синтаксем
Шаг 1. Определить с помощью специального словаря предикатов все возможные значения синтаксемы;
Шаг 2. Для синтаксемы выполнить процедуру предсказания значения на основе правил. Результатом выполнения процедуры предсказания является множество возможных значений, упорядоченных по убыванию их веса;
Шаг 3. Выполнить пересечение значений, полученных на шаге 1 и шаге 2;
Шаг 4. Если пересечение значений, полученных на шаге 3, пусто, то в конечное множество значений поместить все значения, полученные на шаге 1 из словаря предикатов. Если пересечение не пусто, то упорядочить полученные значения по весу, приписанному им на шаге 2, и поместить их в конечное множество значений. После этого можно выбрать одно наиболее весомое значение.
Предложенный алгоритм снижает воздействие полученных на шаге 2 конфликтных гипотез. Алгоритм помогает снять многозначность двумя способами: во-первых, он снижает количество возможных значений пересечением первоначального множества значений с множеством значений, полученных в результате применения правил; если пересечение всё же содержит более одного значения, то из оставшихся можно выбрать единственное значение с наибольшим весом, что будет соответствовать выбору наиболее типичного (частого) значения для данной синтаксемы (вернее, значения, наиболее типичного для предметной области, которой принадлежат тексты, используемые в обучении).
В конце пятой главы приводятся результаты выполнения процедуры снятия многозначности на реальных данных. Показано, что выполнение процедуры снятия семантической многозначности синтаксем уменьшает число ошибок семантического анализа безглагольных предложений в среднем в 3,32 раза, при этом общая точность семантического анализа текстов повышается на 16%, что подтверждается независимыми оценками. Обсуждается значимость полученных правил для прикладных и теоретических задач в области лингвистики.
В заключении приведены основные выводы и результаты, полученные в диссертационной работе.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ, ВЫНОСИМЫЕ НА ЗАЩИТУ
1. Разработана модификация ДСМ-метода порождения гипотез, расширяющая его применимость, в частности, позволяющая оперировать объектами с признаками произвольной природы, составными признаками, и объектами в контекстах. Предложенная модификация позволяет оперировать сложными лингвистическими объектами «синтаксема» или «синтаксема в контексте» без нарушения их внутренней логической структуры.
2. На основе модифицированного метода порождения гипотез разработан и реализован метод автоматического порождения правил установления значений синтаксем. С помощью разработанного метода получены правила установления значений синтаксем.
3. Разработаны и реализованы метод установления значений синтаксем и метод снятия семантической многозначности синтаксем на основе правил установления значений синтаксем. Показано, что указанные методы повышают точность семантического анализа текстов на 16%.
4. Полученные правила установления значений синтаксем, и программные реализации разработанных методов используются в системе семантического поиска документов Exactus, демонстрационная версия которой доступна в Интернет по адресу http://www.exactus.ru.
СПИСОК ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ РАБОТ
1. Смирнов И.В. Метод автоматического установления значений минимальных синтаксических единиц текста. // Информационные технологии и вычислительные системы. - 2008. - №3. - С. 30-45.
2. Смирнов И.В. Порождение правил установления значений минимальных семантико-синтаксических единиц текста. // Научно-техническая информация. Сер. 2. «Информационные процессы и системы». - 2007. - №6. - С. 1-6.
3. Smirnov I.V. Producing Rules for Ascertaining Meanings of Minimal Semantic-Syntactic Text Units. // Automatic Documentation and Mathematical Linguistics. - 2007. - Vol. 41, No. 3. - pp. 108-113.
4. Смирнов И.В. Порождение правил установления значений минимальных семантико-синтаксических единиц текста. // Труды Второй Международной конференции «Системный анализ и информационные технологии» САИТ-2007. - М.: Издательство ЛКИ, 2007. - С. 160-168.
5. Смирнов И.В. Опыт разработки и внедрения методов интеллектуального поиска. // Труды XLII всероссийской конференции по проблемам математики, информатики, физики и химии. - М.: Изд-во РУДН, 2006. - С. 66-81.
6. Осипов Г.С., Завьялова О.С., Климовский А.А., Кузнецов И.А., Тихомиров И.А., Смирнов И.В. Проблемы обеспечения точности и полноты поиска: Пути решения в интеллектуальной метапоисковой системе "Сириус". // Труды международной конференции «Диалог'2005». - Москва: Наука, 2005. - С. 390-395.
Подписано в печать: 15.10.2008 г. Отпечатано: 15.10.2008 г.
Отпечатано в типографии ООО "Дельфорг", ИНН 7705756857 г. Москва, ул. М.Каменщики,д. 16 Заказ № 550
Бумага офсетная. Печать трафаретная ризографическая. Усл. печ.л. 1,25. Тираж 75 экз.
Оглавление автор диссертации — кандидата физико-математических наук Смирнов, Иван Валентинович
Введение.
Актуальность темы.
Цель работы.
Методы исследования.
Новизна
Практическая значимость работы.
Апробация работы.
Структура и объем работы.
1. Работы в области семантического анализа текста.
1.1. Работы Кембриджского лингвистического кружка.
1.2. Трансформационная грамматика Хомского.
1.3. Формальная семантика Монтегю.
1.4. Семантические падежи Филлмора.
1.5. Модель «Смысл-Текст».
1.6. Выводы.
2. Установление значений синтаксических единиц текста с помощью методов анализа данных.
2.1. Методы анализа данных.
2.1.1. Статистические методы анализа данных.
2.1.2. Логические методы анализа данных.
2.2. Методы анализа данных в решении задачи установления значений синтаксических единиц текста.
2.3. Выводы.
Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Смирнов, Иван Валентинович
Актуальность темы
Принятие решений по управлению сложными системами должно основываться на информации, отражающей текущее состояние систем. Эта информация может быть получена в результате предварительного поиска «сырых» данных и их последующего анализа. Методы обработки структурированной (числовой, или фактографической) информации, достаточно развиты и дают хорошие результаты. Иначе обстоит дело с обработкой полуструктурированной информации - поиском и извлечением данных из текстов. Методы извлечения информации из текстов в настоящее время исследованы недостаточно и дают приемлемые результаты только для узких предметных областей. Методы поиска информации также оставляют желать лучшего. Известно, что традиционные поисковые системы обладают низкой релевантностью и большим шумом. Это связано с тем, что традиционный подход к поиску основывается только на статистических характеристиках слов, при этом игнорируется лингвистическая составляющая текстов, а слово рассматривается просто как цепочка символов. Не учитывается смысл, передаваемый текстом на естественном языке.
Преодоление указанных трудностей состоит в применении методов семантического анализа текстов, когда каждое предложение текста рассматривается как осмысленное высказывание, состоящее из синтаксических единиц, каждая из которых несет элементарный смысл. Семантика всего высказывания при этом складывается из комбинации смыслов этих синтаксических единиц. Применение методов семантического анализа в поиске текстов является весьма актуальным, т.к. позволяет находить документы, близкие запросу по смыслу, тем самым существенно повышая точность поиска.
Методы, реализующие семантический анализ текстов, должны опираться на лингвистические теории, описывающие механизмы передачи смысла (семантики) языковыми средствами, однако эти механизмы, как правило, не отражены в грамматиках языков. Настоящая работа посвящена исследованию и применению методов интеллектуального анализа данных для выявления механизмов передачи семантики применительно к задачам семантического поиска и извлечения фактографической информации из текстов на примере русского языка.
Цель работы
Целью диссертационной работы является повышение точности автоматического семантического анализа текстов на естественных языках.
Для достижения поставленной цели в работе решаются следующие задачи:
1. Применение методов теории коммуникативной грамматики русского языка для построения реляционно-ситуационной модели текста.
2. Разработка индуктивного метода порождения правил установления значений синтаксических единиц текста (синтаксем).
3. Разработка метода снятия семантической многозначности (полисемии) синтаксем на основе полученных правил.
4. Разработка программных средств порождения правил установления значений и снятия полисемии синтаксем.
5. Экспериментальная проверка разработанных методов.
Методы исследования
В диссертационной работе использованы методы интеллектуального анализа данных, методы теории множеств, методы представления знаний, в частности, неоднородные семантические сети, теория коммуникативной грамматики русского языка.
Новизна
Научная новизна работы заключается в следующем:
1. Для представления семантики высказываний применены теория неоднородных семантических сетей и теория коммуникативной грамматики русского языка.
2. Предложена модификация ДСМ-метода порождения гипотез, расширяющая область его применимости, в частности, позволяющая оперировать лингвистическими объектами, имеющими сложную логическую структуру.
3. Предложен индуктивный метод автоматического получения правил установления значений синтаксических единиц естественных языков.
4. Предложен метод использования полученных правил для снятия семантической многозначности синтаксических единиц естественных языков, позволяющий значительно повысить точность семантического анализа текстов.
Практическая значимость работы
Предложенная в работе модификация ДСМ-метода порождения гипотез может применяться в решении задач интеллектуального анализа данных.
Полученные правила установления значений синтаксических единиц текста могут использоваться в любых приложениях в области компьютерной лингвистики, имеющих дело с семантическим анализом текста, в частности в семантических поисковых машинах.
Методы, правила, и алгоритмы реализованы в виде независимых программных модулей и используются в следующих проектах: • Программа фундаментальных исследований отделения информационных технологий и вычислительных систем РАН (ОИТВС РАН)
Фундаментальные основы информационных технологий и систем", проект № 2.9.
• «Разработка программных средств смыслового поиска и анализа материалов научных исследований в области наук о жизни, опубликованных на естественных языках в научной печати и в Интернете» шифр ИТ-13.5/001, выполняемого в рамках федеральной целевой научно-технической программы «Исследования и разработки по приоритетным направлениям развития науки и техники».
• «Исследование и разработка параллельных алгоритмов анализа больших объемов текстовой информации из глобальной сети и алгоритмов принятия решений на основе когнитивных методов» научно-технической программы Союзного государства «Развитие и внедрение в государствах-участниках Союзного государства наукоёмких компьютерных технологий на базе мультипроцессорных вычислительных систем» (шифр «ТРИАДА»).
Апробация работы
Основные положения работы докладывались и обсуждались на следующих научных конференциях:
• Научная конференция «25 лет исследований по ДСМ-методу: логика, анализ данных, интеллектуальные системы (ДСМ-2006)», декабрь 2006, ВИНИТИ РАН, г. Москва.
• 7-я Международная конференция «Научно-техническая информация -2007» («НТИ-2007»), октябрь 2007, ВИНИТИ РАН, г. Москва.
• Вторая Международная конференция «Системный анализ и информационные технологии» САИТ-2007, сентябрь 2007, г. Обнинск.
• XLI, XLII, XLIII всероссийские конференции по проблемам математики, информатики, физики и химии в секции «Программные системы», 20052007 года, РУДН, г.Москва.
Основные результаты, полученные по теме диссертационной работы, опубликованы в 5 печатных работах (в том числе 1 публикация в ведущем рецензируемом научном издании, рекомендованном ВАК, 2 публикации в трудах научных конференций).
Структура и объем работы
Диссертация состоит из введения, пяти глав, заключения, списка литературы и приложений. Работа изложена на 177 стр. машинописного текста, содержит 7 таблиц, 12 рисунков, 3 приложения, библиография включает 71 наименование.
Заключение диссертация на тему "Исследование методов установления значений синтаксических единиц естественных языков на основе интеллектуального анализа данных"
5.8. Выводы.
В результате компьютерных экспериментов получены правила установления смысловых значений синтаксических единиц текста для русского языка.
В ходе экспериментов было обнаружено большое количество конфликтных правил, что является следствием наличия противоречивых обучающих примеров. Предложенный метод установления значений на основе полученных правил позволяет снизить воздействие конфликтных правил.
Предложенный метод снятия смысловой многозначности синтаксем с использованием правил позволяет выбрать одно значение для синтаксемы из всех возможных, что уменьшает число ошибок семантического анализа безглагольных предложений в среднем в 3,32 раза, при этом точность семантического анализа текстов повышается на 16%.
Показано, как полученные результаты используются в задачах семантического поиска, повышая его точность.
Заключение
В диссертационной работе показано, как теория коммуникативной грамматики и реляционно-ситуационная модель текста используются в семантическом анализе текстов на естественных языках.
В ходе диссертационной работы выполнен анализ работ в области применения методов анализа данных к установлению семантических значений синтаксических единиц и смысла высказываний на естественных языках.
Разработанная модификация ДСМ-метода порождения гипотез позволяет оперировать объектами с признаками произвольной природы, составными признаками и объектами в контекстах. Полученная модификация позволяет оперировать сложными лингвистическими объектами «синтаксема» или «синтаксема в позиции» без нарушения их внутренней структуры.
На основе модификации метода порождения гипотез разработаны метод и алгоритм порождения правил установления семантических значений синтаксических единиц текста. Показано, что разработанный алгоритм корректен, оценена его сложность.
С помощью разработанного метода порождены правила установления семантических значений синтаксических единиц текста. Предложена - процедура-установления-значений синтаксических единиц текста на основе порожденных правил.
Разработан алгоритм снятия семантической многозначности синтаксических единиц текста с использованием полученных правил и показано, что разработанный алгоритм повышает точность семантического анализа текстов на 16%. Независимыми оценками показано, что повышение точности семантического анализа приводит к повышению точности семантического поиска.
Библиография Смирнов, Иван Валентинович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Аншаков, 1996. Аншаков О.М. О решетке данных для ДСМ-метода автоматического порождения гипотез. // НТИ*, №5-6, 1996.
2. Аншаков, 1999. Аншаков О.М. Об одной интерпретации ДСМ-метода автоматического порождения гипотез. // НТИ, №1, 1999.
3. Апресян, 1967. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. Москва, "Наука", 1967.
4. Апресян, 1974. Апресян Ю. Д. Лексическая семантика. М., 1974.
5. Апресян и др., 1989. Ю.Д.Апресян, И.М.Богуславский, Л.Л.Иомдин,
6. A.В.Лазурский, Н.В.Перцов, В.З. Санников, Л.Л.Цинман. Лингвистическое обеспечение системы ЭТАП-2. // М.: Наука, 1989, 296 с.
7. Борщев, 1993. Борщев В.Б. О постулатах ДСМ-метода. // журнал Новости Искусственного Интеллекта, специальный выпуск к 60-летию1. B.К. Финна, Москва 1993.
8. Гусакова, Кузнецов, 1995. Гусакова С.М., Кузнецов С.О. Сходство в обобщенном ДСМ-методе и алгоритм его порождения. // НТИ, №5, 1995.
9. Завьялова, 2004. Завьялова О.С. О принципах построения словаря глаголов для задач автоматического анализа текста.// Труды международной конференции Диалог'2004.
10. Зализняк, 1980. Зализняк А.А. Грамматический словарь русского языка М.: Русский язык, 1980 г.
11. Золотова и др., 2004. Золотова Г. А., Онипенко Н. К., Сидорова М. Ю. Коммуникативная грамматика русского языка. — М. 2004. 544 с.
12. ВИНИТИ, Ежемесячный научно-технический сборник «Научно-техническая информация», Сер. 2, Информ. процессы и системы.
13. Золотова, 2001. Золотова Г. А. Синтаксический словарь. Репертуар элементарных единиц русского синтаксиса. М.: Эдиториал УРСС, 2001. -440 с.
14. Золотова, 2003.3олотова Г.А., Коммуникативные аспекты русского языка. М.: Эдиториал УРСС, 2003. 368 с.
15. Кузнецов, 1999. Кузнецов С.О. О некоторых вопросах анализа понятий. //НТИ,№1, 1999.
16. Мельчук, 1974. И. А. Мельчук. Опыт теории лингвистических моделей «Смысл Текст». М., 1974 (2-е изд., 1999).
17. Новицкая, 2006. Новицкая К.В. Применение ДСМ-метода автоматического порождения гипотез для классификации текстов по тамам.// НТИ, №5, 2006.
18. Объедков, 1999. Объедков С.А. Алгоритмические аспекты ДСМ-метода автоматического порождения гипотез. //НТИ, №1, 1999.
19. Осипов, 1997. Осипов Г.С. Приобретение знаний интеллектуальными системами. -М.: Наука. Физматлит, 1997.
20. Осипов и др., 2005. Осипов Г.С., Завьялова О.С., Смирнов И.В., Тихомиров И.А. Интеллектуальный семантический поиск с привлечением средств метапоиска. // Труды международной конференции ИАИ'2005, Киев: Просвита, 2005. С. 214-224.
21. Панкратова и др., 2002. Панкратова Е.С., Панкратов Д.В., Финн В.К., Шабалова И.П. Применение ДСМ-метода для прогнозирования высокопатогенных типов вируса папилломы человека.// НТИ, №6, 2002.
22. Путрин, 1999. Путрин А.В. Описание программной реализации ДСМ-системы для прогнозирования химической канцерогенности. // НТИ, №12, 1999:
23. Сокирко, 2004. Сокирко А.В. Морфологические модули на сайте www.aot.ru. Труды Международного семинара Диалог'2004 по компьютерной лингвистике и ее приложениям. Верхневолжский, 2-7 июня 2004 г.
24. Тихомиров, 2004. Тихомиров И.А. Представление текста в задачах семантического поиска. // Сборник трудов 4-го российско-украинского научного семинара "Интеллектуальный анализ информации", Киев: Просвита 2004. С. 200-209.
25. Тихомиров, 2008. Тихомиров И.А. Поисковый алгоритм Exactus и его экспериментальная оценка. // Сборник трудов 7-й международной конференции «Интеллектуальный анализ информации» ИАИ-2008. Киев: Просвита, 2004. С. 485-491.
26. Филлмор, 1981а. Филлмор Ч. Дело о падеже. // Новое в зарубежной лингвистике. Вып. X. М., 1981. С. 400-444.
27. Филлмор, 19816. Филлмор Ч. Дело о падеже открывается вновь. // Новое в зарубежной лингвистике. Вып. X. М., 1981. С. 496-530.
28. Финн, 2000. Финн. В.К. ДСМ-метод как средство анализа каузальных зависимостей в интеллектуальных системах. // НТИ, №11, 2000.
29. Финн2, 2000. Финн. В.К. О некоторых металогических и алгоритмических аспектах разработки интеллектуальных систем типа ДСМ.//НТИ, №3,2000.
30. Финн, 2001. Финн. В.К. Об особенностях ДСМ-метода как средства интеллектуального анализа данных. // НТИ, №5, 2001.
31. Хомский, 1962. Хомский Н. Синтаксические структуры. Пер. с англ. К. И. Бабицкого и В. А. Успенского // Новое в зарубежной лингвистике. II. М.: ИИЛ, 1962. С. 412—527.
32. Хомский, 2000. Хомский Н. Логические основы лингвистической теории. Пер. с англ. И. А. Мельчука. // Логические основы лингвистической теории. Биробиджан: ИЦ «Тривиум», 2000. С. 3—114.
33. Brin and Page, 1998. Sergey Brin, Lawrence Page. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(17):107117, 1998.
34. Berger et al., 1996. Adam L. Berger, Stephen A. Delia Pietra, and Vincent J. Delia Pietra. A maximum entropy approach to natural language processing. // Computational Linguistics, 1996, 22(1):39.71.
35. Blunsom, 2004. Phil Blunsom, Maximum Entropy Markov Models for Semantic Role Labelling. // Proceedings of the Australasian Language Technology Workshop 2004, Macquarie University, Sydney, December 8th, 2004.
36. Busser and Moens, 2003. Rik De Busser, Marie-Francine Moens, Learning generic semantic roles. // Technical Report, 15p.
37. Church and Hanks, 1989. Church, K.W., and Hanks, P., 1989, Word association norms, mutual information, and lexicography. // Proceedings of
38. ACL'89, 27th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, pp. 76-83.
39. Cussens and Dzeroski, 2000. Cussens, J., and Dzeroski, S., 2000, Learning language in logic. // Vol. 1925, LNAI, Springer Verlag.
40. Erk and Pado, 2006. Katrin Erk and Sebastian Pado, SHALMANESER- A Toolchain For Shallow Semantic Parsing. // Proceedings of LREC 2006, Genoa, Italy.
41. Finn, 1995. V.K. Finn, JSM-reasonong for Control Problems in open (+-)-worlds // Works of 10-th IEEE International Symposium on Intelligent Control, 1995.
42. Gildea and Jurafsky, 2002. Daniel Gildea, Daniel Jurafsky, Automatic labeling of Semantic Roles // Computational Linguistsics, Volume 28, Issue 3, 2002.
43. Hearst, 1992. Hearst, M.A., 1992, Automatic acquisition of hyponyms from large text corpora. // Proceedings of COLING'92, 14th International Conference on Computational Linguistics, Nantes, France, pp. 539-545.
44. Lappin, 2007. Shalom Lappin. Intensional Theories of Meaning: Introduction to Montague Semantics // http://www.dcs.kcl.ac.uk/staff/lappin/seminar07/seminar07 montague seman tics.pdf.
45. Manning and Schutze, 1999. Manning, C.D., and Schutze, H., 1999, Foundations of Statistical Natural Language Processing, MIT Press, Cambridge, Massachusetts, USA.
46. Michalski et al., 1996. R.S. Michalski, I. Bratko, and M. Kubat, Machine Learning and Data Mining: Methods and Applications, 1996, John Wiley & Sons Ltd.
47. Mitchell, 1997. Mitchell, T.M., 1997, Machine Learning, McGraw-Hill.
48. Montague, 1974. Montague, Richard. Formal Philosophy: Selected Papers of Richard Montague. Edited and with an introduction by Richmond Thomason, New Haven: Yale Univ. Press. 1974.
49. Mooney, 2007. Raymond J. Mooney, 2007, Learning for Semantic Parsing. // Proceedings of the 8th International Conference, CICLing 2007, Mexico City, pp. 311-324, Springer, Berlin, Germany, February 2007.
50. Muggleton and Raedt, 1994. Muggleton, S., and De Raedt, L., 1994, Inductive logic programming: theory and methods. // Journal of Logic Programming, 19-20:629-679.
51. Osipov, 1995. Osipov G.S. Method for Extracting Semantic Types of Natural Language Statements from Texts Proc. 10-th IEEE Intern. Simposium on Intelligent Control. Monterey, California, 1995.
52. Oueslati, 1999. Oueslati, R., 1999, Aide a Г acquisition de connaissances a partir de corpus, PhD thesis, Universite Louis Pasteur, Strasbourg, France.
53. Partee и Борщев, 2003. B.H. Partee и В.Б. Борщев. Интеграция лексической и формальной (композиционной) семантики. Лекции, Апрель 2003. http://www.ksu.ru/ss/cogsci04/education/partee.php3.
54. Pradhan et al., 2005. Sameer Pradhan, Kadri Hacioglu, Valeri Krugler, Wayne Ward, James H. Martin, and Daniel Jurafsky. Support vector learning for semantic argument classification. // Machine Learning Journal, 2005.
55. Pradhan, 2005. Sameer Pradhan, Kadri Hacioglu, Valerie Krugler, Wayne Ward, James H. Martin, Daniel Jurafsky, Support Vector Learning for Semantic Argument Classification. // Machine Learning, 60, 11-39, 2005.
56. Rohit et al., 2004. Rohit J. Kate, Yuk Wah Wong, Ruifang Ge, Raymond J. Mooney, Learning Transformation Rules for Semantic Parsing, Unpublished Technical Note, April 2004.
57. Rohit and Mooney, 2007. Rohit J. Kate and Raymond J. Mooney. Semi-Supervised Learning for Semantic Parsing using Support Vector Machines. // Proceedings of the Human Language Technology Conference of the North
58. American Chapter of the Association for Computational Linguistics, Short Papers (NAACL/HLT-2007), pp. 81-84, Rochester, NY, April 2007.
59. Toutanova et al., 2005. Kristina Toutanova, Aria Haghighi, Christopher Manning, Joint Learning Improves Semantic Role Labeling. // Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, p.589-596, June 25-30, 2005.
60. Yamada and Baldwin, 2004. Ichiro Yamada, Timothy Baldwin. Automatic Discovery of Telic and Agentive Roles from Corpus Data // Proceeding of the 18th Pacific Asia Conference on Language, Information and Computation, Tokyo, Japan, 2004, pp. 115-126.
-
Похожие работы
- Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа
- Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы
- Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе
- Реализация автоматической синтаксической сегментации русского предложения
- Модель принятия решения на основе синтаксического анализа в задачах обработки патентной информации
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность