автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и программные средства извлечения терминологической информации из научно-технических текстов
Автореферат диссертации по теме "Методы и программные средства извлечения терминологической информации из научно-технических текстов"
Московский государственный университет имени М.В. Ломоносова
На правах рукописи
Ефремова Наталья Эрнестовна
МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА ИЗВЛЕЧЕНИЯ ТЕРМИНОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ИЗ НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ
05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
2 5 АПР ^013
Москва - 2013
005057908
005057908
Работа выполнена на кафедре алгоритмических языков факультета вычислительной математики и кибернетики Московского государственного университета имени М.В. Ломоносова
Научный руководитель:
кандидат физико-математических наук, доцент Большакова Е.И.
Официальные оппоненты:
доктор технических наук, профессор Хорошевский В.Ф.
кандидат физико-математических наук Лукашевич Н.В.
Ведущая организация:
Институт системного анализа РАН
Защита диссертации состоится 17 мая 2013 года в 11 часов на заседании диссертационного совета Д 501.001.44 при Московском государственном университете имени М.В. Ломоносова по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет ВМК, аудитория 685. Желающие присутствовать на заседании диссертационного совета должны сообщить об этом за два дня по тел. (495) 939-30-10 (для оформления заявки на пропуск).
С диссертацией можно ознакомиться в Фундаментальной библиотеке МГУ имени М.В. Ломоносова. С текстом автореферата можно ознакомиться на официальном сайте факультета ВМК МГУ http://cs.msu.su/ в разделе «Наука» -«Работа диссертационного совета» - «Д 501.001.44».
Автореферат разослан _апреля 2013 года
Ученый секретарь
диссертационного совета „г^'Г^ В.А. Костенко
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Существенная часть обрабатываемой вычислительными системами информации до сих пор представлена в виде текстов на естественном языке (ЕЯ). Число таких текстов со временем только увеличивается, в связи с чем прикладные задачи автоматической обработки текста (АОТ) не теряют своей актуальности.
Многие задачи АОТ при своем решении требуют извлечения из текста единиц, обычно - слов и словосочетаний, отражающих его содержание. Для научно-технических текстов (НТ-текстов) такими единицами являются термины, т.е. слова и словосочетания, называющие понятия определенной предметной области (ПО). Термины, как правило, входят в число наиболее частотных единиц НТ-текста и достаточно точно отображают его смысл.
Для автоматического извлечения терминов в настоящее время применяются методы, опирающиеся на статистические и лингвистические критерии1. Статистические критерии в основном используют частоты встречаемости слов и словосочетаний в обрабатываемом тексте или коллекции текстов, а также вычисляемые на основе этих частот статистические величины. Лингвистические критерии учитывают типичную синтаксическую структуру терминов и свойственные конкретной ПО конструкции, в рамках которых употребляются терминологические слова и словосочетания.
В современных системах АОТ точность распознавания терминов колеблется (в зависимости от применяемого метода) в интервале от 20% до 50%, а полнота - от 55% до 85%. При этом, основным способом повышения полноты и точности извлечения терминов является подбор нужной комбинации статистических и лингвистических критериев.
При построении компьютерных терминологических словарей и онтологий приемлемые значения полноты и точности извлечения достигаются при обработке больших коллекций текстов - в этом случае предпочтение отдается статистическим критериям. В тоже время во многих других задачах АОТ - таких, как автоматический перевод текста с одного ЕЯ на другой, реферирование и аннотирование текста, требуется анализ терминов отдельно взятого НТ-текста. Такой анализ предполагает как можно более полное
1 Добров Б.В., Лукашевич Н.В. и др. Формирование базы терминологических словосочетаний по текстам предметной области //Труды пятой всероссийской научной конференции "Электронные библиотеки: Перспективные методы и технологии, электронные коллекции". -2003. - С. 201-210.
распознавание не только различных терминов, но и всех их вхождений в анализируемый текст. При этом возможности статистических критериев существенно ограничены, поэтому в подобных задачах необходимо ориентироваться на лингвистические критерии..
Одна из сложностей выявления различных вхождений терминов в текст связана с тем, что термины достаточно часто при употреблении видоизменяются - усекаются, сокращаются, заменяются синонимами и т.д.: аберрация оптической системы - аберрация системы - аберрация, синтаксическое представление - СинП, вложенный файл - вложение. Подобные текстовые варианты представляют собой различные формы выражения одного и того же понятия и по возможности должны быть распознаны при обработке текста. Кроме текстовых вариантов в НТ-текстах встречаются также соединения (комбинации) нескольких терминологических словосочетаний, которые также следует учитывать при решении прикладных задач АОТ. Типичным примером соединения терминов является фраза естественный и искусственный отбор, образованная из двух терминов: естественный отбор и искусственный отбор.
Большинство известных методов автоматического извлечения терминов не полностью учитывают указанные особенности употребления терминов, что существенно снижает эффективность их работы. В частности, в системах АОТ редко распознаются синонимы, текстовые варианты и соединения терминологических словосочетаний. Таким образом, проблема повышения точности и полноты автоматических методов извлечения терминов, а также их вариантов и конструкций их употребления остается до сих пор актуальной.
Цель и задачи. Основная цель настоящей диссертационной работы -повышение показателей полноты и точности автоматического извлечения из отдельно взятого НТ-текста на русском языке терминологической информации, включающей:
■ общепринятые термины;
■ конструкции определений новых терминов и введения их синонимов;
■ текстовые варианты распознанных терминов;
■ соединения нескольких терминологических словосочетаний;
■ частоту употребления в тексте распознанных терминов и вариантов.
Для достижения поставленной цели необходимо было решить следующие
задачи:
1. Рассмотреть современные методы извлечения терминов и существующие средства формального представления конструкций ЕЯ, исследовать их применимость для автоматического распознавания терминов, их вариантов и конструкций их употребления, типичных для русскоязычных НТ-текстов.
2. Разработать процедуры извлечения (на базе частичного синтаксического анализа) различной терминологической информации из отдельно взятого текста; предусмотреть возможность настройки процедур на новые случаи терминоупотребления.
3. Программно реализовать разработанные процедуры извлечения, и с помощью экспериментального исследования оценить качество их работы.
Поскольку объем НТ-текста может быть небольшим (научная статья, аннотация), а статистические критерии хорошо работают только для текстов значительного объема, при разработке процедур извлечения терминов и их употреблений основной упор был сделан на применение лингвистических критериев.
Методы исследования. В работе использовались методы из области искусственного интеллекта, а также информатики и программирования, в частности, методы формального представления знаний и автоматического синтаксического анализа, методики экспериментальной оценки по коллекциям текстов, а также методология объектно-ориентированного проектирования.
Научная новизна. В диссертационной работе предложен подход к разработке автоматических процедур извлечения из текста терминологической информации на базе формализации в виде лексико-синтаксических шаблонов лингвистических особенностей употребления терминов. По результатам проведенного исследования эффективности разработанных процедур предложена стратегия объединения результатов их работы, позволяющая улучшить показатели точности и полноты извлечения терминов из отдельно взятого НТ-текста, и в том числе - получать более точную информацию о частоте их употреблений в тексте.
Практическая значимость. Предложенный в диссертации подход к извлечению терминологической информации из НТ-текста и разработанные в его рамках процедуры и стратегия извлечения могут быть использованы при решении прикладных задач АОТ, в которых требуется по возможности точное и полное распознавание различных употреблений терминов в тексте. К таким задачам относятся реферирование и аннотирование НТ-текстов, построение
глоссариев и предметных указателей документа, создание и обновление машинных терминологических словарей и тезаурусов.
Применение в разработанных процедурах в качестве входных данных наборов лексико-синтаксических шаблонов дает возможность достаточно просто настраивать эти процедуры для обработки случаев терминоупотреблений, характерных как для решаемой прикладной задачи, так и для текстов конкретной ПО. Настройка осуществляется путем корректировки существующих и добавления новых шаблонов для терминологических словосочетаний, их вариантов и конструкций их употребления.
Апробация. Результаты диссертации докладывались:
- на международном семинаре Диалог по компьютерной лингвистике и ее приложениям в 2000 г. (Протвино, 2000) и в 2001 г. (Аксаково, 2001);
- на международной конференции Диалог по компьютерной лингвистике и интеллектуальным технологиям в 2004 г. (Верхневолжский, 2004), в 2007 г. (Бекасово, 2007) и в 2010 г. (Бекасово, 2010);
- на девятой, десятой и одиннадцатой национальных конференциях по искусственному интеллекту с международным участием КИИ-2004 (Тверь, 2004), КИИ-2006 (Обнинск, 2006) и КИИ-2008 (Дубна, 2008);
- на международной научной конференции студентов, аспирантов и молодых ученых Ломоносов, секция «Вычислительная математика и кибернетика» в 2008 г. (Москва, 2008) и в 2010 г. (Москва, 2010);
- на научно-исследовательском семинаре по методам построения программных систем (Москва, факультет ВМК МГУ, 2008);
- на научно-исследовательском семинаре «Динамические интеллектуальные системы» (Институт системного анализа РАН, 2009).
- на Ломоносовских чтениях: научной конференции, посвященной 300-летию со дня рождения М.В. Ломоносова (Москва, факультет ВМК МГУ, 2011).
Публикации. По теме диссертации опубликовано 13 работ, в том числе одна в издании, рекомендованном ВАК.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы и пяти приложений. Объем диссертации без приложений - 109 страницы, объем приложений - 16 страниц. Список литературы содержит 85 наименования.
Работа выполнена при частичной финансовой поддержке Минобрнауки России по государственному контракту от 16.05.2012 г. № 07.524.12.4018 в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы».
Результаты проведенных исследований использовались в работе по фанту РФФИ № 06-01-00571 «Методы и средства интеллектуальной автоматической обработки текстов русскоязычных научно-технических документов».
СОДЕРЖАНИЕ РАБОТЫ
Во введении раскрывается тема диссертации, показываются ее научная новизна и актуальность, кратко описывается содержание работы по главам.
В главе 1 приведен обзор существующих методов извлечения терминологических слов и словосочетаний из текстов на естественном языке.
Методы извлечения терминов опираются на статистические и лингвистические критерии. Статистические критерии используют различные статистические величины, основанные на частоте встречаемости слов и словосочетаний и использующие предположение о том, что термины имеют тенденцию к многократному употреблению в тексте (или коллекции текстов). Выделенные по этим критериям слова и словосочетания рассматриваются как потенциальные термины.
Лингвистические критерии в первую очередь учитывают то, что термины, как правило, представляют собой именные словосочетания с определенной структурой, которую обычно описывают в виде синтаксического образца - он задает части речи составляющих термин слов и синтаксические связи между ними. К примеру, N - это образец, описывающий однословные термины-существительные {ландшафт, аорта), А N - образец терминологических словосочетаний из согласованных между собой прилагательного и существительного {красное смещение, существенный пример) и др. Если некоторое словосочетание текста имеет рассматриваемую структуру, то в системах автоматического извлечения терминов оно предположительно считается термином.
Другая лингвистическая информация, используемая для извлечения терминологических слов и словосочетаний, учитывает их употребление в рамках некоторых языковых конструкций (контекстов). К примеру, в текстах
сельскохозяйственной тематики из выявленных конструкции вида yields of SPECIES {yield of wheat, yield of rice - урожай пшеницы, урожай риса) извлекаются SPECIES - названия выращиваемых культур.
Один из основных недостатков методов извлечения терминов на базе статистических и лингвистических критериев связан с тем, что этим критериям удовлетворяют слова и словосочетания общеупотребительной лексики, (например: задача, основная идея, применение правила), т.к. они могут быть достаточно частотными и иметь типичную для терминов синтаксическую структуру. Как следствие, современные методы автоматического извлечения терминов позволяют получать в результате своей работы всего лишь термины-кандидаты, т.е. такие слова и словосочетания, для которых с той или иной степенью точности можно утверждать, что они являются терминами.
Повышение точности извлечения терминов можно достичь путем привлечения дополнительной статистической и лингвистической информации. Например, из множества терминов-кандидатов удаляются такие, которые входят в заранее составленный список стоп-слов. Оставшиеся кандидаты упорядочиваются на основе значений некоторой функции, и из упорядоченного списка отбираются слова и словосочетания, значения функции для которых выше или ниже установленного порога.
Основным способом повышения полноты извлечения терминов является учет текстовых вариантов, возникающих при употреблении терминов в тексте: варианты принимаются во внимание при подсчете частоты вхождения терминов. В настоящий момент существует даа основных подхода к их автоматическому выявлению.
В рамках первого подхода осуществляется сравнение двух произвольных слов/словосочетаний, рассматриваемых либо как последовательности символов, либо как последовательности слов. Данный подход хорошо применим для распознавания близких по написанию терминологических вариантов вида туннель - тоннель, colour of hammers - colour of this hammer. В рамках второго подхода в формальном виде описываются правила образования текстовых вариантов, что обеспечивает выявление ббльшего количества различных видов вариантов (включая и соединения нескольких многословных терминов). Однако данный подход является языковозависимым, поскольку в целом правила варьирования терминов зависят от конкретного ЕЯ.
Проведенный обзор показывает, что для повышения полноты и точности извлечения терминов из НТ-текста целесообразно использовать определенную
комбинацию лингвистических и статистических критериев. При решении задачи извлечения терминологической информации из отдельного НТ-текста, рассматриваемой в данной диссертации, упор сделан на применение лингвистических критериев. Для формализации разнообразной лингвистической информации об употреблении терминов в НТ-текстах предложено использовать лексико-синтаксические шаблоны.
В главе 2 обсуждаются особенности терминов, конструкций и вариантов их употребления в НТ-текстах, вводится и характеризуется понятие лексико-синтаксического шаблона. Также описывается формализация типичных для научно-технической прозы языковых конструкций с терминами.
В зависимости от того, представлен или нет конкретный термин в компьютерном терминологическом словаре, используемом для обработки текста, будем называть этот термин соответственно словарным или несловарным.
Как правило, в НТ-текстах несловарные термины явно определяются или поясняются. К примеру, фраза
Периодическим расписанием цикла называется отображение Т... (1)
определяет термин периодическое расписание цикла.
Несловарные термины, в противоположность словарным, обычно называют только формирующиеся понятия, их языковая форма выражения еще не устоялась, и поэтому для несловарных терминов характерно использование большого числа синонимичных названий. Такие синонимичные названия достаточно часто вводятся в тексте в рамках определенных конструкций. Например, во фразе
Назовем эти образования гипержанрами, или гипержанровами формами
вводится несловарный термин гипержанр и его синоним гипержанровая форма.
Важной особенностью как словарных, так и несловарных терминов является употребление в НТ-тексте их текстовых вариантов. В рамках одного текста характерно употребление лексико-синтаксических вариантов терминов, когда изменяется лексический состав и синтаксические связи составляющих термин слов {аэробное упражнение - упражнение, дисковый контроллер ~ контроллер диска), и вариантов сокращения (саморегулируемые организации - СРО, мономолекулярный слой - монослои).
Кроме вариантов отдельного термина в НТ-текстах наблюдаются соединения нескольких терминов, при образовании которых термины часто разрываются, а их общие части сокращаются, что затрудняет автоматическое извлечение их из текста. Например, соединение разрядность внутренних регистров построено на основе двух терминов: разрядность регистра и внутренний регистр, в нем наблюдается разрыв термина разрядность регистра и слияние общей части - слова регистр.
Формализация рассмотренных конструкций с терминами проводилась на базе лексико-синтаксических шаблонов. Лексико-синтаксический шаблон обычно состоит из имени и тела. Имя записывается перед телом через знак равенства; если шаблон не будет использоваться в других шаблонах, то имя можно не указывать.
Тело определяет последовательность элементов, из которых должна состоять описываемая языковая конструкция, и задает условия синтаксического согласования этих элементов. К примеру, фразы вида (1) описываются следующим лексико-синтаксическим шаблоном:
Т1<с=д.П8> Указываться, t=pres,p=3,m==ind> Б1<с=пот> <Т1.п=У.п> # Т1
где У<называться, t=pres,р=3,ш=1пс!> - элемент-слово, описывающее две словоформы: называется и называются',
Т1 и 01 - экземпляры ранее определенных шаблонов с именами Т и Б (эти шаблоны задают соответственно синтаксическую структуру терминов и определяющих эти термины фраз);
<Т1.п=У.п> - условия согласования грамматического числа определения Т1 и глагола V.
Правила извлечения самих терминов из распознанных по шаблону конструкций задаются с помощью шаблонов извлечения, которые записываются после тела шаблона (за символом #). Так, из фразы (1) с помощью шаблона извлечения Т1 будет выделен термин периодическое расписание цикла.
Средства лексико-синтаксических шаблонов были применены для формализации структуры терминологических слов и словосочетаний, а также конструкций и вариантов их употребления. Примеры полученных лексико-синтаксических шаблонов приведены в Таблице 1 (шаблон АР = А | Ра задает понятие адъектива, т.е. прилагательного или причастия).
Таблица 1. Примеры лексико-синтаксических шаблонов
Тип употребления Шаблон Примеры конструкций
Словарные термины Ы1<критерий>["Рэлея" | Ы2<подобие,с=деп>] критерий, критерий Рэлея, критерий подобия
Синтаксические образцы терминов ЭР = N1 ] N1Ы2<с=деп> | АРІ АР2 N1 <АР1=АР2=Ы1> | АРІ N1 <АР1=М1> вектор, генератор шума, жесткий магнитный диск, алъбедный мюон
Конструкции определений терминов Тегт1<с=пот> ["-"] "это" Оеі:іп1<с=пот> # Тегті Информационный ресурс - это набор текстовых файлов...
Конструкции введения синонимов ЭР1 "(" ЭР2 ")"<ЗР1.с= ЗР2.с> # ЭР1, БР2 ... создание информационных систем (ИО...
Соединения терминов А1 А2 N1 <А1=А2=Ы1> # А1 N1 <А1=Ы1>, А2 N2 <А2=Ы2> длинных целых чисел -длинное число, целое число
Правила образования вариантов N1 Ы2<с=деп> # N1, N3 ^<с=деп> <Эуп(Ы1,НЗ)> метка адреса - метка, маркер адреса
Созданные наборы лексико-синтаксических шаблонов составляют базу лингвистической информации, на которую опираются разработанные в данной диссертации процедуры извлечения из НТ-текста на русском языке различных употреблений терминов. Работа процедур сводится к наложению лексико-синтаксических шаблонов на обрабатываемый текст, поиску в нем текстовых фрагментов, описываемых шаблонами, и извлечению из этих фрагментов соответствующих терминоупотреблений.
В главе 3 подробно описываются разработанные процедуры извлечения из НТ-текста терминологических слов и словосочетаний, а также конструкций и вариантов употребления терминов на основе их формального описания в виде лексико-синтаксических шаблонов. В конце главы охарактеризована программная реализация процедур извлечения.
В виде лексико-синтаксических шаблонов формализована разнотипная лингвистическая информация: о распознаваемых терминах, их вариантах и конструкциях их употребления. Для каждого типа информации разработаны соответствующие процедуры извлечения. Процедуры образуют 3 группы:
1) Процедуры извлечения вхождений терминов:
■ getDictTerms - извлечение словарных терминов;
■ деЬМогФ±сЪТегтз - извлечение несловарных терминов.
2) Процедуры распознавания языковых конструкций с последующим извлечением из них терминов:
■ деЗДиЪЫГеппз - извлечение авторских терминов;
■ getSynTerms - извлечение синонимов терминов;
■ деЪТегтз£готСотЬэ - извлечение терминов из соединений.
3) Процедура распознавания текстовых вариантов терминов: де£Уагз!:огТегтз.
Процедура деиЭз-с^Тегтз работает с шаблонами словарных терминов, а процедура двЪИог^с^Тегтз - с шаблоном, описывающим типичные синтаксические образцы терминов. В результате наложения шаблонов на текст выделяются текстовые фрагменты, соответствующие вхождениям распознанных терминов в текст.
Процедуры де^Ат^ЬТегтз, деЪЗупТегтз и деЪТепг^готСотЬз получают на вход шаблоны, тела которых описывают распознаваемые языковые конструкции, а шаблоны извлечения задают правила извлечения терминов из этих конструкций. В данном случае наложение на текст тела шаблона дает текстовые фрагменты, представляющие вхождения в текст распознанных конструкций, из которых затем извлекаются сами термины.
Процедура деЪУагэ^гТегтз работает с шаблонами, тела которых описывают синтаксические образцы терминов, а шаблоны извлечения задают синтаксические образцы возможных текстовых вариантов. В этом случае наложение тела шаблона позволяет получать текстовые фрагменты, соответствующие распознанным терминам, на основе которых затем формируются их варианты. Сформированные варианты используются процедурой для выявления их вхождений в обрабатываемый текст.
Указанные процедуры извлечения терминов и их различных употреблений реализуют поверхностный синтаксический анализ и применяются к тексту Т, который после графематического и морфологического анализа представляет собой последовательность простых фрагментов текста и - словоформ и разделяющих их символов: Т= Ь2г..., 1:пт), расположенных в том же порядке, что и в исходном тексте. Для каждого простого фрагмента являющегося словоформой, известна часть речи этого слова, начальная форма и набор значений его морфологических характеристик (рода, числа, времени и т.д.). Общая схема обработки текста представлена на Рисунке 1.
ЕЯ-текст
Графематический и морфологический
Текст Т как последовательность простых фрагментов
(tl, t2/ t„T)
База шаблонов
/ getFrequency /
Процедура
подсчета частот /
/ дёЛГадАЗ'егщз : / getijQJiDietTe'rms1 Процедуры извлечения вхождений терминов
/ getMatches /
/ addinTSet /
, Процедура формирования множества записей
о терминах -*
/ getAuxhTenr.s / ge^SynTerms . g:etgenti3$r6agoftlbs.-
Процедуры распознавания конструкции и извлечения из них терминов
Базовая процедура наложения шаблона
/ makeTSet 7
Процедура формирования набора шаблонов
: Процедура распознавания текстовых вариантов
/
isVar
Процедура выявления текстовых вариантов
о
Множества терминов-кандидатов Рисунок 3.1. Общая схема обработки текста
На вход каждой из описываемых процедур извлечения поступает анализируемый текст T=(ti,t2,...,tnT) и набор шаблонов S={Pi,P2,..., Pnsb Работа любой из этих процедур заключается в наложении каждого шаблона Р± из набора S на текст Т и последующей обработке полученных при этом результатов; на выходе процедуры - множество MR={mri, mr2,..., тГпм) извлеченных терминах-кандидатах с информацией о частоте употребления каждого из них.
В своей работе процедуры извлечения опираются на базовую процедуру getMatches, отвечающую за наложение шаблона на текст, и следующие вспомогательные процедуры:
■ getFrequency - подсчет частоты употребления терминов в тексте с учетом вложений терминологических словосочетаний друг в друга;
■ addinTSet - формирование множества записей об извлеченных терминах;
■ makePSet - построение дополнительного набора шаблонов (для последующего наложения их на текст);
■ i sVa г - выявление текстовых вариантов терминов.
Реализация всех разработанных процедур проводилась на языке С++ с использованием библиотеки LSPL2; разработка проводилась под ОС Linux. Общий объем базы лексико-синтаксических шаблонов составил около 6500 шаблонов.
Каждая из процедур извлечения позволяет распознавать в тексте и обрабатывать определенный тип терминоупотребления. При этом получаемые процедурами множества терминов-кандидатов в общем случае пересекаются, поскольку одно и тоже слово или словосочетание может быть выявлено разными процедурами. Таким образом, для решения задачи автоматического извлечения терминов из конкретного НТ-текста требуется объединение результатов работы этих процедур.
В главе 4 описывается экспериментальное исследование эффективности работы реализованных процедур и формулируется стратегия объединения их результатов, цель которой - увеличение F-меры, вычисляемой как гармоническое среднее полноты и точности извлечения. В конце главы
2 Большакова Е.И., Носков A.A. Программные средства анализа текста на основе лексико-синтаксических шаблонов языка LSPL // Программные системы и инструменты: Тематический сборник, №11 / Под ред. Королева Л.Н. - М.: Изд. отдел факультета ВМК МГУ имени М.В. Ломоносова; МАКС Пресс, 2010, с. 61-73.
продемонстрированы пути применения разработанных процедур в прикладных задачах АОТ, в которых требуется проведение терминологического анализа отдельно взятого НТ-текста. В качестве таких задач взяты составление глоссария и предметного указателя научно-технического документа.
Исследование разработанных процедур извлечения употреблений терминов проводилось на коллекции научно-технических текстов из двух предметных областей - информатика и вычислительная техника (ИиВТ) и физика. Оценка результатов работы процедур происходила путем сравнения множеств терминов-кандидатов, полученных каждой процедурой, с эталонными множествами терминов, сформированными экспертами.
По результатам сравнения были выявлены причины снижения полноты и точности извлечения терминов и их употреблений. Так, основная причина снижения полноты во всех процедурах связана с особенностью языковых конструкций ЕЯ. В частности, отдельные термины и соединения нескольких терминологических словосочетаний могут иметь сходную структуру: например, термин число большой разрядности и соединение выделение динамической памяти (состоящее из словарных терминов выделение памяти и динамическая память). При обработке обоих словосочетаний как соединений будет потерян термин число большой разрядности, а при их обработке как отдельных терминов не будут выделены термины из соединения.
Основной же причиной снижения точности являются ограничения используемых лингвистических критериев. Например, типичным синтаксическим образцам терминов в тексте соответствует большое количество слов и словосочетаний, не являющихся терминами - способ, малая часть, решение поставленной задачи. Тем самым, множества терминов-кандидатов, полученные процедурами извлечения, следует обработать дополнительно для исключения из них подобных слов и словосочетаний. В частности, при обработке результатов извлечения несловарных терминов для повышения точности извлечения в дополнение к лингвистическим критериям предложено использовать статистическую характеристику - среднее взвешенное
арифметическое всех частот несловарных терминов-кандидатов:
р _
где - значение частоты употребления 1-ого термина-кандидата, а знаменатель дроби представляет собой количество разных слов и словосочетаний, выявленных процедурой. Кандидаты, частота употребления
которых ниже округленного значения F, при прочих равных не считаются терминами.
Согласно предложенной в диссертации стратегии сначала к рассматриваемому тексту по отдельности применяются разработанные процедуры извлечения терминоупотреблений, и в результате их применения получаются множества терминов-кандидатов. Затем из этих множеств по эвристическим правилам, сформулированным по итогам проведенного экспериментального исследования, отбираются наиболее вероятные кандидаты. Правила применяются по очереди, и в результате итерационно строится итоговое множество М записей об отобранных терминах-кандидатах и итоговый набор групп текстовых вариантов Gi, G2,..., Gn.
Правила делятся на три группы:
1) Правила начального формирования множества М (3 правила).
2) Правила расширения множества М за счет учета вариантов употребления терминов (8 правил).
3) Правило формирования групп текстовых вариантов Gb G2, ..., Gu (1 правило).
Предложенная стратегия была применена к коллекции научно-технических текстов для извлечения из них терминов и их различных употреблений. Полученные результаты были сопоставлены с результатами работы наиболее известных и часто используемых методов извлечения терминов, полученных для этой же тестовой коллекции. По сравнению с одним из этих методов - методом Terms--1, дающим наилучшие результаты извлечения терминов и их употреблений, F-мера извлечения терминов увеличилась на 17,6%, а F-мера извлечения всех их употреблений - на 11,7%; для правильно извлеченных терминов полнота распознавания их различных употреблений выросла на 5,3%.
В заключении сформулированы основные результаты диссертационной работы, выносимые на защиту:
1. Предложен подход, позволяющий формализовать в виде лексико-синтаксических шаблонов структуру терминологических словосочетаний, а также конструкции и варианты их употребления для использования в процедурах автоматического извлечения из текста терминологической информации.
2. В рамках предлагаемого подхода разработаны процедуры извлечения из текста терминологической информации, опирающиеся на ее формальное
описание в виде шаблонов и допускающие настройку за счет изменения используемого набора шаблонов.
3. Разработанные процедуры программно реализованы, проведено их экспериментальное исследование на базе созданного набора шаблонов терминов, их вариантов и конструкций их употребления.
4. По результатам экспериментального исследования предложена стратегия объединения результатов работы реализованных процедур, позволяющая в целом улучшить показатели точности и полноты извлечения терминов из текста.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Большакова Е.И., Васильева Н.Э. К вопросу об автоматизации литературно-научного редактирования // Компьютерная лингвистика и ее приложения: Труды Международного семинара Диалог'2000. - Протвино, 2000. -Т.2.-С. 59-63.
2. Большакова Е.И., Васильева Н.Э., Юдин Д.А. Выделение словарных терминологических словосочетаний в научно-технических текстах // Компьютерная лингвистика и ее приложения: Труды Международного семинара Диалог'2001. - Аксаково, 2001. - с. 48-51.
3. Васильева Н.Э. Шаблоны употреблений терминов и их использование при автоматической обработке научно-технических текстов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2004. - М.: Изд-во РГГУ, 2004. - Т. 2. - С. 96-101.
4. Большакова Е.И., Баева Н.В., Васильева Н.Э. Структурирование и извлечение знаний, представленных в научных текстах // Девятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2004. Труды конференции в 3-х томах. -М.: Физматлит, 2004. -Т. 2.-С. 480-488.
5. Большакова Е.И., Васильева Н.Э., Морозов С.С. Лексико-синтаксические шаблоны для автоматического анализа научно-технических текстов // Десятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2006. Труды конференции в 3-х томах. - М.: Физматлит, 2006. - Т. 2. - С. 506-524.
6. Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов // Компьютерная лингвистика и интеллектуальные
технологии: Труды Международной конференции Диалог'2007. - М.: Изд-во РГТУ, 2007. - Т. 2. - С. 70-75.
7. Васильева Н.Э. Распознавание в научно-технических текстах терминов и их вариантов // Ломоносов - 2008: Материалы XV Международной научной конференции студентов, аспирантов и молодых ученых: секция «Вычислительная математика и кибернетика». Сборник тезисов. - 2008. - С. 23.
8. Большакова Е.И., Васильева Н.Э. Терминологическая вариантность и ее учет при автоматической обработке текстов // Одиннадцатая Национальная конференция по искусственному интеллекту с международным участием КИИ-2008. Труды конференции в 3-х томах. - М.: Физматлиг, 2008. - Т. 2. - С.174-182.
9. Большакова Е.И., Васильева Н.Э. Формализация лексико-синтаксической информации для распознавания регулярных конструкций естественного языка // Программные продукты и системы. - 2008. -№ 4. - С. 103-106.
10. Антонов В.Ю., Ефремова Н.Э. Автоматическое выявление терминологических вариантов в русскоязычных текстах // Ломоносов - 2010: Материалы XVII Международной научной конференции студентов, аспирантов и молодых ученых: секция «Вычислительная математика и кибернетика». Сборник тезисов. - 2010. - С. 80.
11. Ефремова Н.Э., Большакова Е.И., Носков A.A., Антонов В.Ю. Терминологический анализ текста на основе лексико-синтаксических шаблонов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2010. - М.: Изд-во РГГУ, 2010. - С. 124129.
12. Bolshakova Е„ Efremova N., Noskov A. LSPL-Patterns as a Tool for Information Extraction from Natural Language Texts // K.Markov et al. (eds.): New Trends in Classification and Data Mining, ITHEA. - 2010. - P. 110-118.
13. Большакова Е.И., Ефремова Н.Э., Носков A.A. Методы и средства построения программных систем для анализа текста с использованием лингвистических шаблонов // Ломоносовские чтения: научная конференция, посвященная 300-легию со дня рождения М.В. Ломоносова: Тезисы докладов. -2011.-С. 97.
Напечатано с готового оригинал-макета
Подписано в печать 08.04.2013 г. Формат 60x90 1/16. Усл.печл. 1,0. Тираж 100 экз. Заказ 096.
Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 527 к. Тел. 8(495)939-3890/91. Тел./факс 8(495)939-3891.
Текст работы Ефремова, Наталья Эрнестовна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Московский государственный университет имени М.В. Ломоносова
04201356439
На правах рукописи
Ефремова Наталья Эрнестовна
МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА ИЗВЛЕЧЕНИЯ ТЕРМИНОЛОГИЧЕСКОЙ ИНФОРМАЦИИ ИЗ НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ
05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Диссертация на соискание ученой степени кандидата физико-математических наук
Научный руководитель кандидат физико-математических наук доцент Большакова Елена Игоревна
Москва-2013
/
СОДЕРЖАНИЕ
Введение.......................................................................................................................3
Глава 1. Методы извлечения терминов из текстов...............................................16
1.1 Статистические и лингвистические критерии извлечения.....................16
1.2 Способы повышения точности извлечения.............................................20
1.3 Учет терминологических вариантов.........................................................23
1.4 Формальное описание извлекаемых конструкций..................................28
Глава 2. Лексико-синтаксические шаблоны употреблений терминов................34
2.1 Особенности научно-технических терминов...........................................34
2.2 Конструкции и варианты употребления терминов..................................37
2.3 Состав лексико-синтаксических шаблонов..............................................43
2.4 Шаблоны конструкций и вариантов терминов........................................47
Глава 3. Процедуры извлечения употреблений терминов...................................54
3.1 Схема работы процедур.............................................................................54
3.2 Правила наложения шаблонов на текст...................................................61
3.3 Извлечение словарных и несловарных терминов....................................67
3.4 Извлечение авторских терминов и терминов из соединений.................71
3.5 Извлечение синонимов терминов.............................................................75
3.6 Распознавание текстовых вариантов терминов.......................................78
3.7 Программная реализация процедур извлечения......................................81
Глава 4. Стратегия объединения процедур извлечения........................................84
4.1 Экспериментальное исследование работы процедур..............................84
4.2 Анализ результатов исследования............................................................86
4.3 Стратегия объединения результатов процедур.......................................90
4.4 Применение процедур извлечения в прикладных задачах...................103
Заключение..............................................................................................................108
Список литературы.................................................................................................110
Приложение А. Синтаксис языка лексико-синтаксических шаблонов.............120
Приложение Б. Шаблоны определений терминов и введения их синонимов... 124
Приложение В. Примеры словарных шаблонов..................................................127
Приложение Г. Шаблоны вариантов употребления терминов...........................129
Приложение Д. Правила стратегии.......................................................................132
ВВЕДЕНИЕ
Стремительное развитие науки и техники, широкое распространение вычислительных комплексов и компьютерных сетей, лавинообразное увеличение объемов различных данных - все это делает как никогда актуальным разработку и совершенствование методов сбора, хранения и обработки информации на базе вычислительных систем.
Значительная часть обрабатываемой вычислительными системами информации представлена в традиционном для человека виде - в виде текстов на естественном языке, чем объясняется существование целого ряда прикладных задач автоматической обработки текста (АОТ). К ним относятся:
- перевод текстов с одного естественного языка (ЕЯ) на другой [17, 22];
- индексирование документов и запросов пользователей для информационного поиска [19, 64];
- классификация и рубрицирование текстов [34, 36];
- реферирование и аннотирование текстов [24, 67];
- извлечение информации из коллекций текстов [8, 83];
- построение онтологий по текстам предметной области [33, 60];
- создание и обновление компьютерных словарей [3, 59].
Решение указанных прикладных задач АОТ требует поэтапной обработки текста на естественном языке (ЕЯ-текста), которая в общем случае включает графематический, морфологический, синтаксический и семантический анализ [39, 69, 71]. В ходе графематического анализа в тексте выделяются слова, происходит разбиение текста на предложения, абзацы. С помощью морфологического анализа устанавливается, к какой части речи относится каждое слово текста, и в какой грамматической форме оно употреблено. В свою очередь, синтаксический анализ выявляет синтаксическую структуру предложений, а семантический анализ определяет смысл отдельных фрагментов и текста в целом.
При решении многих прикладных задач некоторые из вышеперечисленных этапов могут упрощаться или даже опускаться. К примеру, при решении задач индексирования и реферирования документов часто не проводится развернутый синтаксический и семантический анализ обрабатываемых текстов [19, 24].
Основная причина попыток упрощения этапа синтаксического анализа связана со сложностью его проведения. В ходе выполнения этого этапа, как правило, даже для сравнительно небольшого предложения ЕЯ-текста строится довольно много вариантов его синтаксического разбора. С увеличением длины предложения количество вариантов возрастает экспоненциально, и тем самым для больших текстов время их полного синтаксического анализа и объем используемых при этом машинных ресурсов нередко оказываются просто неприемлемыми. Поэтому при решении ряда задач АОТ вместо полного синтаксического разбора каждого предложения текста проводится частичный синтаксический анализ, при котором распознаются лишь определенные синтаксические конструкции, в первую очередь, словосочетания [5, 19, 69].
Использование частичного синтаксического анализа оказалось оправданным при решении задач АОТ, в которых необходимо выявлять так называемые ключевые слова и словосочетания, отражающие содержание обрабатываемого текста, и связи между ними. Среди таких задач -индексирование, классификация и рубрицирование текстов [5, 19, 69]. Кроме того, частичный синтаксический анализ применяется при извлечении информации из ЕЯ-текстов (в частности, при извлечении именованных сущностей: персоналий, адресов, географических названий, наименований товаров) [27], а также при создании и обновлении машинных словарей по текстам определенной предметной области (ПО) [63, 66]. При этом для более полного и точного распознавания нужных текстовых единиц часто учитывается не только их структура, но и особенности их употребления в обрабатываемых ЕЯ-текстах [63, 66].
Как показывают лингвистические исследования, существенные особенности ЕЯ-текстов и употребляемых в них единиц в первую очередь связаны с разными функциональными стилями речи [62, 72], появление которых обусловлено многообразием целей и условий общения людей. Обычно выделяют разговорный, публицистический, научно-технический стили и стиль художественной литературы [73]. Различие между стилями прослеживается на всех уровнях языка, но особенно ярко оно проявляется на лексическом и синтаксическом уровнях: от конкретного стиля зависит допустимый словарный состав текстов и используемые в них синтаксические конструкции [73].
Наиболее выраженной спецификой обладает научно-технический стиль. Одна из его характерных особенностей - насыщенность текстов терминами, т.е. словами и словосочетаниями, называющими понятия определенной ПО (коммунальные сооружения, спектральный коэффициент излучения, прерывание от внешнего устройства и т.п.) [29, 73]. Поскольку термины, как правило, входят в число наиболее частотных единиц научно-технического текста (НТ-текста) и достаточно точно отображают его содержание, их распознавание требуется при решении большинства прикладных задач АОТ. Отметим, что в современных системах АОТ извлечение терминологических слов и словосочетаний чаще всего реализуется на базе частичного синтаксического анализа.
Термины и называемые ими понятия ПО возникают в ходе научных исследований и фиксируются в соответствующих НТ-текстах (докладах, статьях, монографиях), а затем и в словарях и учебниках, составленных на основе этих текстов [29, 56]. Среди терминологических слов и словосочетаний, встречающихся в НТ-текстах, обычно выделяют [29, 75]:
- общепринятые термины, которые, как правило, зафиксированы в существующих терминологических словарях;
- новые термины, которые вводятся для обозначения понятий, возникших в ходе описываемых научных исследований - они, как правило, отсутствуют в словарях.
Для распознавания из ЕЯ-текстов общепринятых терминов разработаны и широко используются автоматические процедуры, опирающиеся на компьютерные словари терминов [39, 46, 71]. Если слово или словосочетание, употребленное в тексте в одной из его возможных грамматических форм, входит в словарь, то оно распознается как известный термин.
Для автоматического извлечения из текстов новых терминов применяются эвристические методы, опирающиеся на лингвистические и статистические критерии [5, 19]. Статистические критерии в основном используют частоты встречаемости слов в обрабатываемом тексте или коллекции текстов, а также вычисляемые на основе этих частот статистические величины [6, 12, 31]. В частности, в некоторых системах АОТ в качестве терминов рассматриваются слова и словосочетания, частота встречаемости которых выше заданного порога [31, 59]. Отметим, что статистические критерии работают тем лучше, чем больше объем анализируемых текстов, поэтому в современных системах АОТ эти критерии, как правило, используются для извлечения терминов из коллекций текстов [7, 32].
Лингвистические критерии в первую очередь опираются на структуру терминологических словосочетаний. Поскольку термины преимущественно представляют собой одно-, двух- и трехсловные именные словосочетания [1, 20, 59], распознанные в тексте словосочетания с подобной структурой могут рассматриваться в качестве потенциальных терминов. Определенную структуру терминов обычно описывают в виде так называемого синтаксического образца, который задает части речи составляющих термин слов и синтаксические связи между ними. К примеру, N - это образец, описывающий однословные термины-существительные (вектор, аорта), А N - образец
двухсловных терминов, состоящих из прилагательного и следующего за ним существительного (понятийная операция, существенный пример), N Ngen -образец терминологических словосочетаний из существительного и существительного в родительном падеже (квантор общности, анафора рекурсии) и др.
При выявлении терминов кроме их структуры нередко учитываются языковые конструкции, в которых термины употребляются. С опорой на конструкции, типичные для рассматриваемой ПО, из текста извлекаются слова и словосочетания, которые считаются возможными терминами [16, 25, 27, 28]. К примеру, в работе [27] в текстах сельскохозяйственной тематики распознаются конструкции вида yields of SPECIES (yield of wheat, yield of rice - урожай пшеницы, урожай риса), из которых извлекаются SPECIES -названия выращиваемых культур.
Одна из основных проблем автоматического извлечения терминологической информации из текстов на базе статистических и лингвистических критериев связана с тем, что этим критериям удовлетворяют не только термины ПО, но и некоторые слова и словосочетания общеупотребительной лексики. Например, могут быть распознаны как термины (хотя ими не являются) часто встречающиеся в НТ-текстах словосочетания типа задача, основная идея, применение правила (их структура соответствует синтаксическим образцам, приведенным выше). Кроме того, одно и тоже словосочетание может быть термином в одной предметной области, но не выступать в качестве такового в текстах других ПО: к примеру, словосочетание настоящее время является термином в лингвистических текстах, но не в текстах из области биологии или информатики. Тем самым, современные методы автоматического извлечения терминов из ЕЯ-текстов позволяют получать в результате своей работы всего лишь потенциальные термины, или термины-кандидаты, т.е. такие слова и словосочетания, для которых только с
той или иной степенью определенности (точности) можно утверждать, что они являются терминами.
Наряду с проблемой точности извлечения терминов неизбежно возникает и проблема полноты их распознавания. Поскольку ни статистические, ни лингвистические критерии в полной мере не могут учесть всех особенностей терминов, в текстах достаточно часто остаются нераспознанными малочастотные термины или термины с нестандартной синтаксической структурой.
В современных системах АОТ основным способом повышения полноты и точности извлечения терминов является подбор нужной комбинации статистических и лингвистических критериев [1, 10, 20, 32, 59], но даже в этом случае точность распознавания терминов чаще всего колеблется в интервале от 20% до 50%, а полнота - от 55% до 85% в зависимости от объемов обрабатываемых текстов и применяемой комбинации критериев [1, 12]. Таким образом, проблема повышения полноты и, в особенности, точности работы автоматических методов извлечения терминов остается до сих пор актуальной.
При решении таких прикладных задач АОТ, как создание и обновление компьютерных словарей или построение онтологий по текстам ПО, приемлемые значения полноты и точности извлечения терминов достигаются при обработке больших коллекций текстов [1, 18, 26, 59]. В тоже время во многих других задачах АОТ необходим анализ терминов отдельно взятого НТ-текста, при котором возможности статистических критериев существенно ограничены. К таким задачам относятся: автоматический перевод текста с одного ЕЯ на другой, реферирование и аннотирование текста, составление глоссария и предметного указателя документа, а также автоматизация литературно-научного редактирования НТ-текста [42, 72]. В подобных задачах требуется как можно более полное распознавание не только различных терминов, но и всех их вхождений в анализируемый текст с сопутствующим
подсчетом частоты употребления терминов, что дает возможность более адекватно оценивать его понятийное содержание.
Сложности выявления различных вхождений терминов в текст в первую очередь связаны с тем, что термины достаточно часто при употреблении видоизменяются - усекаются, сокращаются, заменяются синонимами и т.д. [20, 23, 35]: коммуникативная многозначность запроса - коммуникативная многозначность, синтаксическое представление - СинП, вложенный файл -вложение. Подобные текстовые варианты представляют собой различные формы выражения одного и того же понятия и по возможности должны быть распознаны при обработке текста. Например, в тексте [53] термин информационная система употребляется 32 раза, причем 7 из них - в исходном виде, 4 раза встречается его усеченный вариант система, а 21 раз -сокращение-синоним ИС. Большинство современных методов автоматического извлечения терминов не распознает такие текстовые варианты и подсчитанная ими частота употребления термина информационная система будет равна 7, а не 32.
Кроме указанных выше текстовых вариантов в НТ-текстах встречаются также соединения (комбинации) нескольких терминологических словосочетаний [18, 68]. Типичным примером соединения терминов является фраза входные и выходные данные, образованная из двух терминов: входные данные и выходные данные. Такие соединения также представляют собой варианты вхождения терминов в текст, которые следует учитывать при решении прикладных задач АОТ [1, 20, 26].
Для автоматического распознавания текстовых вариантов и соединений терминов применяются два основных подхода [5, 19]. В рамках первого подхода термин и его предполагаемый вариант (слово или словосочетание) рассматриваются как последовательности символов, и с помощью специальных эвристик численно оценивается степень их схожести [11, 55], а затем на основе
полученного численного значения делается вывод о том, действительно ли рассматриваемое слово (словосочетание) является вариантом термина.
В рамках второго подхода для выявления различных вхождений терминов в текст используются правила их варьирования. Эти правила предварительно описываются по отдельности для каждого синтаксического образца термина [10, 18]. Например, правило вида А N —> А А N описывает варьирование английских терминов вида А N (прилагательное и следующее за ним существительное), и позволяет, в частности, для термина acidic protein {кислый белок) распознать в тексте его вариант acidic epidermal protein (кислый белок эпидермиса). В работе [18] с помощью подобных правил решается задача поиска в корпусе текстов различных способов выражения определенного понятия.
Первый из рассмотренных подходов к выявлению вариантов терминов можно считать языковонезависимым, но в его рамках возможно распознавание далеко не всех видов вариантов. В частности, с его помощью успешно распознаются текстовые варианты в
-
Похожие работы
- Формирование информационно-терминологического базиса в мультилингвистических системах обучения
- Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве
- Мультилингвистические системы адаптивного обучения на базе лексически связанных информационных компонентов
- Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа
- Терминологический поиск в коллекциях математических текстов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность