автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений

кандидата технических наук
Тревгода, Сергей Александрович
город
Санкт-Петербург
год
2009
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений»

Автореферат диссертации по теме "Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений"

На правах рукописи

ии-э*-"--

Тревгода Сергей Александрович

МЕТОДЫ И АЛГОРИТМЫ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ ТЕКСТА НА ОСНОВЕ АНАЛИЗА ФУНКЦИОНАЛЬНЫХ ОТНОШЕНИЙ

Специальность: 05.13.01 Системный анализ, управление и обработка информации (технические системы)

2 2 0КТ 2009

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 2009

003480750

Работа выполнена в Санкт-Петербургском государственном электротехническом университете "ЛЭТИ" им. В.И. Ульянова (Ленина)

Научный руководитель -

кандидат технических наук, доцент Сабинин Олег Юрьевич

Официальные оппоненты:

доктор технических наук, профессор Фетисов Владимир Андреевич кандидат технических наук, доцент Власенко Сергей Владимирович

Ведущая организация - Открытое акционерное общество «Научно-технический комплекс «Ленэлектронмаш»

Защита состоится " 2, " ИСЛ^АА 2009 г. в часов на заседании совета по защите докторских и кандидатских диссертаций Д 212.238.07 Санкт-Петербургского государственного электротехнического университета "ЛЭТИ" им. В.И. Ульянова (Ленина) по адресу: 197376, Санкт-Петербург, ул. Проф. Попова, 5

С диссертацией можно ознакомиться в библиотеке университета Автореферат разослан " " 2009 г.

Ученый секретарь совета по защите докторских и кандидатских диссертаций Д 212.238.07

Цехановский В.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Электронная информация играет все большую роль во всех сферах жизни современного общества. В последние годы объем научно-технической текстовой информации в электронном виде возрос настолько, что возникает угроза обесценивания этой информации в связи с трудностями поиска необходимых сведений среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными становятся методы автоматизации реферирования текстовой информации, то есть методы получения сжатого представления текстовых документов - рефератов (аннотаций).

Постановка проблемы автоматического реферирования текста и соответственно попытки ее решения с использованием различных подходов предпринимались многими исследователями. История применения вычислительной техники для реферирования насчитывает уже более 50 лет и связана с именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Севбо, Э.Ф. Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления:

• автоматическое реферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт;

• автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), содержательно обобщающих первичные документы.

В России исследования в области автоматического реферирования в настоящее время, главным образом, ведутся в рамках первого направления с использованием статистических методов, смысл которых заключается в отборе предложений с наибольшим весом, который рассчитывается на основе частоты появления слова в тексте или месторасположения предложения, для включения их в реферат. В настоящее время известны только две системы, позволяющие получать аннотации на русском языке: TextAnalyst и встроенная функция в пакете Microsoft Office - Autosummarize. Обе эти системы относятся к классу систем, использующих различные варианты статистических методов. Согласно исследованиям в области компьютерной лингвистики текст, по своей природе, нелинеен, и его структура определяется особенностями внутренней организации единиц текста и закономерностями взаимосвязи этих единиц в рамках текста как цельного сообщения. Как показала практика, различные статистические методы недостаточно эффективны, так как они интерпретируют текст в виде набора линейно упорядоченных слов, словосочетаний и предложений, игнорируя при этом лингвистическую взаимосвязанность естественного языка, что приводит к потере значимой информации.

Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций

самого высокого уровня. Существует большое количество систем, разработанных, в основном, специалистами университетских центров и используемых ими для своих нужд. В этих системах предлагаются нетрадиционные решения (отличные от статистических методов), основанные на построении лексических цепочек, концептуальных 1рафов, а также эффективных формализмов описания структуры текста. Однако все эти методы ориентированы на учет особенностей конкретных языков, в основном, английского языка, и не могут быть непосредственно применены для автоматического реферирования текстов на русском языке. Кроме того, большинство разработок носят коммерческий характер, в связи с чем принцип их работы авторами не раскрывается.

Таким образом, актуальным является создание новых эффективных методов и алгоритмов, учитывающих нелинейную и иерархическую природу текста и позволяющих получать сжатое представление текстовых документов на русском языке.

Целью диссертации является разработка новых эффективных методов и алгоритмов, учитывающих нелинейную и иерархическую природу текста, для автоматизации реферирования научно-технических текстов на русском языке.

Задачи исследования. Для достижения поставленной цели необходимо решить следующие задачи:

• Провести анализ современных подходов и методов, применяющихся при решении задачи автоматического реферирования текста.

• Разработать метод формализованного описания структуры научно-технического текста на русском языке, позволяющий автоматизировать процесс реферирования.

• Разработать алгоритм определения функциональных отношений между фрагментами текста.

• Разработать алгоритм построения структуры на основе множества функциональных отношений между фрагментами текста.

• Реализовать систему автоматического реферирования текста на основе разработанных алгоритмов и провести оценку эффективности разработанных методов и алгоритмов.

Методы исследования. Теоретической и методологической основой работы послужили: теория риторической структуры (ТРС), теория предикатов, компьютерная лингвистика, метод экспертных оценок и современные технологии программирования.

Научные положения, выносимые на защиту.

• Метод формализованного описания структуры научно-технического текста на русском языке.

• Алгоритм определения функциональных отношений между фрагментами текста на основе анализа ключевых фраз.

• Алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста.

Научная новизна.

• Метод формализованного описания структуры текста, основанный на исполь-

зовании ТРС, отличается учетом нелинейной и иерархической природы текста, что позволяет повысить качество автоматического реферирования научно-технического текста на русском языке. Метод формализованного описания включает в себя определение критерия корректности структур текста, определение характеристик структуры текста и ограничений на корректные структуры текста.

• Алгоритм определения функциональных отношений между фрагментами текста отличается использованием разработанного узкоспециализированного словаря ключевых фраз русского языка и процедурами анализа отношений внутри них, что позволяет уменьшить избыточность информационного обеспечения систем автоматического реферирования за счет отказа от использования словарей и баз знаний общего назначения.

• Алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста отличается учетом неоднозначности отношений внутри ключевых фраз русского языка посредством генерации альтернативных множеств вариантов корректных структур текста с помощью разработанных правил вывода и выбора предпочтительной альтернативы по критерию совокупной метрики, что позволяет автоматизировать процесс получения релевантной структуры текста.

Практическая ценность работы заключается в следующем:

• разработанное алгоритмическое и программное обеспечение позволяет строить системы автоматического реферирования научно-технического текста для русского языка, учитывающие нелинейную и иерархическую природу текста, что позволяет повысить качество получаемых аннотаций;

• реализована система автоматического реферирования научно-технического текста для русского языка на основе разработанного алгоритма, не требующая избыточного информационного обеспечения за счет отказа от использования обширных словарей и баз знаний общего назначения.

Внедрение и реализация результатов. Достоверность научных положений, результатов и выводов подтверждается корректным использованием математического аппарата, результатами вычислительных экспериментов по разработанным методам, алгоритмам и программам, обсуждением полученных результатов на научных конференциях, а также результатами использования и внедрения.

Полученные научные результаты внедрены и используются в Информационно-логистическом центре при Северо-Западном заочном техническом университете, в ЗАО «Абсолют» г. Санкт-Петербург, о чём имеются соответствующие акты.

Апробация работы Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях:

• XII международная конференция «Современное образование: содержание, технологии, качество, Россия, Санкт-Петербург, июнь 2006г.

• XI международная научно-практическая конференция «Системный анализ в проектировании и управлении» Россия, Санкт-Петербург, июнь 2007г.

• XII международная конференция «Системный анализ в проектировании и управлении» Россия, Санкт-Петербург, июнь 2008г.

• XI международная конференция по мягким вычислениям и измерениям (SCM'2008) Россия, Санкт-Петербург, июнь 2008г.

• 62-я международная научно-техническая конференция «Системный анализ, управление и обработка информации» Россия, Санкт-Петербург, апрель 2009г.

• ХШ международная научно-практическая конференция «Системный анализ в проектировании и управлении» Россия, Санкт-Петербург, июнь 2009г.

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 10 статьях и докладах, среди которых 2 публикации в изданиях, рекомендованных ВАК, одна статья в других изданиях и 7 докладов на международных научно-технических конференциях.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав с выводами и заключения, изложена на 112 страницах машинописного текста, включает 26 рисунков, 26 таблиц, 4 приложения и содержит список литературы из 115 наименований, среди которых 96 отечественных и 19 иностранных изданий.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во введении обоснована актуальность темы диссертации, сформулированы цели и задачи работы, раскрыты основные пункты научной и практической ценности выполняемой работы, перечислены основные положения, выносимые на защиту и приведено краткое содержание глав.

В первой главе рассматриваются основные подходы к автоматическому реферированию текста. Дается обзор существующих методов автоматического реферирования, анализируются преимущества и недостатки существующих систем. Обосновываются и конкретизируются цель и задачи исследования.

Проведенный анализ известных работ в области автоматического реферирования показал, что существует два основных подхода к аннотированию:

1) извлечение из исходного текста всех «нужных» предложений (экстракция);

2) генерация реферата на основе использования методов искусственного интеллекта (абстракция).

Выполненный анализ существующих подходов к автоматическому реферированию текстов показал, что при использовании первого подхода (экстракции) результат обработки одного или нескольких документов представляется как набор предложений. Среди этого набора система выбирает те, которые в наибольшей степени подходят под заданный критерий, то есть являются более релевантными. Результатом является подмножество предложений исходного текста. Реферирование путем абстракции использует более сложные лингвистические алгоритмы, при этом выходом является не просто набор предложений из исходного текста, а порождается новый текст (реферат), содержательно обобщающий первичные документы. В этом случае для подготовки краткого изложения информации требуются мощные вычислительные ресурсы для систем обработки естественных языков, в том числе грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций. Кроме того, для реализации этого метода нужны онтологические справочники, отражающие

соображения здравого смысла и понятия, ориентированные на предметную область, для определения наиболее важной информации.

В результате анализа материалов, посвященных современным исследованиям в области автоматического реферирования текстов, выявлено, что статистические методы анализа текста, на которых до настоящего времени были сконцентрированы усилия разработчиков систем автоматического реферирования, достигли своего естественного предела. Системы, использующие вариации статистических методов анализа, не учитывают лингвистическую взаимосвязанность и нелинейность естественного языка, что объясняется, прежде всего, отсутствием эффективных методов описания структуры текста.

Структура текста определяется особенностями внутренней организации единиц текста и закономерностями взаимосвязи этих единиц в рамках текста как цельного сообщения. Каждый текст имеет функционально-стилевую ориентацию (научный текст, художественный и др.) и обладает стилистическими качествами, диктуемыми данной ориентацией.

В данной работе предлагается подход к решению задачи автоматического реферирования научно-технического текста на русском языке на основе учета особенностей структуры текста. Научной задачей в рамках предлагаемого подхода является разработка метода описания структуры текста и алгоритма автоматического реферирования, включающего в себя алгоритм определения функциональных отношений между фрагментами текста и алгоритм построения структуры текста, позволяющих повысить качество автоматического реферирования научно-технического текста на русском языке.

Вторая глава посвящена разработке метода формализованного описания структуры текста, на базе которого будет разработан алгоритм автоматического реферирования текста.

Текст состоит из функционально значимых частей. Эти части являются элементами, из которых строятся более крупные части и целые тексты. Текст не является линейной последовательностью единиц. Напротив, текст организован иерархично: элементарные единицы объединяются в единицы большего объема, те объединяются между собой и так до уровня целого текста. Для объединения единиц любого объема существует общий, единый набор структурных связей.

Предлагаемый метод формализованного описания структуры текста учитывает нелинейность естественного языка и позволяет автоматизировать процесс автоматического реферирования текстов. Метод основан на использовании теории риторической структуры, согласно которой любой текст может быть представлен в виде дерева, узлами которого являются элементарные текстовые элементы (ЭТЭ) или группы таких элементов, находящиеся в определенных отношениях между собой. Такие связи называются риторическими отношениями (функциональные отношения).

Текстовый элемент, вступающий в функциональное отношение, может играть в нем различную роль. Функциональные отношения, как правило, являются асимметричными: более значимый их компонент называется ядром (№), менее значимый — сателлитом (Б). Сателлит часто может быть опущен или заменен другим при сохранении смысла. В то же время, если опущено или изменено ядро, смысл текста и от-

ношение существенно меняется. Большая часть отношений асимметричны и бинарны, то есть содержат ядро и сателлит.

Функциональные отношения могут выстраиваться в деревья на основе пяти структурных схем, которые показаны на рис. 1. Большинство отношений соединяется, используя схему а). Схема г) покрывает случаи, в которых ядро соединено с несколькими сателлитами различными отношениями. Схемы б), в), д) показывают мультияд-ровые отношения.

аксимэтдма

а) 0)

MOTIVATION ENABLEMENT

Рис. 1 Схемы функциональных отношений

При построении структуры текста, прежде всего, необходимо использовать основные положения ТРС:

■ ЭТЭ представляют собой непересекающиеся части текста;

■ функциональные отношения связывают текстовые элементы разного размера;

■ ЭТЭ имеют в тексте различную значимость;

■ структура текста может быть представлена в виде дерева.

Согласно ТРС корректными структурами текста являются такие, которые удовлетворяют следующим ограничениям:

■ функциональные структуры являются деревьями, в которых элементы одного уровня представляют собой непрерывный текст;

■ элементы могут быть двух типов: ядро и сателлит;

■ каждый текстовый элемент может быть связан с другим только одним отношением.

С учетом этих ограничений структуры текста представляют собой деревья, смежные узлы которых представляют собой непрерывный текст.

В результате анализа основных положений ТРС установлено, что ее непосредственное применение в вычислительной модели невозможно ввиду следующих недостатков:

1) нет формальной спецификации, которая позволила бы отличить корректное дерево от некорректного;

2) нет алгоритмов для построения таких деревьев.

В связи с этим, необходимо выполнить уточнение и дополнение этой теории для описания структуры текста. Предлагаемый метод формализованного описания структуры текста включает в себя:

1. Определение критерия корректности структуры текста.

2. Определение характеристик, описывающих структуры текста.

3. Определение ограничений на корректные структуры текста.

В работе предлагается и обосновывается критерий корректности структуры текста: если функциональное отношение лежит между двумя элементами структуры

текста, тогда оно же лежит между, по крайней мере, двумя ключевыми составляющими этих элементов.

Стоит отметить, что ключевыми ЭТЭ являются ЭТЭ, которые играют роль ядра в функциональном отношении.

Основная идея этого критерия заключается в том, что ЭТЭ-ядра играют большую роль в тексте, нежели ЭТЭ-сателлиты и, в принципе, при удалении всех сателлитов, смысл текста должен сохраниться. Если применить этот принцип рекурсивно ко всему тексту, представляя его в виде дерева, то можно получить дерево, удовлетворяющее критерию.

На следующем этапе формализации были определены характеристики структуры текста для текстового фрагмента [/, А].

В работе показано, что совокупность следующих характеристик является достаточной для описания структуры текста.

• S(l,h, status) показывает статус [/,/1], Он может иметь значения NUCLEUS,SATELLITE или NONE.

• T(l,h,relation_пате) показывает имя функционального отношения, которое лежит между прямыми потомками [/, А] в дереве.

• P(l,h, unit _ пате) показывает имя ключевого (отражающего значимую информацию) ЭТЭ.

Статус, тип и множество ключевых узлов-потомков, которые связаны с каждым узлом, дают достаточную информацию для полного описания текстовой структуры.

Заключительным этапом формализации является определение ограничений для построения корректных структур текста. Текст представляет собой множество ЭТЭ, которые являются листьями дерева; фрагменты текста являются узлами более верхнего уровня и состоят из нескольких ЭТЭ. Допустим, имеется текст из N ЭТЭ, тогда [/, А] является его фрагментом, причем / и h- левый и правый индексы ЭТЭ соответственно. В работе показано, что для генерации только корректных структур необходимо ввести следующие ограничения для текста из N ЭТЭ:

• Для каждого фрагмента [l,h] предикат S имеет домен значений NUCLEUS,SATELLITE,NONE. Для случая, когда l = h, значения могут быть только NUCLEUS, SATELLITE:

[(1 < h < N) л (1 < / < A)] {[/ = A (S(l, h, NUCLEUS) v S(l, h, SATELLITE))} л [7 A -> (S(l, A, NUCLEUS) v S(l, h,SATELLITE) v S(l, h, NONE))}}

• Статус любого фрагмента уникален

[(1 < А < N)л (1 < I <, h)} -»h,status,)aS(1,Ii,status2)) status, = status2

• Для каждого фрагмента [l,h} предикат г имеет домен значений в виде множества функциональных отношений, соответствующих этому фрагменту

[(1 < h < N) л (1 < / < А)] {[/ = h -» T(l,h,LEAF)] а [/ * А (Г(/, A, NONE) V {Т{1, h, name) relevant _ геЩ, h, name)))}}' где relevant_rel{l,h,name) означает множество отношений, лежащих между фрагментами текста внутри [l,h\.

• По крайней мере, одно функциональное отношение лежит между двумя смежными фрагментами:

[(1 < h < N) л (1 < / < A)] [(Г(/, h, namel) л T{1, h, name2)) name, = name2 ]

• Для каждого фрагмента [/,й] предикат /"имеет домен значений в виде множества ЭТЭ, из которых он состоит:

[(1 < h < N) л (1 < / < А)] -> [?(/, h, NONE) vP(l,h,u)-> relevant _ rel(!, h, и))]

• Текстовые фрагменты не пересекаются:

[(1<А, <ЛГ)л(1</, <А,)л(1<А2 <N)a(\<12 < А2) а (/, <l1)A{hl < й2)л(/2 < А,)] ~^[-,S(l¡,h¡,NONE) S(l2,h¡,NONE)]

• Текстовый фрагмент со статусом NONE не участвует в результирующем дереве:

[(1 < h < N) л (1 < / < h)] [(£(/, h, NONE) л Р(/, h, NONE) л T(l, h, NONE)) (S(l,h,NONE) л -,P(7,h,NONE) -, Г(/ДNONE))]

• Существует главный фрагмент, корень дерева, который покрывает весь текст:

(-.S(/,N, NONE) а -,Р(1,N, NONE) ->-,T(l, N,NONE)

Разработанный критерий корректности структуры текста и выполненная формализация характеристик и ограничений на корректные структуры являются расширением формализации основных положений ТРС. Они определяют условия объединения фрагментов текста, позволяют минимизировать набор необходимых параметров, достаточных для полного описания структуры текста, и существенно уменьшить избыточность порождаемых альтернативных структур текста соответственно.

Третья глава посвящена разработке алгоритмов, необходимых для автоматического реферирования научно-технического текста на русском языке на основе разработанного метода.

Обобщенный алгоритм автоматического реферирования представлен на рис. 2.

К1

£

Рис. 2 Обобщенный алгоритм автоматического реферирования текста

Основными составляющими данного алгоритма являются алгоритм определения функциональных отношений между фрагментами текста на основе ключевых

фраз (блоки 1 -2) и алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста (блоки 3-4).

Первоначальной задачей при построении структуры текста является определение набора функциональных отношений между элементарными текстовыми элементами, или частями предложений. Известные подходы к решению этой задачи основаны на использовании глубокого семантического анализа текста, требующего полных баз знаний и соответствующих словарей русского языка, и до практической реализации не доведены. В данной работе на основе анализа корпуса научно-технических текстов на русском языке разработан узкоспециализированный словарь ключевых фраз русского языка, учитывающий специфику функциональных отношений между фрагментами текста, что позволяет определять множество этих отношений для научно-технических текстов на русском языке.

С помощью этого словаря алгоритм определения функциональных отношений выполняет разбиение текста на предложения, определяет границы ЭТЭ и функциональные отношения между ними. Последовательность действий при определении границ ЭТЭ представлена на рис. 3. Построение множества функциональных отношений на основе списка ЭТЭ представлено на рис. 4.

Рис. 3 Алгоритм определения границ ЭТЭ

Инициализация множества ФО. Инициализация левой границы (младшего индекса ЭТЭ в тексте) множества пар ЭТЭ, связанных с текущей ключевой фразой.

Инициализация множества ФО. Инициализация левой границы (младшего индекса ЭТЭ в тексте) множества пар ЭТЭ, связанных с текущей ключевой фразой.

Нет Проверка значения '

^евой границы мн-ва: превысило ли оно^ юроговое значение^

Правая граница принимает значение индекса _текущего ЭТЭ_

Добавление ФО, связывающего ЭТЭ с индексами равными левой и правой

границам соответственно

Добавление ФО, связывающего ЭТЭ с индексами равными правой и левой

границам соответственно

Увеличение правой границы на единицу

Уменьшение левой границы на единицу

X

Нет ^—^"Проверка значения"

правой границы мн-ва: превысило ли оно .пороговое значение2_

Добавлеиие ФО, связывающего ЭТЭ с индексами равными левой и правой

границам соответственно

Добавление ФО, связывающего ЭТЭ с индексами равными правой и левой

границам соответственно

Уменьшение левой границы на единицу

т

Увеличение правой границы на единицу

Сохранение множества функциональных отношений для использования на следующем шаге: построение структуры текста

3/____

конец

Рис. 4 Построение множества функциональных отношений на основе списка ЭТЭ

На следующем этапе был разработан алгоритм построения структуры текста, который имеет на входе сформированный набор функциональных отношений и автоматически определяет структуру текста.

Задача построения структуры текста формулируется следующим образом: дана последовательность ЭТЭ U = u\u2--.u„ и множество функциональных отношений RR, которые лежат между фрагментами текста из ¡7, найти все корректные структуры текста, исходя из линейной последовательности U.

Параметрами алгоритма построения структуры текста являются:

■ множество ЭТЭ U = Ы)И2-"Л;

■ множество констант NUCLEUS , SATELLITE , LEAF, NULL ;

■ имена всех функциональных отношений;

■ объекты типа tree(status, type, promotion, left, right).

Объекты, имеющие форму tree(status,type, promotion,left,right), обеспечивают функциональное представление корректных деревьев. Переменная status может иметь значения NUCLEUS или SATELLITE ; type содержит имя функционального отношения; promotion представляет собой подмножество элементов из множества U ; left и right могут быть либо NULL, либо рекурсивным определением через объект tree.

Идея разработанного алгоритма состоит в следующем. Изначально каждый i -й ЭТЭ ассоциирован с элементарным деревом (деревом, состоящим из одного элемента), которое имеет статус либо NUCLEUS (ядро), либо SATELLITE (сателлит), тип LEAF (лист) и множество ключевых ЭТЭ-потомков {/}. Вначале любое отношение из множества RR может быть использовано для связи двух элементов в более сложные деревья. После построения всех элементарных деревьев структура текста формируется путем соединения смежных деревьев в большие, при условии, что на каждом шаге получается корректная древовидная структура. С каждым шагом связано множество функциональных отношений, которые могут быть использованы на следующих шагах. Но как только одно из отношений было использовано, оно становится недоступным для дальнейших преобразований. Этот процесс повторяется рекурсивно до тех пор, пока не будет получена результирующая структура, покрывающая весь текст.

Реализация данного алгоритма основана на использовании системы правил вывода корректных структур текста, обоснование и формулировка которых приведены в диссертации. Данные правила вывода определяют условия объединения двух смежных фрагментов текста в более сложные структуры в различных ситуациях. .

Отличительной особенностью алгоритма построения структуры текста является учет неоднозначности функциональных отношений путем генерации альтернативных корректных структур текста и выбора оптимальней структуры на основе критерия совокупной метрики в виде линейной комбинации различных индикаторов важности фрагментов текста.

Следующим этапом обобщенного алгоритма является ранжирование по важности листьев (ЭТЭ) построенного структурного дерева для всего текста (блок 5). Далее из ранжированного списка ЭТЭ выбирается их необходимое количество в соответствии с заданным объемом аннотации (блок 6).

Разработанный алгоритм автоматического реферирования текста использует процедуру автоматического построения структуры текста на основе полученного множества функциональных отношений, что позволяет получать качественные рефераты без использования обширных словарей и баз знаний общего назначения.

В четвертой главе рассматривается система автоматического реферирования текста, построенная на основе разработанных алгоритмов, и проводится оценка эффективности разработанного метода и алгоритмов.

Процесс автоматического реферирования текста состоит из нескольких этапов, основными из которых являются следующие: анализ текста и определение функциональных отношений, построение корректных структур текста на основе этих отношений, нахождение оптимальной структуры, и затем получение аннотации.

Структура системы, реализующей разработанный алгоритм автоматического реферирования текста, представлена на рис. 5.

Рис 5 Структура системы автоматического реферирования текста

Реализация системы была выполнена на основе объектно-ориентированного подхода в системе программирования Java.

Эффективность разработанного метода и алгоритма автоматического реферирования оценивалась по качеству получаемых аннотаций.

Оценка качества аннотаций, получаемых с помощью разработанного алгоритма, проводилась на основе различных процедур с помощью метода экспертных оценок:

1) на основе использования эталона аннотации, составляемого группой экспертов, и формального вычисления показателей полноты и точности путем сравнения получаемых аннотаций с эталоном;

2) на основе привлечения двух групп экспертов, одна из которых составляет эталон, а другая оценивает качество аннотации по 10-баллыюй шкале.

При этом исследовалась зависимость качества аннотаций от объема текстов и от наличия ключевых фраз в тексте.

В соответствии с первой процедурой для оценки качества аннотаций необходимо, прежде всего, создать эталон аннотации на основе согласованного мнения боль-

шинства группы экспертов. Группа экспертов для оценки рефератов состояла из 5 научных сотрудников Информационно-логистического центра при СЗТУ. Оценка согласованности мнений экспертов рассчитывалась на основании коэффициента Кендала (коэффициент согласованности) и составила 0.7, что является достаточным для формирования эталона аннотации.

Основной задачей оценки полученной аннотации (реферата) является установление смыслового соответствия или, иными словами, семантического тождества реферата и первоисточника. Для решения данной задачи традиционно используются критерий семантической адекватности и критерий семантической эквивалентности. Первый применяется для оценки точности реферирования, второй - для оценки степени полноты отражения содержания первичного документа в реферате. Для количественной оценки критерия точности используется отношение полученных в аннотации релевантных ЭТЭ к общему количеству ЭТЭ в аннотации. Для количественной оценки критерия полноты используется отношение полученных в аннотации релевантных ЭТЭ к общему количеству релевантных ЭТЭ. Помимо этих показателей принято использовать показатель их взвешенного значения (F-параметр, или гармоническое среднее параметров полноты и точности).

В приложении к диссертационной работе приведены примеры текстов и рефератов, составленных с помощью разработанной системы, системой TextAnalyst и Microsoft Autosummarize.

Проведена сравнительная оценка разработанного метода и алгоритмов с традиционными методами, методом случайного выбора предложений для составления аннотации и усредненным выбором группы экспертов. Результаты сравнительной оценки качества методов автоматического реферирования текста на основе метода экспертных оценок по показателям полноты и точности представлены в табл. 1.

Таблица 1

Средние значения показателей качества методов автоматического реферирования

Система (метод) Полнота Точность F-параметр

■ Эксперт 74.81% 80.84% 77.69%

Разработанная система (метод на основе анализа функциональных отношений) 64.81% 67.03% 66.03%

Система TextAnalyst (метод на основе построения семантической сети) 48.14% 44.82% 46.42%

Система Microsoft AutoSummirize (метод на основе подсчета статистических показателей) 35.18% 32.75% 33.92%

Метод случайного выбора 25.92% 25.92% 25.92%

Результаты экспертных оценок, при которых одна группа экспертов составляет реферат-эталон, а другая группа экспертов-оценщиков по 10-балльной системе оценивает рефераты, полученные автоматически различными системами, согласуются с оценками полноты и точности и подтверждают более высокую эффективность разработанного метода по сравнению с традиционными методами.

Исследование зависимости качества аннотаций от объема текстов и от наличия ключевых фраз в тексте показало следующее. Качество аннотаций практически не зависит от объема текста, если коэффициент встречаемости ключевых фраз в исходных текстах примерно одинаков. Качество аннотаций тем выше, чем больше коэффициент встречаемости ключевых фраз в исходном тексте. Этого следовало ожидать, ввиду того, что алгоритм основан на использовании функциональных отношений, однозначное определение которых затруднительно при отсутствии или малом количестве ключевых фраз.

Проведенные исследования показали, что качество аннотаций, полученных с помощью разработанного алгоритма, в среднем на 20% выше по сравнению с аннотациями, полученными с помощью традиционных методов для научно-технических текстов на русском языке, и при этом алгоритм имеет достаточно хорошее быстродействие, что служит основанием для его эффективного использования на практике.

ЗАКЛЮЧЕНИЕ

• Выполнен анализ современных подходов к автоматическому реферированию текстов. Установлено, что для текстов на русском языке практически реализуемыми являются методы, основанные на подходе экстракции. Анализ существующих исследований в области компьютерной лингвистики показал, что текст нелинеен по своей природе и представляет собой иерархическую структуру с определенными видами связей между фрагментами текста, несущих значимую информацию, которую можно использовать для экстрагирования.

• Предложен метод формализованного описания структуры научно-технического текста на русском языке, который отличается учетом нелинейности и иерархической природы текста, что позволяет повысить качество автоматического реферирования научно-технического текста на русском языке. Разработан критерий корректности структуры текста, выполнены формализация характеристик й Ограничений на корректные структуры, которые являются расширением формализации основных положений ТРС. Они определяют условия объединения фрагментов текста, позволяют минимизировать набор необходимых параметров, достаточных для полного описания структуры текста, и существенно уменьшить избыточность порождаемых альтернативных структур текста соответственно.

• Разработан алгоритм определения функциональных отношений между фрагментами текста на основе анализа ключевых фраз русского языка, который отличается использованием разработанного узкоспециализированного словаря ключевых фраз русского языка и анализом отношений внутри них, что позволяет уменьшить избыточность информационного обеспечения систем автоматического реферирования за счет отказа от использования словарей и баз знаний общего назначения.

• Разработан алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста, который отличается учетом неоднозначности отношений внутри ключевых фраз русского языка путем генерации альтернативных множеств вариантов корректных структур текста с помощью разработанных правил вывода и выбора предпочтительной альтернативы по критерию совокупной метрики, что позволяет автоматизировать процесс получения релевантной структуры текста.

• Проведена экспериментальная проверка предложенных метода и алгоритмов, реализованных в разработанной программной системе автоматического реферирования текста. Проведенные исследования показали, что качество аннотаций, полученных с помощью разработанного алгоритма, в среднем на 20% выше по сравнению с аннотациями, полученными с помощью традиционных методов, реализованных в системе TextAnalyst и встроенной функции пакета Microsoft Office - Autosummarize.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, рекомендованных ВАК России:

1. Тревгода, С.А. Системы автоматического реферирования текста [Текст] / О.Ю. Сабинин, С. А. Тревгода // Приборы и системы. Управление, контроль, диагностика,- 2008. - Вып.1. - С.23-26.

2. Тревгода, С.А. Автоматизация обработки научно-технической информации [Текст] / С. А. Тревгода // Приборы и системы. Управление, контроль, диагностика. - 2009.-Вып.7. - С. 24-27.

Другие статьи и материалы конференций:

3. Тревгода, С.А. Технология автоматического реферирования технического текста [Текст] / О.Ю. Сабинин, С. А. Тревгода // Известия СПбГЭТУ «ЛЭТИ». -2008,-№7.-С. 25-34.

4. Тревгода, С.А. Программное обеспечение систем дистанционного управления [Текст] / С.В. Лукашевич, С. А. Тревгода // Материалы XII межд. конференции «Современное образование: содержание, технологии, качество». - Спб.: Изд-во СПбГЭТУ «ЛЭТИ», 2006. - С.25-27.

5. Тревгода, С.А. Автоматизированное проектирование функционального программного обеспечения [Текст] / С. А. Тревгода // Труды XI межд. науч.-практ. конференции «Системный анализ в проектировании и управлении». - Спб.: Изд-во Санкт-Петербургского Политех, ун-та, 2007. - С.302-304.

6. Тревгода, С.А Анализ методов автоматического реферирования технического текста. [Текст] / О.Ю. Сабинин, С. А. Тревгода // Труды XII межд. науч.-практ. конференции «Системный анализ в проектировании и управлении». - Спб.: Изд-во Санкт-Петербургского Политех, ун-та, 2008. - С.163-165.

7. Тревгода, С.А. Подход к определению множества риторических отношений для автоматического реферирования текста [Текст] / С. А. Тревгода // Труды XII межд. науч.-практ. конференции «Системный анализ в проектировании и управлении». - Спб.: Изд-во Санкт-Петербургского Политех, ун-та, 2008. - С. 166-169.

8. Тревгода, С.А Формализация процедуры построения дискурсной структуры технического текста. [Текст] / О.Ю. Сабинин, С. А. Тревгода // Материалы XI межд. конференции по мягким вычислениям и измерениям (8СМ-2008). - Спб.: Изд-во СПбГЭТУ «ЛЭТИ», 2008. - С.35-38.

9. Тревгода, С.А. Алгоритм автоматического реферирования текста на русском языке [Текст] / О.Ю. Сабинин, С. А. Тревгода // Труды XIII межд. науч.-практ. конференции «Системный анализ в проектировании и управлении» - Спб.: Изд-во Санкт-Петербургского Политех, ун-та, 2009. - С. 188-190.

Ю.Тревгода, С.А. Методы и алгоритмы автоматического реферирования текста на основе построения и анализа дискурсных структур [Текст] / О.Ю. Сабинин, С. А. Тревгода // Труды 62-й международной науч.-техн. конференции «Системный анализ, управление и обработка информации».-Спб.: Изд-во СпбГУАП, 2009. - С. 54-57.

Подписано в печать 29.09.09. Формат 60*84 1/16. Бумага офсетная. Печать офсетная. Печ. л. 1,0. Тираж 100 экз. Закш 72.

Отпечатано с готового оригннал-макета в типографии Издательства СПбГЭТУ "ЛЭТИ"

Издательство СПбГЭТУ "ЛЭТИ" 197376, С.-Петербург, ул. Проф. Попова, 5

Оглавление автор диссертации — кандидата технических наук Тревгода, Сергей Александрович

ВВЕДЕНИЕ

ГЛАВА 1. СОВРЕМЕНННОЕ СОСТОЯНИЕ ПРОБЛЕМЫ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ ТЕКСТА И ПУТИ

ЕЕ РЕШЕНИЯ

1.1 Особенности задачи автоматического реферирования текста

1.2. Обзор методов автоматического реферирования текста

1.3. Современные системы автоматического реферирования текста

1.4. Основные проблемы формализации структуры текста

1.5. Постановка задачи исследования диссертационной работы

1.6. Выводы по главе

ГЛАВА 2. РАЗРАБОТКА МЕТОДА ФОРМАЛИЗОВАННОГО

ОПИСАНИЯ СТРУКТУРЫ ТЕКСТА

2.1. Подход к описанию структуры текста на основе теории риторической структуры текста

2.2. Разработка критерия корректности структуры текста

2.3. Особенности представления структуры текста

2.4. Построение математического описания структуры текста

2.5. Выводы по главе

ГЛАВА 3. РАЗРАБОТКА АЛГОРИТМА АВТОМАТИЧЕСКОГО

РЕФЕРИРОВАНИЯ ТЕКСТА

3.1. Обобщенный алгоритм автоматического реферирования текста

3.2. Разработка алгоритма определения функциональных отношений

3.3. Разработка алгоритма построения структуры текста

3.4. Разработка алгоритма получения аннотации

3.5. Выводы по главе

ГЛАВА 4. ПОСТРОЕНИЕ СИСТЕМЫ И ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ АЛГОРИТМА АВТОМАТИЧЕСКОГО

РЕФЕРИРОВАНИЯ ТЕКСТА

4.1. Общая концепция организации системы автоматического реферирования текста

4.2. Программная реализация системы автоматического реферирования текста 90 4.3 Проверка функциональной работоспособности алгоритма автоматического реферирования текста

4.4. Оценка эффективности алгоритма автоматического реферирования текста

4.5. Выводы по главе 4 110 ЗАКЛЮЧЕНИЕ 111 СПИСОК ЛИТЕРАТУРЫ 113 ПРИЛОЖЕНИЯ 124 Приложение 1. Список функциональных отношений 124 Приложение 2. Примеры текстов и рефератов 128 Приложение 3. Программная реализация системы автоматического реферирования текста 144 Приложение 4. Результаты оценки эффективности алгоритма автоматического реферирования текста

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Тревгода, Сергей Александрович

Электронная информация играет все большую роль во всех сферах жизни современного общества. В последние годы объем научно-технической текстовой информации в электронном виде возрос настолько, что возникает угроза обесценивания этой информации в связи с трудностями поиска необходимых сведений среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными становятся методы автоматизации реферирования текстовой информации, то есть методы получения сжатого представления текстовых документов - рефератов (аннотаций).

Постановка проблемы автоматического реферирования текста и соответственно попытки ее решения с использованием различных подходов предпринимались многими исследователями. История применения вычислительной техники для реферирования насчитывает уже более 50 лет и связана с именами таких исследователей, как Г.П. Лун [108], В.Е. Берзон [6, 7], И.П. Севбо [72, 73], Э.Ф. Скороходько [76, 77], Д.Г. Лахути [38-42], Р.Г. Пиотровский [62, 63] и др. За эти годы выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления:

• автоматическое реферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт;

• автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), содержательно обобщающих первичные документы.

В России исследования в области автоматического реферирования в настоящее время, главным образом, ведутся в .рамках первого направления с использованием статистических методов, смысл которых заключается в отборе предложений с наибольшим весом, который рассчитывается на основе частоты появления слова в тексте или месторасположения предложения, для включения их в реферат. В настоящее время известны только две системы, позволяющие получать аннотации на русском языке: TextAnalyst и встроенная функция в пакете Microsoft Office — Autosummarize. Обе эти системы относятся к классу систем, использующих различные варианты статистических методов. Согласно исследованиям в области компьютерной лингвистики [101, 102] текст, по своей природе, нелинеен, и его структура определяется особенностями внутренней организации единиц текста и закономерностями взаимосвязи этих единиц в рамках текста как цельного сообщения. Как показала практика, различные статистические методы недостаточно эффективны, так как они интерпретируют текст в виде набора линейно упорядоченных слов, словосочетаний и предложений, игнорируя при этом лингвистическую взаимосвязанность естественного языка, что приводит к потере значимой информации.

Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Существует большое количество систем, разработанных, в основном, специалистами университетских центров и используемых ими для своих нужд. В этих системах предлагаются нетрадиционные решения (отличные от статистических методов), основанные на построении лексических цепочек, концептуальных графов, а также эффективных формализмов описания структуры текста. Однако все эти методы ориентированы на учет особенностей конкретных языков, в основном, английского языка и не могут быть непосредственно применены для автоматического реферирования текстов на русском языке. Кроме того, большинство разработок носят коммерческий характер, в связи с чем принцип их работы авторами не раскрывается.

Таким образом, актуальным является создание новых эффективных методов и алгоритмов, учитывающих нелинейную и иерархическую природу текста и позволяющих получать сжатое представление текстовых документов на русском языке.

Целью диссертации является разработка новых эффективных методов и алгоритмов, учитывающих нелинейную и иерархическую природу текста, для автоматизации реферирования научно-технических текстов на русском языке.

Задачи исследования. Для достижения поставленной цели необходимо решить следующие задачи:

• Провести анализ современных подходов и методов, применяющихся при решении задачи автоматического реферирования текста.

• Разработать метод формализованного описания структуры научно-технического текста на русском языке, позволяющий автоматизировать процесс реферирования.

• Разработать алгоритм определения функциональных отношений между фрагментами текста.

• Разработать алгоритм построения структуры на основе множества функциональных отношений между фрагментами текста.

• Реализовать систему автоматического реферирования текста на основе разработанных алгоритмов и провести оценку эффективности разработанных методов и алгоритмов.

Методы исследования. Теоретической и методологической основой работы послужили: теория риторической структуры (ТРС), теория предикатов, компьютерная лингвистика, метод экспертных оценок и современные технологии программирования.

Научные положения, выносимые на защиту.

• Метод формализованного описания структуры научно-технического текста на русском языке.

• Алгоритм определения функциональных отношений между фрагментами текста на основе анализа ключевых фраз.

• Алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста.

Научная новизна.

• Метод формализованного описания структуры текста, основанный на использовании ТРС, отличается учетом нелинейной и иерархической природы текста, что позволяет повысить качество автоматического реферирования научно-технического текста на русском языке. Метод формализованного описания включает в себя определение критерия корректности структур текста, определение характеристик структуры текста и ограничений на корректные структуры текста.

• Алгоритм определения, функциональных отношений между фрагментами текста отличается использованием разработанного узкоспециализированного словаря ключевых фраз русского языка и процедурами анализа отношений внутри них, что позволяет уменьшить избыточность информационного обеспечения систем автоматического реферирования за счет отказа от использования словарей и баз знаний общего назначения.

• Алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста отличается учетом неоднозначности отношений внутри ключевых фраз русского языка посредством генерации альтернативных множеств вариантов корректных структур текста с помощью разработанных правил вывода и выбора предпочтительной альтернативы по критерию совокупной метрики, что позволяет автоматизировать процесс получения релевантной структуры текста.

Практическая ценность работы заключается в следующем:

• разработанное алгоритмическое и программное обеспечение позволяет строить системы автоматического реферирования научно-технического текста для русского языка, учитывающие нелинейную и иерархическую природу текста, что позволяет повысить качество получаемых аннотаций;

• реализована система автоматического реферирования научно-технического текста для русского языка на основе разработанного алгоритма, не требующая избыточного информационного обеспечения за счет отказа от использования обширных словарей и баз знаний общего назначения.

Внедрение и реализация результатов. Достоверность научных положений, результатов и выводов подтверждается корректным использованием математического аппарата, результатами вычислительных экспериментов по разработанным методам, алгоритмам и программам, обсуждением полученных результатов на научных конференциях, а также результатами использования и внедрения.

Полученные научные результаты внедрены и используются в Информационно-логистическом центре при Северо-Западном заочном техническом университете, в ЗАО «Абсолют» г. Санкт-Петербург, о чём имеются соответствующие акты.

Апробация работы Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях:

• XII международная конференция «Современное образование: содержание, технологии, качество, Россия, Санкт-Петербург, июнь 2006г.

• XI международная научно-практическая конференция «Системный анализ в проектировании и управлении» Россия, Санкт-Петербург, июнь 2007г.

• XII международная конференция «Системный анализ в проектировании и управлении» Россия, Санкт-Петербург, июнь 2008г.

• XI международная конференция по мягким вычислениям и измерениям (8СМ'2008) Россия, Санкт-Петербург, июнь 2008г.

• 62-я международная научно-техническая конференция «Системный анализ, управление и обработка информации» Россия, Санкт-Петербург, апрель 2009г.

• ХШ международная научно-практическая конференция «Системный анализ в проектировании и управлении» Россия, Санкт-Петербург, июнь 2009г.

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 10 статьях и докладах, среди которых 2 публикации в изданиях, рекомендованных ВАК, одна статья в других изданиях и 7 докладов на международных научно-технических конференциях.

В первой главе рассматриваются основные подходы к автоматическому реферированию текста. Дается обзор существующих методов автоматического реферирования, анализируются преимущества и недостатки существующих систем. Обосновываются и конкретизируются цель и задачи исследования.

Вторая глава посвящена разработке метода формализованного описания структуры текста, на базе которого будут разработаны алгоритмы автоматического реферирования текста.

Третья глава посвящена разработке алгоритмов, необходимых для автоматического реферирования научно-технического текста на русском языке на основе разработанного метода.

В четвертой главе рассматривается система автоматического реферирования текста, построенная на основе разработанных алгоритмов, и проводится оценка эффективности разработанного метода и алгоритмов.

Заключение диссертация на тему "Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений"

4.5. Выводы по главе 4

1. Проведенные экспериментальные исследования показали, что качество аннотаций, полученных на основе разработанного метода, в среднем на 20% выше по сравнению с аннотациями, полученными с помощью традиционных методов, реализованных в системе TextAnalyst и встроенной функции пакета Microsoft Office — Äutosummarize.

2. Разработанное программное обеспечение для автоматического реферирования текста имеет открытую архитектуру, реализованную с использованием объектно-ориентированного подхода, что позволяет легко встраивать новые подсистемы с целью расширения имеющейся функциональности.

ЗАКЛЮЧЕНИЕ

1. Выполнен анализ современных подходов к автоматическому реферированию текстов. Установлено, что для текстов на русском языке практически реализуемыми являются методы, основанные на подходе экстракции. Анализ существующих исследований в области компьютерной лингвистики показал, что текст нелинеен по своей природе и представляет собой иерархическую структуру с определенными видами связей между фрагментами текста, несущих значимую информацию, которую можно использовать для экстрагирования.

2. Предложен метод формализованного описания структуры научно-технического текста на русском языке, который отличается учетом нелинейности и иерархической природы текста, что позволяет повысить качество автоматического реферирования научно-технического текста на русском языке. Разработан критерий корректности структуры текста, выполнены формализация характеристик и ограничений на корректные структуры, которые являются расширением формализации основных положений ТРС. Они определяют условия объединения фрагментов текста, позволяют минимизировать набор необходимых параметров, достаточных для полного описания структуры текста, и существенно уменьшить избыточность порождаемых альтернативных структур текста соответственно.

3. Разработан алгоритм определения функциональных отношений между фрагментами текста на основе анализа ключевых фраз русского языка, который отличается использованием узкоспециализированного словаря ключевых фраз русского языка и анализом отношений внутри них, что позволяет уменьшить избыточность информационного обеспечения систем автоматического реферирования за счет отказа от использования словарей и баз знаний общего назначения.

4. Разработан алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста, который отличается учетом неоднозначности отношений внутри ключевых фраз русского языка, генерацией альтернативных множеств вариантов корректных структур текста и выбора предпочтительной альтернативы по критерию совокупной метрики, что позволяет автоматизировать процесс получения релевантной структуры текста.

5. Проведена экспериментальная проверка предложенных алгоритмов и метода, реализованных в разработанной программной системе автоматического реферирования текста. Проведенные исследования показали, что качество аннотаций, полученных с помощью разработанного метода, в среднем на 20% выше по сравнению с аннотациями, полученными с помощью традиционных методов, реализованных в системе TextAnalyst и встроенной функции пакета Microsoft Office ~ Autosummarize.

Библиография Тревгода, Сергей Александрович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Алексеров, Ф.Т. Методы обработки интервальных экспертных оценок Текст. / Ф.Т. Алексеров, В. Бауман, В.И. Вольский // Автоматика и телемеханика. 1984. - № 3. - С. 127-133.

2. Алыгулиев, P.M. Автоматическое реферирование документов с извлечением информативных предложений Текст. / P.M. Алыгулиев // Вычислительные технологии. 2007. — Т. 12, № 5. - С. 5—15.

3. Аляев, Ю.А. Дискретная математика и математическая логика Текст.: монография / Ю.А. Аляев, С.Ф. Тюрин. М.: Финансы и статистика, 2006. - 368 с.

4. Белоногов, Г.Г.Компьютерная лингвистика и перспективные информационные технологии Текст.: монография / Г.Г. Белоногов, Ю.П. Калинин, A.A. Хорошилов. — М.: Русский мир, 2004. — 246 с.

5. Берзон, В.Е. Об одном подходе к проблеме автоматического реферирования и автоматического свертывания индексируемых текстов Текст. /В.Е. Берзон //ЯШ. Сер. 2.- 1971.- № 10.-С. 16-21.

6. Берзон, В.Е. Синтаксические сверхфразовые связи и их инженерно—лингвистическое моделирование Текст.: монография / В.Е. Берзон, Э. М. Добрускина. — Кишинев: Штиинца. 1986. - 168 с.

7. Бешелев, С.Д. Математико-статистические методы экспертных оценок Текст.: монография / С.Д. Бешелев, Ф.Г. Гурвич. М.: Статистика, 1980.-263 с.

8. Блюменау, Д.И. Проблемы свёртывания научной информации Текст.: монография / Д.И. Блюменау. JL: Наука, 1982. - 166 с.

9. Болдырев, H.H. Когнитивная семантика Текст.: монография / H.H. Болдырев. Тамбов: Изд-во Тамб. ун-та, 2001. — 123 С.

10. Большакова, Е.И. Структурирование и извлечение знаний, представленных в научных текстах Текст. / Е.И. Большакова, Н.В. Баева, Н.Э Васильева // Труды 9 -ой Национальной конф. по искусственному интеллекту. — М.: Физматлит, 2004. С. 45 - 51.

11. Большакова, Е.И. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов Текст. / Е.И.Большакова, Н.В. Баева, Н.Э.Васильева //Труды межд. конф. Диалог 2007. — М.: Издательский центр РГГУ, 2007. С. 70-75.

12. Браславский, П.И eXtragon экспериментальная система для автоматического реферирования веб-документов Текст. / П.И. Браславский, И.С. Колычев //Труды РОМИП 2005. СПб, 2005. - С. 40-53.

13. Браславский, П.И. Автоматическое реферирование веб-документов с учетом запроса Текст. / П.И. Браславский, И.С. Колычев // Интернет-математика 2005. М.: Яндекс, 2005. - С. 485-501.

14. Буч,.Г Объектно-ориентированный анализ и проектирование Текст.: монография / Г.Буч.- Изд-во Вильяме, 2008. 560 с.

15. Гаврилова, Т.А Базы знаний интеллектуальных систем Текст.: монография / Т.А.Гаврилова, В.Г.Хорошевский. СПб.: Питер, 2000. - 384 с.

16. Гиляревский, P.C. Методы автоматизированного фрагментирова-ния текста, отражающиеся на характеристике внутреннего состава фрагментов Текст. / P.C. Гиляревский, С.И. Гиндин // Семиотика и информатика. М.: ВИНИТИ, 1977. Т.9. - С.35-84.

17. Гладкий, A.B. Формальные грамматики и языки Текст.: монография / А. В. Гладкий. М.: Наука, - 1973. - 368 с.

18. Горский, В.Г., Метод согласования кластеризованных ранжировок Текст. / В. Г. Горский, А.И. Орлов, A.A. Гриценко // Автоматика и телемеханика. 2000. №3. С. 59-167.

19. Губин, М.В. Эффективный алгоритм формирования контекстно-зависимых аннотаций Текст. / М.В. Губин, А.И. Меркулов //Труды межд. конф. Диалог 2005. М.: Наука, 2005. - С. 116-120.

20. Гуц, A.K. Математическая логика и теория алгоритмов Текст.: монография / А. К. Гуц Омск: Изд-во Наследие. Диалог-Сибирь, 2003. -108 с.

21. Дейк, Т.А. ван Стратегии понимания связного текста Текст. / Т.А. ван Дейк, В. Кинч // Новое в зарубежнойлингвистике. М.: Прогресс, 1988.-Вып. 23.-С. 153-211.

22. Дейк, Т.А. ван Язык. Познание. Коммуникация Текст.: монография / Т.А. ван Дейк, под ред. В.И.Герасимова. М.: Прогресс, 1989. - 310 с.

23. Емашова, O.A. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текстов / O.A. Емашова, М.Г. Мальковский // Труды межд. конф. Диалог 2007. -(http://www.dialog21 .ru/dialog2007/ materials/html/25.htm).

24. Ефименко, И.В. Лингвистические аспекты кросс-языкового реферирования: синтез текстов под управлением предметных онтологий Текст. И.В. Ефименко // Труды 10-ой конф. по искусственному интеллекту.- М.: Физматлит, 2006, Т 1. - С. 81-87.

25. Заболеева-Зотова, A.B. Лингвистическое обеспечение автоматизированных систем Текст.: монография / A.B. Заболеева-Зотова, В.А. Кама-ев. М.: Высшая школа, 2008. - 245с.

26. Зубов, A.B. Автоматическое построение табличного реферата группы текстов одной тематики/ А.В.Зубов.// Материалы конференции «Диа-лог-2005». (http://www.dialog-l.ru/Archive/2005/Zubov%20A/ZubovA.htm).

27. Зубов, A.B. Информационные технологии в лингвистике Текст.: монография / А.В.Зубов. М.: Академия, 2004. - 208 с.

28. Игошин, В.И. Математическая логика и теория алгоритмов Текст.: монография / В. И. Игошин. -М.: Академия, 2008. 448 с.

29. Карасик, В.И. О типах дискурса Текст. / В. И. Карасик // Языковая личность: институциональный и персональный дискурс: Сб. науч. тр. Волгоград: Перемена, 2000. С. 5-20.

30. Кибрик, A.A. Когнитивные исследования по дискурсу Текст. / A.A. Кибрик // Вопросы языкознания 1994. -№5. - С. 126-139.

31. Кини, Р.Д. Принятие решений при многих критериях: предпочтения и замещения Текст.: монография / Р.Д. Кини, Х.Райфа. М.: Радио и связь, 1981.-560 с.

32. Клипи, С.К. Математическая логика Текст.: монография / С.К. Клини. М.: Мир, 1973. - 480 с.

33. Кулагина, О.С. Исследования по машинному переводу Текст.: монография / О. С. Кулагина. М.: Наука, 1979. - 320 с.

34. Ларичев, О.И. Теория и методы принятия решений Текст.: монография / О.И.Ларичев М.: Логос, 2006. - 392 с.

35. Ларман, К. Применение ЦМЬ и шаблонов проектирования Текст./: монография / К. Ларман. Изд. дом «Вильяме», 2006. - 620 с.

36. Лахути, Д.Г. Формализованное реферирование с использованием словесных клише (маркеров) Текст. / Д.Г. Лахути, Д.И. Блюменау, Н.И. Гендина // НТИ. Сер.2. 1981. №2. - С. 16-20.

37. Лахути, Д. Г. Вопросы отладки и оценки дескрипторных поисковых систем Текст. / Д.Г. Лахути // Семантические проблемы информатики. -М., 1971.-С. 6-37.

38. Лахути, Д. Г. Средства и процедура концептуальной интерпретации входных сообщений на естественном языке систем Текст. /Д .Г. Лахути, В.Ш. Рубашкин // Известия АН СССР: Техническая кибернетика. 1987. -№ 2. - С. 49-59.

39. Лахути, Д. Г. Автоматизированные документально-фактографические информационные системы Текст. / Д .Г. Лахути // Итоги науки и техники. Сер. Информатика. 1988.-Т. 12.-С. 56-79.

40. Лахути, Д.Г Экстрагирование как один из подходов к автоматизации реферирования Текст. / Д.Г. Лахути, Д.И. Блюменау, И.С. Добронравов // Теория и практика механизации библ. и информ.-библиогр. процессов.-Л., 1982.-С 108- 128.

41. Леонов, В.П. О методах автоматического реферироваиия (США 1958-1974 гг.) Текст. / В.П.Леонов // Научно-техническая информация, сер.2.- 1975.-№6.- С. 16-20.

42. Леонов, В.П. Реферирование и аннотирование научно-технической литературы Текст.монография / В.П. Леонов. Новосибирск: Наука, 1986.- 175 с.

43. Литвак, Б.Г. Экспертная информация: методы получения и анализа Текст. :учеб. пособие для вузов / Б.Г.Литвак. М.: Радио и связь, 1982. — 350 с.

44. Литвиненко, А. О. Описание структуры дискурса в рамках теории риторической структуры Текст. / А.О.Литвиненко //Труды Межд. семинара Диалог 2001 по компьютерной лингвистике и ее приложениям. Аксаково, 2001. Т.1. - С. 159-168.

45. Лукашевич, Н. В. Обработка потока новостей на основе больших лингвистических ресурсов Текст. / Н.В. Лукашевич, Б.В. Добров, C.B. Штернов // Интернет-математика 2005. Автоматическая обработка веб-данных. М.: - 2005. - С. 461-484.

46. Лукашевич, Н.В Представление знаний в системе автоматической обработки текстов Текст. / Н.В. Лукашевич, А.Д. Салий // НТИ. Сер.2. -1997.-N3.-С. 15-23.

47. Макаров, М.Л. Основы теории дискурса Текст.: монография / М.Л.Макаров. М.: Гнозис, 2003. - 280 с.

48. Макконнелл, С. Совершенный код Текст.: монография / С. Макконнелл. Издательство: Питер Русская редакция, 2007. - 896 с.

49. Мак Кьюин, К. Дискурсивные стратегии для синтеза текста на естественном языке Текст./ К. Мак Кьюин // Новое в зарубежной лингвистике. -М.: 1989. - Вып. XXIV. - С. 311- 356.

50. Мальцев, А.Н. Алгоритмы и рекурсивные функции Текст.: монография / А.Н.Мальцев М.: Наука, 1986. - 366 с.

51. Марчук, Ю.Н. Проблемы машинного перевода Текст.монография / Ю.Н. Марчук. М.: Наука, 1983. - 231 с.

52. Марчук, Ю.Н. Компьютерная лингвистика Текст.:Учеб.пособие / Ю.Н. Марчук, ACT, Восток-Запад, 2007. 226 с.

53. Мельчук, И.А Опыт теории лингвистических моделей "Смысл-Текст". Семантика, синтаксис Текст. / И.А.Мельчук. М.:Наука, 1999. -314 с.

54. Мендельсон, Э. Введение в математическую логику Текст.: монография / Э. Мендельсон. М.: Наука, 1971. - 322 с.

55. Михаилян, А Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах / А. Михаэлян. -2001. (http://www.citforum.ru/programming/digest/avtestlang.shtml).

56. Нелюбин, Л.Л. Компьютерная лингвистика и машинный перевод Текст.: Метод.пособие / Л.Л. Нелюбин. М.: ВЦП, 1991. - 151 с.

57. Орлов, А.И. Современная прикладная статистика Текст. / А.И. Орлов // Заводская лаборатория. 1998. Т. 64. - № 3. - С.52-60.

58. Панкова, JI.A. Организация экспертизы и анализ экспертной информации Текст.¡монография/ Л.А.Панкова, А.М.Петровский, М.В. Шнец-дерман. М.: Наука, 1984. - 120 с.

59. Пащенко, H.A. Проблемы автоматизации индексирования и реферирования Текст. / H.A. Пащенко, JI.B. Кнорина, Т.В. Молчанова // Итоги науки и техники. Сер. Информатика. -М.: ВИНИТИ, 1983. Т.7. - С. 7-164.

60. Пиотровский, Р.Г. Текст, машина, человек Текст.: монография / Р.Г. Пиотровский. JL: Наука, 1975. - 327с.

61. Пиотровский, Р.Г. Инженерная лингвистика и теория язы-каТекст.монография / Р.Г. Пиотровский. JL : Наука, 1979. - 112 С.

62. Попов, Э.В. Общение с ЭВМ на естественном языке Текст.: монография/ Э.В.Попов. М.: Наука, 1982. - 360 с.

63. Попов, М.Ю. Визуализация семантической структуры и реферирование текстов на естественном языке / М.Ю. Попов, A.B. Заболеева-Зотова, С.А. Фоменков. (http://www.dialog-21.ru/Archive/2003/Popov.htm).

64. Поспелов, Д.А. Из истории искусственного интеллекта: история искусственного интеллекта до середины 80-х годов Текст. / Д.А.Поспелов// Новости искусственного интеллекта Вып. 4, 1994 — С.70 - 90.

65. Поспелов, Д.А. Логико-лингвистические модели в системах управления Текст. монография./ Д.А. Поспелов. М., 1981.- 232 с.

66. Преображенский, А.Б. Состояние развития систем естественноязыкового общения Текст. / А.Б.Преображенский //Сб. Искусственный интеллект. М.:Радио и связь, 1990. - Т.1. - С.32-64.

67. Раев, А.Г. Об одном способе определения весовых коэффициентов частных критериев при построении аддитивного интегрального показателя Текст. / А.Г.Раев //Автоматика и телемеханика. 1984. - № 5. — С.162-165.

68. Рождественская, Н.В. Дискурс как высшая единица коммуникативного акта./ Н.В. Рождественская (www.zsu.zp.ua/herald/articles/1955.pdf).

69. Рыков, A.C. Методы системного анализа: Многокритериальная и нечеткая оптимизация, моделирование и экспертные оценки Текст.: Учеб.пособие / А.С.Рыков. М.: Экономика, 1999. - 216 с.

70. Севбо, И.П. Структура связного текста и автоматизация реферирования Текст.монография / И.П. Севбо М.: Наука, 1969. - 135 с.

71. Севбо, И.П. Сквозной анализ как шаг к структурированию текстовых знаний Текст. / И.П. Севбо. // НТИ. Сер. 2. 1989. - № 2. - С. 26-32.

72. Селезнев, К.Е Обработка текстов на естественном языке / К.Е. Селезнев // Открытые системы. 2003. - №12.-(http://www.osp.ru/os/2003/12/183694).

73. Скороходько, Э.Ф. Семантические связи в лексике и текстах Текст. / Э.Ф. Скороходько // Вопросы информационной теории и практики. -М.:- 1977. -№23. -С. 42-45.

74. Скороходько, Э.Ф. Семантические сети и автоматическая обработка текста Текст.: монография / Э.Ф. Скороходько. Киев: Наукова думка, 1983.-219с.

75. Совпель, И. В. Инженерно-лингвистические принципы, методы и алгоритмы автоматической переработки текста Текст.: монография / И.В. Совпель. Минск : Вышэйш. шк., 1991. - 236 с.

76. Солтон Д. Динамические библиотечно-информационные системы Текст.: монография / Д. Солтон М.: Мир, 1979. - 557 с.

77. Ступин, B.C. Система автоматического реферирования методом симметричного реферирования Текст. / B.C. Ступин // Компьютерная лингвистика и интеллектуальные технологии. Труды межд. конференции «Диалог 2004» М.: Наука, 2004. - С. 579-591.

78. Тревгода, С.А. Системы автоматического реферирования текста Текст. / О.Ю. Сабинин, С. А. Тревгода // Приборы и системы. Управление, контроль, диагностика.- 2008. Вып.1. - С.23-26.

79. Тревгода, С.А. Автоматизация обработки научно-технической информации Текст. / С. А. Тревгода // Приборы и системы. Управление, контроль, диагностика. 2009.-Вып.7. - С. 24-27.

80. Тревгода, С.А. Технология автоматического реферирования технического текста Текст. / О.Ю. Сабинин, С. А. Тревгода // Известия СПбГЭТУ «ЛЭТИ». 2008.- № 7. -С. 25-34.

81. Тревгода, С.А. Программное обеспечение систем дистанционного управления Текст. / C.B. Лукашевич, С. А. Тревгода // Материалы XII межд. конференции «Современное образование: содержание, технологии, качество». Спб.: Изд-во СПбГЭТУ «ЛЭТИ», 2006.-С.25-27.

82. Хан, У Системы автоматического реферирования // У.Хан, И. Мани // Открытые системы. (http://www.osp.ru/os/2000/12/067.htm).

83. Хорстманн, К.С. Java 2. Тонкости программирования Текст.: монография / К.С.Хорстманн, Г. Корнелл. Изд-во «Вильяме», - 2007.-1168 с.

84. Шилдт, Г Java: методики программирования Шилдта Текст.: монография/ Г. Шилдт. -Изд-во «Вильяме», 2008.- 512 с.

85. Элиенс, А. Принципы объектно-ориентированной разработки программ Текст.: монография /А. Элиенс. Изд-во «Вильяме», - 2008. - 496с.

86. Яворски, Д. Система безопасности Java. Руководство разработчи-каТекст.: монография / Д. Яворски, Пол Дж. Перроун. Изд-во «Вильяме», 2001. - 528 с.

87. Яцко, В.А. Симметричное реферирование: теоретические основы и методика Текст. / В.А. Яцко // НТИ. Сер. 2. 2002. - №5. - С. 18-28.

88. Barzilay, М. Using lexical chains for text summarization. Текст. / M. Barzilay, R. Elhadad // In Proceedings of the ACL/EACL-97 Workshop on Intelligent Scalable Text Summarization. Madrid, Spain, 1997. - C. 10-17.

89. Grimes, J.E. The Thread of Discourse. Текст. / J.E. Grimes // The Hauge, Paris: Moution. 1975. - 346 c.

90. Grosz, B.J. Attention, intentions, and structure of discourse Текст. / B.J. Grosz, C.L. Sidner // Computational Linguistics. 1986 - №12 - C. 203-226.

91. Iatsko, V. Linguistic Aspects of Summarization. Текст. / V. Iatslco // In Philologie im Netz. Вып. 18. - 2001. - С. 33-46. (http://www.fu-berlin.de/phin/phin 18/p 18t3 .htm).

92. Inderjeet, M. Automatic summarization (Natural Language Processing) Текст. / M. Inderjeet John Benjamins Publishing Company, 2001. -285 c.

93. Inderjeet, M. Advances in automatic text summarization Текст. / M. Inderjeet, M. T. Maybury The MIT Press, 1999. - 434 c.

94. Haliday, A.K. Cohesion in English. Текст. / A.K. Haliday, R. Hasan // England, Londin: Longman. 1976. - 221 c.

95. Hobbs, J.R. Summaries from structure Текст. / J.R. Hobbs // In Working Notes of the Dagstuhl Seminar on Summarizing Text for Intelligent Communication Dagstuhl, Germany. - 1993. - C. 13-17.

96. Hobbs, J.R. On the relation between informational and intentional perspectives on discourse Текст. / J.R. Hobbs // Computational and Conversational Discourse. Burning Issues An Interdisciplinary Account - Heidelberg, Germany. - 1996. - C. 139-157.

97. Hovy, E.H. Planning coherent multisententional text Текст. / E.H. Hovy // In Proceedings of the 26th Annual Meeting of the Association for Computational Linguistics Buffalo, New-York. - 1988. - C. 163-169.

98. Kupiec, T. A trainable document summarizer. Текст. / Т. Kupiec, J. Pedersen, F. Chen // In Proceedings of the 18th ACM/SIGIR Annual Conference on Research and Development in Information Retrieval, Seattle, WA, 1995. C. 68-73.

99. Luhn, H.P. The automatic creation of literature abstracts. Текст. H.P. Luhn // IBM Journal of Research and Development Вып. 2. - 1958. - С. 159165.

100. Mann, W.C. Rhetorical structure theoiy: Toward a functional theory of text organization Текст. / W.C. Mann, S.A. Thompson // Text № 8(3). -1988. -C. 243-281.

101. Marcu, D. Discourse trees are good indicators of importance in text Текст. / D. Marcu // Advances in automatic text summarization Cambridge, The MIT Press. - 1999. - C. 123 - 136.

102. Nomoto, T. The diversity-based approach to open-domain text summarization. Текст. / Т. Nomoto, Y.Matsumoto // In Information Processing & Management, 39, 2003. C. 363-389.

103. Polanyi, L. The linguistic structure of discourse. Текст. L. Polanyi // Technical report CSLI-96-200, Center for study of language and information. -Stanford, CA. 1996. - 45 c.

104. Rijsbergen, C. J. Information retrieval. Текст. / С. J. Rijsbergen. -Butterworths, London. 1979. - 325c.

105. Segal, E.M. The role of interclausal connectives in narrative structuring. Текст. E.M. Segal // Discourse processes. 1991. - C. 27-54.