автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Формирование контента реферата при автоматическом реформировании научного текста

кандидата технических наук
Пачковская, Светлана Валерьевна
город
Улан-Удэ
год
2010
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Формирование контента реферата при автоматическом реформировании научного текста»

Автореферат диссертации по теме "Формирование контента реферата при автоматическом реформировании научного текста"

На правах рукописи

гг

/

ПАНКОВСКАЯ Светлана Валерьевна

А

ФОРМИРОВАНИЕ КОНТЕНТА РЕФЕРАТА ПРИ АВТОМАТИЧЕСКОМ РЕФЕРИРОВАНИИ НАУЧНОГО ТЕКСТА

05.13 ЛI - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Красноярск - 2010

003493392

Работа выполнена в Восточно-Сибирском государственном технологическом уни верситете

Научный руководитель: доктор технических наук, доцент

Найханова Лариса Владимировна

Официальные оппоненты: доктор технических наук, профессор

Доррер Георгий Алексеевич

доктор технических наук, профессор Ноженкова Людмила Фёдоровна

Ведущая организация: ГОУ ВПО «Петрозаводский государст-

венный университет» (г. Петрозаводск)

Защита диссертации состоится 12 марта 2010г. в 14-00 часов на заседании диссер тационного совета ДМ 212.099.05 при Сибирском федеральном университете по адре су: 660074 г. Красноярск, ул. Киренского, 26, ауд. - УЛК-1-15.

С диссертацией можно ознакомиться в библиотеке Сибирского федерального уни верситета по адресу: г. Красноярск, ул. Киренского, 26, ауд. - Г2-74.

Автореферат разослан 10 февраля 2010г.

Ученый секретарь

диссертационного совета У

канд. техн. наук. проф. Е.А. Вейсов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Анализ работ, посвященных автоматическому реферированию. показал, что их можно разделить на две категории.

К первой категории относятся работы В.А. Чижаковского, Э.М. Добрускиной, Р.Г. Пиотровского, Л.Н. Беляевой, O.A. Бородиной, Д.И. Блюменау, Н.И. Гендиной, Д.Г. Лахути, В.А. Яцко. в которых реферат формируется в соответствии с заранее заданной жесткой структурой. При этом для его формирования используются различного рода диагностирующие конструкции, не требующие глубокого семантического анализа исходного текста. Работы второй категории посвящены созданию реферата на основе компрессии исходного текста; исследования направлены на решение задачи понимания смысла текста, и их можно разбить на две группы.

В исследованиях первой группы, описанных в работах У. Хана, И. Мани, И.В. Николаевой, решение задачи основано на применении статистического анализа, института весовых коэффициентов и сопоставления фразовых шаблонов без применения глубокого семантического анализа. В исследованиях второй группы семантический анализ исходного текста требует не только грамматики и словари для морфологического и синтаксического разбора, но и онтологические тезаурусы, позволяющие делать логические выводы на основе временных, пространственных, каузальных и других законов. В работах А.З. Панкратовой, A.A. Харламова, А.Е. Ермакова, Д.М. Кузнецова для понимания смысла текста строятся семантические сети, а в работах A.M. Бледнова, A.B. Корхова, В.А. Тузова, О.В. Корховой выполняется более глубокий семантический анализ на основе метода семантических падежей К. Филмора и модели В.А. Тузова.

В основе многих систем автореферирования текста лежит статистический анализ текста, а для выявления смысла текста используется построение семантической сети исходного текста. Однако большинство разработок носят экспериментальный характер, не многие существующие системы поддерживают русский язык, генерируют сглаженные рефераты и предполагают опору на знания. Сервисы реферирования ориентированы либо на узкую предметную область, либо требуют участия человека, хотя можно выделить системы, в которых сделана попытка использования знаний на основе онтологического подхода, например для разрешения проблем омонимии.

Таким образом, необходимо отметить, что в настоящее время переход от экспериментальных лабораторных исследований по созданию качественных рефератов к их использованию в решении прикладных задач реального мира до сих пор не произошел. Поэтому проблема автоматического реферирования научного текста остается актуальной. Как правило, в автореферировании выделяются задачи формирования контента реферата и построения дискурса текста реферата. •

Цель данной работы - разработка и исследование алгоритмов автоматического формирования контента реферата научного текста, позволяющих улучшить смысловое качество реферата и повысить эффективность процессов обработки данных и знаний в компьютерных системах и сетях.

Для достижения поставленной цели в работе решаются следующие задачи.

1. Обзор и анализ существующих решений в области автоматического реферирования текста.

2. Выбор и усовершенствование методов лингвистического анализа научного гек-

ста.

3. Разработка алгоритмов выбора предложений в реферат и алгоритма составления логической последовательности предложений в реферате.

4. Апробация разработанных моделей и алгоритмов.

Методы исследования. Методологической и теоретической основой выполненного исследования послужили положения теории искусственного интеллекта, логики предикатов первого порядка, нечеткой логики, ситуационного моделирования, теории автоматов и математической лингвистики.

Научная новизна. Научная новизна работы заключается в развитии методов автоматического построения реферата и состоит из следующих элементов.

1. Новизна разработанного ачгоритма выбора предложений из анализируемого текста в реферат заключается в применении онтологической базы знаний, позволяющей сформировать совокупность предложений реферата, отражающих смысловой аспект анализируемого текста.

2. Новизна ал горитма формирования логической последовательности предложений в реферате заключается в том, что сформированный контент реферата является информативным и обладает достаточно точным изложением содержания документа.

Практическая ценность исследования состоит в том, что применение алгоритмов формирования контента реферата обеспечит повышение качества реферата в системе автоматического реферирования, применение которой в глобальной сети Интернет, библиотечных системах позволит усовершенствовать процессы обработки данных и знаний в компьютерных системах и сетях.

Публикации. Основные результаты диссертационной работы опубликованы в 8 печатных работах, из которых 7 статей и одно свидетельство об официальной регистрации программы для ЭВМ.

Апробация результатов исследования. Основные положения и результаты диссертационной работы докладывались и обсуждались на Всероссийской научно-технической конференции «Информационные системы и модели в научных исследованиях, промышленности и экологии» (Тула, 2007, 2009); Международной научно-технической мультиконференции «Актуальные проблемы информационно-компьютерных технологий, мехатроники и робототехники» (Таганрог, 2009); Всероссийской научно-практической конференции «Системы автоматизации в образовании, науке и производстве - А8'2009» (Новокузнецк, 2009); Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2008-2009) и на ежегодных конференциях преподавателей, сотрудников и аспирантов ВСГТУ. Материалы диссертационных исследований используются в научных исследованиях Центра дистанционного образования Воронежского государственного технического университета при разработке интеллектуальных систем поддержки принятия решений в части построения семантической сети предметной области решаемой задачи; в учебной деятельности Восточно-Сибирского государственного технологического университета при разработке учебного курса «Естественно-языковые системы» по специальности 230105 - «Программное обеспечение вычислительной техники и автоматизированных систем» в виде курса лекций и методических указаний к лабораторным работам.

Структура и объем работы. Диссертация состоит из введения, четырех глав, за-

ключения. списка литературы и шести приложении, содержит 126 страниц текста. 25 рисунков и 24 таблицы. В список литературы вошло 131 наименование.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность выбранной темы, определяются цель, задачи и методы исследования, излагаются научная новизна и практическая ценность полученных результатов.

В первом разделе дан обзор существующих методологий решения задачи автоматического реферирования научного текста и систем автоматического реферирования текста, рассмотрена классификация рефератов, проанализированы методы и системы автореферирования текста, описаны проблема и постановка задачи.

Исследованиями по автоматическому реферированию начали заниматься более 50 лет назад. К настоящему времени разработано достаточно много методов автореферирования. которые можно разделить на методы квазиреферирования и генерирования рефератов. Первые основаны на экстрагировании, т.е. выделении из текста наиболее информативных фрагментов, передающих основной смысл текста, вторые - на выделении наиболее существенной информации из текстов документов.

Теория и методика реферирования-экстрагирования были разработаны в конце 70-х - начале 80-х гг. группой исследователей Ленинградского института культуры: Д.И. Блюменау, Н.И. Гендиной, И.С. Добронравовым, Д.Г. Лахути и др. В рамках этой методики разработаны три вида методов: статистические, позиционные и индикаторные. Статистические методы основаны на использовании статистических параметров для оценки информативности различных элементов текста (слов, предложений), прежде всего, по частоте встречаемости слов в тексте; вес предложения определяется как сумма частот входящих в него значимых слов. Позиционные методы опираются на предположение о том, что информативность предложения находится в зависимости от его позиции в тексте документа. Индикаторные методы основаны на функциональной идентификации фраз первичного документа с помощью индексации их специальными словами - маркерами, индикаторами и коннекторами, образующими лексический аппарат теории экстрагирования.

Для реализации метода генерирования рефератов требуются мощные вычислительные ресурсы, грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций, онтологические справочники, отражающие соображения здравого смысла, и понятия, ориентированные на предметную область.

На сегодняшний день разработаны системы автореферирования текста, такие как промышленная система Newsblaster (Колумбийский университет, США), система Prosura (British Telecommunication Laboratories), инструмент для автоматического аннотирования документов МЛ Аннотатор (МедиаЛингва), система «Аналитический курьер», модуль Extractor, выделяющий из представленного ему на вход текста наиболее информативные именные группы, система TextAnalyst (Микросистемы) и целый ряд других. Кроме того, разработаны такие инструменты, как функция AutoSummarize в Microsoft Office, Inxight Summarizer (компонент поискового механизма AltaVista), системы IBM Intelligent Text Miner, Oracle Context. Большинство разработанных систем автоматического реферирования используют метод составления выдержек, т.е. выделяют и выбирают оригинальные фрагменты из исходного документа и соединяют их в корот-

кий текст.

Самым распространенным подходом в существующих системах является комбинированный, использующий «усиленные» статистические алгоритмы, которые предполагают нахождение различных частот слов и словосочетаний, таких как частота встречаемости в главе, начале или конце текста. Не многие существующие системы поддерживают русский язык, генерируют сглаженные рефераты и предполагают опору на знания. Сервисы реферирования ориентированы либо на узкую предметную область, либо требуют участия человека.

Результаты проведенного обзора показывают, что в большинстве методологий и готовых программных продуктов автореферирования текста проводится поверхностный семантический анализ. На выходе реферат представляется в виде несвязанных предложений, т.е. в виде выдержек или тезисов текста.

В связи с этим необходимо разработать семантический анализ, который позволит более глубоко понимать смысл текста. На наш взгляд, это возможно только при применении онтологического подхода к семантическому анализу, и в работе поставлена следующая задача.

Пусть заданы исходный научный текст Т = </,, >, состоящий из последо-

вательности предложений; — размер текста Т в символах, включая пробелы и другие специальные знаки; О - онтологический тезаурус по предметной области текста Т, Г - лингвистическое обеспечение, р - требуемое процентное сжатие текста, £ - погрешность размера полученного текста.

Требуется построить производный текст (реферат повествовательного типа) Л = <ги гг,...,гк>, состоящий из последовательности предложений, адекватно передающий смысл текста Т без потерь основных информационных единиц и удовлетворяющий заданным значениям р и е, при следующих ограничениях:

1) ре [5,30]; 2) УК е[р(}-е)Ут, р(1 + е)Ут]; 3)е<5%.

Во втором разделе рассматриваются широко известные методы лингвистического анализа текста, применяемые в работе, приведена обобщенная схема решения задачи автоматического реферирования.

Для выполнения автоматического реферирования научного текста будем считать, что выполнена его предварительная обработка и известны исходные данные в виде лексем с морфологической информацией и графов зависимостей предложений текста.

С целью повышения статистических характеристик терминов выполняется анализ словосочетаний исходного текста с применением онтологии предметной области. Для выделения словосочетаний построен конечный автомат, который осуществляет поиск и формирование набора словосочетаний в разрезе различных моделей. Конечный автомат включает следующие основные групповые состояния: определение и исключение абстрактных прилагательных из словосочетаний; разделение композиционных словосочетаний на простые; определение синонимов термов; замена термов с низкой частотой встречаемости на термы-синонимы с максимальной частотой встречаемости; перерасчет частот встречаемости термов. После этого строится семантическая сеть текста в виде взвешенного графа:

5 = (1)

где V - множество вершин, каждой из которых соответствует граф С' семантической окрестности некоторого термина;

IV - множество весов дуг ц е ¡7, отражающих семантическую близость вершин. Построение графов семантической окрестности. Пусть имеем сформированное множество именных словосочетаний (термов) Е= {е/, е?,.., е„,). Граф С1^ семантической окрестности термина является древовидным представлением класса эквивалентности К1' по отношению Я общности терминов множества Е относительно термина ('е£, который назовем несущим словом, т.е.

А'я={х| (г'д)еЛ,ле£}. (2)

Несущее слово будет располагаться в корневой вершине графа С'7. Таким образом, граф О1' семантической окрестности имеет вид:

С =(Уг,и'',1¥'7), (3)

где К'7-множество вершин, каждой из которых приписаны термины (лексемы или словосочетания) из одного класса эквивалентности;

11г - множество дуг графа;

IV17- множество весов вершин графа. Вес графа определяется по формуле:

где м(х) - вес каждого терма, входящего в класс эквивалентности:

1/М

IV

(х) =

- +

тах

{/И !/(«)■

(5)

В формуле (5)Дх)~ частота встречаемости термах в рассматриваемом тексте. На рисунке 1 представлен граф семантической окрестности термина «система». Между смежными вершинами графа установлены родовидовые отношения. В корневой вершине располагается несущее слово «система». В смежных с корнем вершинах располагаются словосочетания, зависимые от несущего слова.

Рисунок 1 - Граф семантической окрестности термина «система»

Таким образом, значимые графы семантической окрестности, обладающие наибольшими весовыми коэффициентами, почти всегда определяют термины, речь о которых идет в анализируемом тексте. Кроме того, достоинство графа семантической окрестности в том. что при его построении определяются родовидовые отношения между терминами. Это важно для определения семантики текста.

Построение модифицированного графа зависимостей. Модифицированный граф О'*'зависимостей является ориентированным графом, построенным на основе термов (и описывающих их векторов), лексем (и векторов их морфологической информации) одного предложения. Граф имеет вид:

в" =[ум,им), (6)

где Vм - множество вершин, выраженных термами и лексемами предложения соответственно;

Vм - множество дуг, определяющих семантическое отношение между термами, находящимися в вершинах графа.

На рисунке 2 приведен пример модифицированного графа Сг^? зависимостей предложения А = «Данные в процессах компьютерной обработки проходят преобразование от исходной формы данных до базы данных на машинных носителях информации через представления данных на машинных языках».

Термины, выраженные отглагольными существительными, в графе заменены соответствующими глаголами. В вершинах графа зависимостей располагаются термы-словосочетания или термы-лексемы. Из примера видно, что между вершинами, содержащими термины «данные» и «процессы компьютерной обработки» имеется вершина, содержащая глагол «проходить», между вершинами с терминами «исходная форма данных» и «базы данных» - вершина с глаголом «преобразовать» и т.д.

Рисунок 2 - Пример модифицированного графа зависимостей предложения Таким образом, можно сделать вывод, что в модифицированном графе зависимостей СЛ' каждая пара термов, представляющих собой устойчивые именные словосочетания, определяется семантическим отношением, выраженным глаголом или глагольной группой.

Соединение графов семантической окрестности. Связи между графами семантической окрестности устанавливаются на основе анализа модифицированных графов зависимостей и определения семантических отношений между наиболее значимыми тер-

минами графов.

Опишем алгоритм построения семантической сети 5 научного текста на основе соединения графов семантической окрестности. Из множества графов семантической окрестности выделим подмножество графов {Gf}, веса которых больше среднего веса всех построенных графов семантической окрестности.

В двух различных графах семантической окрестности Gf .Gf е {G^j, s*t,

j,/ej|G''}j рассмотрим последовательно все пары (vf .vf) е К/- , исключая слу-

/.- } - [ р /г \

чай. когдаv, = v, . Если среди них встречается пара (v, ,v, j, такая что

( Г F\ I Л/ И \ ( F /•' \ ( М М \ ММ , ,М

lVj ' ' /V' ,V'+Í] 11ЛИ lVj ,v< ) = \v-+2'v/ ), где v; ,v"2eV - вершины некоторого модифицированного граф)а GM, то соединим вершины vf И v,F дугой с пометой, имеющей значение вершины v^' . Вершины vf и v'/j содержат термины, между которыми имеется семантическое отношение, определенное термином вершины v(il.

Практика показала, что между вершинами семантической сети S могут быть кратные дуги, которым приписаны различные семантические отношения. При слиянии кратных дуг вес результирующей дуги будет равен количеству кратных дуг. Помета такой дуги будет содержать множество семантических отношений. В качестве основной

связи между этими графами выберем связь с наибольшим весом, т.е. wa = тах^рс j.

В том случае, если остались изолированные графы семантической окрестности, то для установления связей используется онтология. В ней производится поиск фреймов, содержащих термины, идентифицирующие вершины vf hv' графов Gf,G/' ejc^. В

семантической сети знаков-фреймов онтологии осуществляется поиск пути между этими фреймами. Как правило, связь представляет собой цепочку фреймов. Вес этой связи будет зависеть от длины цепочки.

Таким образом, будет построена взвешенная семантическая сеть текста, в узлах которой располагаются графы семантической окрестности терминов. Дуги сети, помеченные глаголами, отражают отношения между терминами. Фрагмент семантической сети текста приведен на рисунке 3. Такая семантическая сеть отражает основной смысл научного текста.

Третий раздел посвящен формированию контента реферата. Для этого вначале осуществляется выбор предложений-кандидатов из исходного текста в производный, а затем выстраивается их логическая последовательность. Рассмотрим первый ачгоритм.

Первый алгорипиi выбора предложений. Идея данного алгоритма заключается в том, что граф являющийся вершиной семантической сети S и имеющий наибольший вес, описывает семантическую окрестность термина, о котором идет речь в научном тексте. С этой точки зрения мы предположили, что так как в научном тексте, как правило, идет речь не об одном термине, а о нескольких, то, произведя поиск и анализ большевесных графов CF, можно найти предложения, которые отражают смысл первичного текста.

Зкак-фреЙм «Система» ; [ Система j

' Интеллектуальная система | У' { Экспертная система j *

Знак-фрейм «Логический вывод»

Выйол \

{реализуется ]> (применяет}! ^ {использует}

I

Логический вывод

Прямой вывод

yR.

Обратный вывод

¡описывает

Знания

1 ''

Знак-фрейм «Знания»

[ является частью} .,.

База знаний

Представление знаний

Языки представления знаний Модель щэедставле-ния знаний Форма представления знаний

Рисунок 3 - Фрагмент семантической сети текста

Алгоритм начинается с выбора в семантической сети S графа Gpс наибольшим весом, в котором отмечается вершина vmc максимальным весом max iff. Среди всех дуг.

' <eiг';

инцидентных вершине vm, выберем дугу ик, обладающую максимальным весом: wt = max w* . Если таких дуг несколько, необходимо анализировать вес второй концевой вершины v,. Дугу (v„,v,) помечаем для ее исключения из дальнейшего анализа. Процесс повторяется для вершины v, и т.д. В случае, если в процессе анализа текущая вершина не будет иметь исходящих дуг в вершины других графов GF, анализ продолжается с вершины, обладающей наибольшим весом среди нерассмотренных ранее вершин.

Таким образом, семантическая сеть реферата строится как проекция семантической сети текста, которая однозначно определяет выбор предложений в реферат.

К примеру, пусть в семантической сети выбран граф «Знания» с наибольшим весом, в котором вершина «База знаний» имеет наибольший вес. Среди дуг, инцидентных данной вершине, выбрана дуга с наибольшим весом. Данная дуга связывает вершину «База знаний» с вершиной «Интеллектуальная система». Предложения, соответствующие данной связи, включаем в реферат. Далее рассматриваем дуги, связывающие вершину «Интеллектуальная система» с другими вершинами сети, и повторяем описанные выше действия.

Достоинство приведенного алгоритма заключается в том, что совокупность выбранных предложений действительно передает смысл исходного текста. Однако вторичный текст, являющийся проекцией исходного текста, обладает низкой связностью предложений и больше похож на совокупность основных выдержек из текста. Это послужило основанием для разработки другого алгоритма.

Второй алгоритм выбора предложений. В данном алгоритме реализуется следующая идея. Необходимо найти термины, о которых идет речь в первичном тексте, и

построить пути для них в сети 5; затем после подсчета весов всех путей выбрать путь с наибольшим весом. Тогда полученный в результате этого процесса вторичный текст должен быть связным.

Отсортируем по убыванию веса И"" графов ви. Найдем А, = Щ и среди

полученных Д( их среднее значение Аа1у = avg Ду; / _ индекс веса в отсортированном

списке. Для анализа выберем графы (/' , для которых выполняется условие Д( < Дп|1г. В

каждом выбранном графе для вершины е V'', обладающей максимальным весом, найдем путь Н наибольшей длины по сети Для каждого такого пути Н вычислим ее вес Р по формуле:

/>=!>,''+IX, а)

/=| 1-1

где и'" = - нормированные веса вершин, входящих в путь Н;

/=1

м>" - и1," - нормированные веса дуг, входящих в путь Н.

Из множества найденных путей выберем путь с наибольшим весом Р. Предложения, соответствующие выбранному пути, включим в реферат.

Совокупность предложений, полученная по второму алгоритму, отличается от первой. В данной совокупности наблюдается тема-рематическая цепочка предложений, отражающая тематические отношения в тексте. Но полученный реферат содержит избыточные предложения и по наполнению далек от реферата, составленного экспертом, вот почему был предложен третий алгоритм.

Третий алгоритм выбора предложений. Для устранения недостатков предыдущего алгоритма было решено ввести коэффициент значимости предложений, который позволит удалить избыточные предложения. Данный алгоритм почти полностью совпадает с предыдущим алгоритмом, отличие заключается только в процедуре выбора предложений во вторичный текст. Будем считать, что найден путь Н. Отрезок, представленный двумя вершинами и дугой, однозначно определяет предложение исходного текста. Поэтому введем критерий значимости к-го предложения, который может быть вычислен по формуле:

кг-< = +—(8)

2>" К

7=1 /=1

Определим среднее значение вычисленных критериев предложений, соответствующих пути Н:

2>*

{IV г

т

Тогда в реферат включим предложения, коэффициент значимости которых /сг, > кг . Этот алгоритм позволяет удалить избыточные предложения. Кроме того, изменяя кг,п.ё, можно уменьшать или увеличивать объем вторичного текста. Для этого

нужно вычислить процент сжатия первичного текста р 1 как отношение количества предложений вторичного текста, полученного при использовании кгагг, к количеству предложений первичного текста.

Коэффициенты уменьшения кг^ и увеличения кг' объема вторичного текста

можно найти по следующим формулам:

кг— ' А . кгт'Р

кг«,=-

кг

(9, 10)

Р Р1

где р - заданный процент сжатия текста.

Полученный реферат обладает смысловой цельностью и отличается по составу от текстов, составленных с применением предыдущих алгоритмов. Реферат включает предложения, описывающие основные темы, затронутые в исходном тексте. Достоинством данного алгоритма является то, что его объем может быть легко изменен подбором значения коэффициента р\.

Однако полученный реферат все еще далек от реферата, полученного экспертом в данной предметной области. В связи с этим предложен четвертый алгоритм выбора предложений в реферат.

Четвертый алгоритм выбора предложений. Алгоритм основан на использовании онтологии предметной области, представленной в виде семантической сети знаков-фреймов. В знаке-фрейме сконцентрированы знания о некотором термине. Сопоставляя значения слотов знака-фрейма с содержимым вершин семантической сети анализируемого научного текста, можно выбрать предложения из первичного текста, содержащие знания о текущем термине.

В семантической сети 5 выбираем граф й1" с наибольшим весом. В онтологии О найдем знак-фрейм Ф, в котором описан термин !, расположенный в корне графа О1'. Последовательно просматриваются значения слотов знака-фрейма. Если в семантической сети 5 найдено значение слота (термин {), то. предложение, содержащее этот термин, включается в реферат.

Так, в построенной сети 5 выбран граф О1" с вершиной в корне «Знания», имеющей наибольший вес. Затем в онтологии найден соответствующий данному понятию знак-фрейм, представленный в таблицей

Таблица 1 - Упрощенное представление слотов знака-фрейма понятия «Знания»

название слота значение слота

имя термина знания

дефиниция совокупность сведений, образующих целостное описание, соответствующее некоторому уровню осведомленности он описываемом вопросе, предмете, проблеме и т.д.

синонимы мгглдлннык

род метазнания

вид

целое

часть

действия

декларативные знания процедурные знания

закономерности факты

база знании

данные

представление знании

Слот «Род» имеет значение «Метазнания», такой вершины в сети 5 не найдено, переходим к следующему слоту. Слот «Вид» имеет два значения: «Декларативные зна-

ния» и «Процедурные знания». В сети 5 найдены вершины, содержащие данные термины, и имеющие дуги, инцидентные вершине, которая содержит термин «Знание». Поэтому соответствующие предложения включаются в реферат. Далее последовательно друг за другом раскрываются термины, находящиеся в смежных вершинах: «Декларативные знания», «Процедурные знания», «База знаний» и другие. После этого рассматривается следующий граф G' с наибольшим весом среди оставшихся. Процесс повторяется.

При помещении предложений во вторичный текст постоянно идет проверка на достижимость заданного значения р. При его достижении процесс прекращается.

Построенные по предложенным алгоритмам рефераты сравнивались с рефератом, построенным экспертом. Реферат, построенный по четвертому алгоритму, наиболее близок к реферату эксперта и обладает лучшими характеристиками качества.

Алгоритм построения логической последовательности предложений. Данный алгоритм также базируется на использовании онтологии предметной области и применяется к выбранной совокупности предложений.

Знаки-фреймы, с помощью которых происходил процесс выбора предложений во вторичный текст, по определению представляют собой иерархическую сеть. Это свойство положено в основу данного алгоритма и означает, что сначала необходимо выстроить иерархию терминов, затем в соответствии с ней определить последовательность предложений в реферате. Так, например, в интеллектуальную систему входит база знаний, база знаний состоит из знаний, и т.д. База знаний является частью интеллектуальной системы, поэтому ссылка на знак-фрейм термина «База знаний» будет записана в соответствующем слоте знака-фрейма термина «Интеллектуальная система». Знания являются частью базы знаний, поэтому ссылка на знак-фрейм термина «Знания» будет записана в слоте знака-фрейма термина «База знаний» и т.д. Тогда в реферат сначала будут выбраны предложения, содержащие термин «Интеллектуальная система», за ними последуют предложения с термином «База знаний», затем - предложения с термином «Знания» и т.д.

Таким образом, все предложения во вторичном тексте будут выстроены в логической последовательности. На наш взгляд, реферат, построенный с помощью предложенного алгоритма, получается связным и осмысленным.

В четвертом разделе приведены описание программного обеспечения и результаты вычислительных экспериментов.

Разработанная система JASS (Java Automatic Summarize System) осуществляет морфологический, синтаксический и семантический анализ естественно-языковых текстов, строит семантическую сеть текста и формирует его реферат. Для разработки программного обеспечения использовались объектно-ориентированный язык программирования JAVA, среда разработки программного обеспечения Eclipse IDE, фреймворк для визуализации графов JUNG (Java Universal Network/Graph Framework).

Для апробирования предложенных в работе алгоритмов рассматривались разные по виду, объему, содержанию научные тексты: монографии, диссертации, отчеты о НИР, учебно-методические пособия, конспекты лекций, объемы которых составляют минимум 10 страниц и могут превысить 100 страниц. Подготовленные тексты принадлежат следующим предметным областям: «Искусственный интеллект», «Информатика» и «Экономика», так как для данных предметных областей имеются построенные онто-

логии. Объем онтологии по искусственному интеллекту составляег 550 терминов, по информатике - 2500, по экономике - 1200 терминов.

В работе для оценки качественных показателей рефератов использован метод экспертной оценки. В качестве оцениваемых альтернатив экспертам было предложено множество рефератов текста, полученных с применением четырех алгоритмов. При этом в качестве критериев оценки альтернатив предлагались: связность - правильность следования предложений в тексте; осмысленность - выбор предложений, несущих основную смысловую нагрузку; полнота - полнота охвата всех разделов текста. Для оценки альтернатив экспертам была предложена лингвистическая шкала измерений.

Оценка ¿-й альтернативы]-м экспертом производилась по формуле:

к ■

где / -индекс значения лингвистической шкалы;

к - количество значений этой шкалы. Для оценки г-й альтернативы всеми п экспертами используется формула:

(П)

(12) 7=1

Результаты экспертной оценки характеристик полученных рефератов, вычисленные по этим формулам, приведены в таблице 2.

Таблица 2 - Экспертная оценка характеристик качества рефератов_

Характеристики качества Алгоритмы

Первый Второй Третий Четвертый

Связность текста 0,00 0,27 0,45 0,82

Осмысленность текста 0,18 0,18 0.82 1,00

Полнота текста 0,18 0,36 0.91 1,00

Среднее значение оценок 0,12 0,27 0,73 0.94

Как видно из таблицы, третий и четвертый алгоритмы показали лучшие характеристики. Эти алгоритмы подверглись вычислительным экспериментам, в которых задавались различные коэффициенты сжатия р исходного текста. Например, для />=11% реферат, полученный с использованием критерия значимости (третий алгоритм), дает 46% совпадения с рефератом, построенным экспертом, а реферат, полученный с использованием онтологии предметной области (четвертый алгоритм), - 85%. Это говорит о том, что четвертый алгоритм обладает лучшими характеристиками.

Таким образом, результаты описанных вычислительных экспериментов позволяют сделать вывод о корректности предложенных в работе алгоритмов формирования контента реферата, об адекватности смысла построенных рефератов; и можно сделать вывод, что для улучшения логической связности и информативности автореферата необходимо использовать онтологию анализируемой предметной области.

В приложениях приведены фрагмент исходного текста; рефераты, полученные с использованием предложенных алгоритмов с различным процентом сжатия; описание программного обеспечения; результаты вычислительных экспериментов.

ЗАКЛЮЧЕНИЕ

Основным результатом проведенных исследований является совершенствование методов автоматического формирования контента реферата научного текста, которое помогло улучшить смысловое качество реферата, что, в свою очередь, позволит повы-

сить эффективность процессов обработки данных и знаний в компьютерных системах и сетях.

Научные и практические результаты работы состоят в следующем.

1. Усовершенствован способ построения семантической сети текста путем соединения графов семантической окрестности посредством анализа модифицированных графов зависимостей и онтологии предметной области.

2. Разработана автоматная модель поиска словосочетаний различных моделей.

3. Разработаны и исследованы алгоритмы выбора предложений из анализируемого текста в реферат на основе семантического анализа.

4. Разработан алгоритм формирования логической последовательности предложений в реферате с использованием онтологии и графов семантической окрестности понятий.

5. Разработано программное обеспечение для апробации предложенных алгоритмов.

Результаты работы отражены в следующих публикациях.

Публикации в изданиях по перечню ВАК:

]. Машанова C.B. (Панковская C.B.) Построение семантической сети текста в задаче автоматического реферирования / C.B. Машанова (C.B. Пачковская), С.Д. Данилова // Системы управления и информационные технологии: науч.-техн. журн. -М.; Воронеж: Научная книга, 2009 —№1.3(35). - С. 383386.

Основные публикации:

2. Машанова C.B. (Пачковская C.B.) Технология автоматического реферирования текста / Л.В. Найханова, C.B. Машанова (C.B. Пачковская) // Информационные системы и модели в научных исследованиях, промышленности и экологии: мат-лы всерос. науч-техн. конф. - М.; Тула: Изд-во ТулГУ, 2007. - С.69-70.

3. Машанова C.B. (Пачковская C.B.) Автоматическое реферирование научного текста на основе использования онтологического тезауруса / Л.В. Найханова, C.B. Машанова (C.B. Пачковская) //Теоретические и прикладные вопросы современных информационных технологий: мат-лы всерос. науч.-техн. конф.,-Улан-Удэ: Изд-во ВСГТУ, 2008.-С. 130-134.

4. Машанова C.B. (Пачковская C.B.) Соединение графов семантической окрестности / C.B. Машанова (C.B. Пачковская) // Искусственный интеллект. Интеллектуальные системы: мат-лы X между-нар. науч.-техн. конф. - Таганрог: Изд-во ТТИ ЮФУ, 2009. - С. 282-285.

5. Машанова C.B. (Пачковская C.B.) Повышение коэффициентов значимости словосочетаний / C.B. Машанова (C.B. Пачковская) // Информационные системы и модели в научных исследованиях, промышленности и экологии: мат-лы V всерос. науч-техн. конф. - М.; Тула: Инновационные технологии, 2009. - С.11-14.

6. Машанова C.B. (Пачковская C.B.) Автоматная модель поиска словосочетаний в научном тексте ./ C.B. Машанова (C.B. Пачковская), О.Г. Шарагина, Л.К. Мадаева // Теоретические и прикладные вопросы современных информационных технологий: мат-лы всерос, науч.-техн. конф.: в 2 ч. — Улан-Удэ: Иза-во ВСГТУ, 2009. - Ч.И. - С. 343-348.

7. Машанова C.B. (Пачковская C.B.) Диагностирующие выражения для выявления в тексте маркеров, индикаторов и коннекторов / C.B. Машанова (C.B. Пачковская) /' Системы автоматизации в образовании, науке и производстве: тр. VII всероссийской науч.-практ. конф. - Новокузнецк: Изд-go Сиб-ГИУ, 2009. - С. 429-433.

8. Машанова C.B. (Пачковская C.B.) Свидетельство о государственной регистрации программы для ЭВМ №2009615123. «Программа построения семантической сети текста для задачи автоматического реферирования» / C.B. Машанова (C.B. Пачковская), А.И. Ильинчик. - M : Федеральная служба по интеллектуальной собственности, патентам и товарным знакам, 2009

Панковская Светлана Валерьевна Формирование контента реферата при автоматическом реферировании научного текста Автореф. дис. на соискание учёной степени кандидата технических наук. Подписано в печать 8.02.2010г. Формат 60x84 1/16. Усл.печ. л. 1,27. Тираж 100 экз. Заказ №23.

Издательство ВСГТУ 670013 г.Улан-Удэ, ул. Ключевская 40в.

Оглавление автор диссертации — кандидата технических наук Пачковская, Светлана Валерьевна

Введение.

1 Обзор существующих решений автоматического реферирования.

1.1 Обзор методологий решения задачи автоматического реферирования текста.

1.1.1 Классификация методологий по структурированности реферата.

1.1.1.1 Методологии, направленные на получение конечного результата с четкой структурой.

1.1.1.2 Методологии, направленные на получение конечного результата в виде резюме.

1.1.2 Классификация методологий по методам составления резюме.

1.1.2.1 Метод составления выдержек.

1.1.2.2 Метод формирования краткого изложения.

1.1.3 Классификация методологий по наличию прототипного программного обеспечения.

1.1.4 Анализ методологий решения задачи автоматического реферирования текста.

1.2 Обзор коммерческих систем по автоматическому реферированию текста.

1.2.1 Системы обработки текста.

1.2.2 Системы автоматического реферирования.

1.2.3 Анализ существующих систем автоматического реферирования.

1.3 Классификация рефератов.

1.4 Описание проблемы и постановка задачи.

1.5 Выводы по разделу.

2 Методы лингвистического анализа научного текста.

2.1 Обобщенная схема решения задачи автоматического реферирования текста.

2.2 Морфологический и синтаксический анализы.

2.3 Выделение устойчивых словосочетаний.

2.3.1 Модели словосочетаний.

2.3.2 Способ выделения словосочетаний.

2.3.2.1 Основные аспекты поиска словосочетаний.

2.3.2.2 Автоматная модель поиска именных словосочетаний.

2.3.2.3 Разбиение множества словосочетаний на классы эквивалентностей.

2.3.2.4 Анализ выделенных словосочетаний.

2.4 Модифицированный граф зависимостей.

2.5 Семантический анализ.

2.5.1 Построение графов семантической окрестности.

2.5.2 Соединение графов семантической окрестности.

2.6 Выводы по разделу.

3 Формирование контента реферата научного текста.

3.1 Формирование контента резюме.

3.1.1 Выбор предложений-кандидатов в текст резюме.

3.1.2 Анализ выбранных предложений на предмет удаления лишних.

3.1.3 Построение логической последовательности предложений текста резюме.

3.2 Оценка реферата.

3.3 Выводы по разделу.

4 Программное обеспечение и вычислительные эксперименты.

4.1 Описание программного обеспечения.

4.1.1 Функциональность системы.

4.1.2 Основные классы и пакеты системы.

4.2 Вычислительные эксперименты.

4.3 Выводы по разделу.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Пачковская, Светлана Валерьевна

Актуальность исследования. Применение компьютеров в человеческой деятельности, в том числе и научной, не только ускоряет процессы создания и обработки документов, но и чрезвычайно увеличивает их количество и объем. Сегодня многие пользователи регулярно сталкиваются с необходимостью быстрого просмотра большого объема документов и выбора из них наиболее релевантных и действительно нужных документов. Такая проблема возникает при работе с текстовыми документами, базами данных, разборе электронной почты, а также при поиске информации в сети Интернет. Кроме того, очень часто в крупных организациях и компаниях правила делопроизводства предписывают необходимость сопровождать каждый документ кратким рефератом. Во всех указанных случаях выходом из ситуации является просмотр не всего документа, а его сжатого описания - аннотации или реферата. Это обусловило необходимость проведения исследований в решении проблемы автоматического реферирования полнотекстовых документов.

Исследованиями по автоматическому реферированию начали заниматься более 50 лет назад. К настоящему времени разработано достаточно много методов автореферирования, которые можно разделить на методы квазиреферирования и методы генерирования рефератов. Первые основаны на экстрагировании, т.е. выделении из текста наиболее информативных фрагментов, передающих основной смысл текста, вторые -на выделении наиболее существенной информации из текстов документов.

Теория и методика реферирования-экстрагирования были разработаны в конце 70-80гг. группой исследователей Ленинградского института культуры: Д.И. Блюменау, Н.И. Гендиной, И.С. Добронравовым, В.В. Леоновым, Д.Г. Лахути, Н.Э. Сергеевой и др. [23-24, 35, 56]. В рамках этой методики разработаны три вида методов: статистические, позиционные и индикаторные.

Статистические методы основаны на использовании статистических параметров для оценки информативности различных элементов текста (слов, предложений), прежде всего, по частоте встречаемости слов в тексте. Вес предложения определяется как сумма частот, входящих в него значимых слов. Существуют методы, в которых в качестве значимых элементов выбираются не слова, а словосочетания. Например, в методе симметричного реферирования вес предложения определяется количеством связей между данным предложением и предложениями, находящимися слева и справа от него.

Позиционные методы опираются на предположение о том, что информативность предложения находится в зависимости от его позиции в тексте документа.

Индикаторные методы основаны на функциональной идентификации фраз первичного документа с помощью индексации их специальными словами - маркерами, индикаторами и коннекторами, образующими лексический аппарат теории экстрагирования.

Для реализации метода генерирования рефератов требуются мощные вычислительные ресурсы, грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций, онтологические справочники, отражающие соображения здравого смысла, и понятия, ориентированные на предметную область.

Современные работы основываются на результатах, полученных на этапе становления автоматической обработки текстов, как особого направления компьютерной лингвистики, что отражено в работах Р.Г. Пиотровского, И.И. Севбо, А.А. Поликарпова, Ю.А. Шрейдера, М.В. Арапова, Б.В. Сухотина и других [89].

На сегодняшний день разработаны системы автореферирования текста, такие как промышленная система Newsblaster (Колумбийский Университет, США), система Prosum (British Telecommunication Laboratories), инструмент для автоматического аннотирования документов MJI Аннотатор

МедиаЛингва), система «Аналитический курьер», модуль Extractor, выделяющий из представленного ему на вход текста наиболее информативные именные группы, система TextAnalyst (Микросистемы) и целый ряд других. Кроме того, разработаны такие инструменты, как функция AutoSummarize в Microsoft Office, Inxight Summarizer (компонент поискового механизма AltaVista), системы IBM Intelligent Text Miner, Oracle Context. Большинство разработанных систем автоматического реферирования используют метод составления выдержек, т.е. выделяют и выбирают оригинальные фрагменты из исходного документа и соединяют их в короткий текст.

В основе многих систем автореферирования текста лежит статистический анализ текста, а для выявления смысла текста используется построение семантической сети исходного текста. Однако большинство разработок носят экспериментальный характер, не многие существующие системы поддерживают русский язык, генерируют сглаженные рефераты и предполагают опору на знания. Сервисы реферирования ориентированы либо на узкую предметную область, либо требуют участия человека, хотя можно выделить системы, в которых сделана попытка использования знаний на основе онтологического подхода, например, для разрешения проблем омонимии.

Таким образом, необходимо отметить, что в настоящее время переход от экспериментальных лабораторных исследований по созданию качественных рефератов к их использованию в решении прикладных задач реального мира до сих пор не произошел. Поэтому существует техническая проблема, заключающаяся в разработке интеллектуальной системы, позволяющей в автоматическом режиме строить качественные рефераты научного текста. Как правило, в автореферировании выделяются задачи формирования контента реферата и построения дискурса текста реферата. Для решения технической проблемы необходимо в первую очередь решить научную проблему, связанную с разработкой метода формирования контента реферата, адекватно отражающего смысл текста.

Объект исследований — научный текст и соответствующий ему реферат.

Предмет исследований - методы формирования контента реферата.

Целью работы является разработка и исследование алгоритмов автоматического формирования контента реферата научного текста, позволяющих улучшить смысловое качество реферата и повысить эффективность процессов обработки данных и знаний в компьютерных системах и сетях.

Для достижения поставленной цели в работе решаются следующие задачи:

1. Обзор и анализ существующих решений в области автоматического реферирования текста.

2. Выбор и усовершенствование методов лингвистического анализа научного текста.

3. Разработка алгоритмов выбора предложений в реферат и алгоритма составления логической последовательности предложений в реферате.

4. Апробация разработанных моделей и алгоритмов.

Основная идея диссертации. В основе автоматического формирования контента реферата лежит лингвистический анализатор научного текста, осуществляющий морфологический, синтаксический, статистический и семантический анализы текста, выделение устойчивых словосочетаний согласно диагностирующим конструкциям. Однако многие методы невозможно построить без использования онтологий. С помощью онтологий можно построить семантическую сеть исследуемого текста, на основе которой предлагается осуществлять выбор предложений в реферат. Такой подход позволяет сформировать совокупность предложений в реферате, отражающих семантический аспект содержания текста. Как правило, сформированная совокупность предложений реферата не отличается логической последовательностью, поэтому необходимо решить задачу адекватного расположения предложений в реферате на основе анализа семантики исследуемого текста.

Методы исследований. Методологической и теоретической основой выполненного исследования послужили положения теории искусственного интеллекта, логики предикатов первого порядка, нечеткой логики, ситуационного моделирования, теории автоматов и математической лингвистики.

Научная новизна. Научная новизна работы заключается в развитии методов автоматического построения реферата и состоит из следующих элементов.

1. Новизна разработанного алгоритма выбора предложений из анализируемого текста в реферат заключается в применении онтологической базы знаний, позволяющей сформировать совокупность предложений реферата, отражающих смысловой аспект анализируемого текста.

2. Новизна алгоритма формирования логической последовательности предложений в реферате заключается в том, что сформированный контент реферата является информативным и обладает достаточно точным изложением содержания документа.

Практическая ценность исследования состоит в том, что применение алгоритмов формирования контента реферата обеспечит повышение качества реферата в системе автоматического реферирования, применение которой в глобальной сети Интернет, библиотечных системах позволит усовершенствовать процессы обработки данных и знаний в компьютерных системах и сетях.

Достоверность полученных результатов. Достоверность выводов работы определяется сравнительным анализом теоретических положений работы и экспериментальных данных. Сравнение показало корректность разработанных методов и алгоритмов.

Личный вклад автора. Все основные результаты диссертации получены лично автором.

Рекомендации по использованию результатов диссертации.

Результаты работы могут быть использованы при разработке программных средств автоматического построения реферата.

Апробация результатов диссертации. Основные положения и результаты диссертационной работы докладывались и обсуждались на Всероссийской научно-технической конференции «Информационные системы и модели в научных исследованиях, промышленности и экологии» (г.Тула, 2007 г., 2009 г.); Международной научно-технической мультиконференции «Актуальные проблемы информационно-компьютерных технологий, мехатроники и робототехники» (г. Таганрог, 2009 г.); Всероссийской научно-практической конференции «Системы автоматизации в образовании, науке и производстве - AS'2009» (г. Новокузнецк, 2009); Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (г.Улан-Удэ, 2008-2009 гг.) и на ежегодных конференциях преподавателей, сотрудников и аспирантов ВСГТУ. Материалы диссертационных исследований используются в научных исследованиях Центра дистанционного образования Воронежского государственного технического университета при разработке интеллектуальных систем поддержки принятия решений в части построения семантической сети предметной области решаемой задачи; в учебной деятельности Восточно-Сибирского государственного технологического университета при разработке учебного курса «Естественно-языковые системы» по специальности 230105 «Программное обеспечение вычислительной техники и автоматизированных систем» в виде курса лекций и методических указаний к лабораторным работам.

Публикации. Основные результаты диссертационной работы опубликованы в 8 печатных работах, из которых 7 статей и одно свидетельство об официальной регистрации программы для ЭВМ.

Общая характеристика диссертации. Диссертация состоит из введения, 4 разделов, заключения, списка использованных источников, содержащего 131 наименование, 6 приложений. Основная часть работы содержит 125 страниц, включая 24 рисунка и 24 таблицы.

Заключение диссертация на тему "Формирование контента реферата при автоматическом реформировании научного текста"

4.3 Выводы по разделу

В данном разделе описано программное обеспечение, необходимое для апробации разработанных методов, имеющее модульную структуру, что позволяет модифицировать некоторые классы проекта и использовать их для решения разных задач. Классы разработаны таким образом, чтобы можно легко менять логику работы системы. К примеру, можно изменить формулы взвешивания сети, менять шаблоны выделения словосочетаний, изменять визуальное представление сети, алгоритм расположения узлов сети, изменять алгоритм выбора предложений в реферат на основе семантической сети, расширять словарь абстрактных прилагательных, добавлять файлы онтологий и т.д. Данное программное обеспечение можно позиционировать не только как систему, формирующую реферат текста, но и как набор пакетов и классов для разработки ЕЯ-систем.

Результаты экспериментальной проверки работы системы показали, что построенные рефераты адекватно отражают смысл текста.

На основе проведенных вычислительных экспериментов можно сделать вывод, что для улучшения логической связности и информативности автореферата необходимо использовать онтологию анализируемой предметной области. Онтология влияет на качество реферата, но в тоже время увеличивает время анализа.

Заключение

Основным результатом проведенных исследований является совершенствование методов автоматического формирования контента реферата научного текста, которое позволило улучшить смысловое качество реферата, что, в свою очередь, позволит повысить эффективность процессов обработки данных и знаний в компьютерных системах и сетях.

Научные и практические результаты работы состоят в следующем:

1. Усовершенствован способ построения семантической сети текста путем соединения графов семантической окрестности посредством анализа модифицированных графов зависимостей и онтологии предметной области.

2. Разработана автоматная модель поиска словосочетаний различных моделей.

3. Разработаны и исследованы алгоритмы выбора предложений из анализируемого текста в реферат на основе семантического анализа.

4. Разработан алгоритм формирования логической последовательности предложений в реферате с использованием онтологии и графов семантической окрестности понятий.

5. Разработано программное обеспечение для апробации предложенных алгоритмов.

Библиография Пачковская, Светлана Валерьевна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Автоматизированная система поиска и обработки информации Galaktika-Zoom Электронный ресурс. Режим доступа: http://www.galaktika-zoom.ru. Акулов, О.А. Информатика: базовый курс [Текст] / О.А. Акулов, Н.В. Медведев. - Москва: Омега-Л, 2007. - 560 с.

2. Алыгулиев, P.M. Автоматическое реферирование документов с извлечением информативных предложений Текст. / P.M. Алыгулиев // Вычислительные технологии. 2007. Т. 12, №5. С.5-15.

3. Ахманова, О.С. Словарь лингвистических терминов Текст. / О.С. Ахманова. -М.: Советская энциклопедия, 1969. 490 с.

4. Ахутина, Т.В. Порождение речи. Нейро-лингвистический анализ синтаксиса Текст. / Т.В. Ахутина. -М.: МГУ, 1989. 41с.

5. Аюшеева, Н.Н. Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Текст.: автореф. дис. . канд. техн. наук: защищена 21.01.2005: утв. 10.06.2005 / Н.Н. Аюшеева. Улан-Удэ, 2005. - 16 с.

6. Башмаков, А.И. Интеллектуальные информационные технологии: учеб. пособие Текст. / А.И. Башмаков, И.А. Башмаков. М.: Изд-во МГТУ им. Н.Э.Баумана, 2005. - 304 с.

7. Беловольская, JI.A. Синтаксис словосочетания и простого предложения Электронный ресурс. / JI.A. Беловольская. Электрон, текстовые дан. -Режим доступа: http://wvvw.philology.ru/ linguistics2/belovolskaya-01 .htm.

8. Белоногов, Г.Г. Языковые средства автоматизированных информационных систем Текст. / Г.Г. Белоногов, Б.А. Кузнецов М.: Наука, 1953. - 288 с.

9. Белоногов, Г. Г. Автоматизированная обработка научно-технической информации. Лингвистические аспекты Текст. / Г.Г. Белоногов, Б. А. Кузнецов, А. П. Новоселов // Итоги науки и техники. ВИНИТИ. Сер. Информатика. 1984. - Т.8. - 316 с.

10. Белоногов, Г.Г. Компьютерная лингвистика и перспективные информационные технологии Текст. / Г.Г. Белоногов, Ю.П. Калинин, А.А. Хорошилов М.: Русский мир, 2004. - 246с.

11. Беляева, Л.Н. Автоматизация в лексикографии / Л.Н. Беляева, А.Л. Герд, И.И. Убин // Прикладное языкознание: учебник / С.-Петерб. гос. ун-т; отв. ред. А.С. Герд, СПб.: Изд-во С.-Петерб. Ун-та, 1996. - с.318-333.

12. Беляева, Л.Н. Лингвистические автоматы в современных информационных технологиях / Л.Н. Беляева. СПб.: Изд-во Рос. Гос. Пед. ун-та им. А.И. Герцена, 2001.-130 с.

13. Бледнов, A.M. Разработка и исследование моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста: дис.канд. тех. наук: 05.13.18, 05.13.01 / A.M. Бледнов Ижевск, 2007.- 120 с. РГБ ОД, 61 07-5/3291

14. Блюменау, Д.И. Формализованное реферирование с использованием словесных клеше Текст. / Д.И. Блюменау, Н.И. Гендина, И.С. Добронравов и др. //Научно-техническая информация. Сер.2. №2. Москва, 1981. - С. 16-20.

15. Блюменау, Д.И. Проблемы свертывания научной информации Текст. / Д.И. Блюменау Л.: Наука, 1982. - 166 с.

16. Богданов В.В. Классификация речевых актов Текст. / В.В. Богданов // Личностные аспекты языкового общения. Калинин: Калининский гос. ун-т, 1989. -С.25-37.

17. Бородина, О.А. Именные группы в заголовке и реферате как отражение концепта текста Текст.: дис. канд. филол. наук 10.02.21/ О.А. Бородина. -Санкт-Петербург, 2007.-236 с. РГБ ОД, 61:07-10/592.

18. ВААЛ: Экспертная компьютерная психолингвистическая программа Электронный ресурс. Режим доступа: http://www.vaal.ru/29. ван Дейк, Т.А. Стратегия понимания связного текста Текст. / Т.А. ван Дейк,

19. B. Кинч // Новое в зарубежной лингвистике. Вып. 23. М.: Прогресс, 1988.1. C.153-211.

20. Гарант-Парк-Интернет. Технологии анализа и поиска текстовой информации Электронный ресурс. Режим доступа: http://www.metric.ru.

21. Гарвин, П. Алгоритм синтаксического анализа «Фулькрум» (для русского языка) Текст. / П. Гарвин // Автоматический перевод. М.: Прогресс, 1971. -С.26-40.

22. Гладкий, А.В. Синтаксические структуры естественного языка в автоматизированных системах общения Текст. / А.В. Гладкий -Москва, 1985. -67 с.

23. Грязнухина, Т.А. Синтаксический анализ научного текста на ЭВМ Текст. / Т.А. Грязнухина, Н.П. Дарчук, В.И. Критская, Н.П. Маловица [и др.]. К.: Научная мысль, 1999. - 77 с.

24. Добров, Б.В. Построение структурной тематической аннотации текста Текст. / Б.В. Добров, Н.В. Лукашевич // Труды между народного семинара Диалог'98. Том 2 - Казань, 1998. - С.795-802.

25. Добронравов, И.С. Об эффективности рефератов-экстрактов как объектов информационного поиска Текст. / И.С. Добронравов, Д.Г. Лахути, В.П. Леонов // Научно-техническая информация. Сер.2. №11. Москва, 1988. -С.35-38.

26. Дорот, В.Л. Толковый словарь современной компьютерной лексики Текст. / В.Л. Дорот, Ф.А. Новиков. СПб.: БХВ-Петербург, 2004. - 608 с.

27. Евдокимова, И.С. Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы Текст.: автореф. дис. . канд. техн. наук: защищена 25.11.2004: утв. 21.01.2005 / И.С. Евдокимова. Улан-Удэ, 2004.-20 с.

28. Ермаков, А.Е. Тематический анализ текста с выявлением сверхфразовой структуры Электронный ресурс. / А.Е. Ермаков // Информационные технологии. 2000. - №11. - Режим доступа: http://www.i-co.ru/article.asp?obno=33.

29. Ершов, А.П. Терминологический словарь по основам информатики и вычислительной технике Текст. / А.П. Ершов [и др.]. М.: Просвещение, 1991.- 159 с.

30. Зализняк, А.А. Грамматический словарь русского языка: словоизменение Текст. / А.А. Зализняк. 3-е изд. Москва: Рус.яз., 1987.

31. Зеленков, Ю.Г. Теоретические и прикладные аспекты применения методааналогии в системах автоматической обработки текстовой информации Текст.: дис. докт. техн. наук: 05.13.17 / Ю.Г. Зеленков. Москва, 1999. -160. РГБ ОД 71:1-5/190.

32. Искусственный интеллект: справочник Текст. В 3 кн. Кн. 2. Модели и методы / под ред. Д.А. Поспелова. -М.: Радио и связь, 1990. 304 с.

33. Искусственный интеллект: В 3-х кн. Кн. 3. Программные и аппаратные средства: Справочник / Под ред. В.Н.Захарова, В.Ф.Хорошевского. М.: Радио и связь, 1990. - 363 с.

34. Карпова, Г.Д. Компьютерный синтаксический анализ: описание моделей и направлений разработок Текст. / Г.Д. Карпова, Ю.К. Пирогова [и др.] // Итоги науки и техники (серия «Вычислительные науки»). Т.6. М.: ВИНИТИ, 1991.

35. Каталог лингвистических программ и ресурсов в сети Электронный ресурс.- Режим доступа: http://davidsonyuliya.boom.ru/catalog.htm.

36. Кобрин, Р.Ю. О соотношении информационно-поискового тезауруса и классификатора технико-экономической информации Текст. / Р.Ю. Кобрин, Н.И. Пескова // Научно-техническая информация. Сер.2. №7. Москва, 1982.- С.1-5.

37. Козачук, М.В. Концептуальный анализ текстов в системах автоматической обработки научно-технической информации Текст.: дис. канд. тех. наук: 05.25.05/ М.В. Козачук Москва, 2002. - 199 с. РГБ ОД, 61 03-5/3627-3

38. Корхова, О.В. Метод математической формализации русского языка в задаче автоматического реферирования текстов Текст.: дис. канд. физ.-мат. наук: 01.01.09 / О.В. Корхова Санкт-Петербург, 2001. - 118 с. РГБ ОД, 61 021/510-5

39. Кудряшова, И.М. О семантическом словаре в системе ФРАП Текст. / И.М. Кудряшова // Сборник научных трудов. Вып. 271. М.: МГПИИЯ им. М. Тореза, 1986.

40. Кузнецов, И.П. Семантические представления Текст. / И.П. Кузнецов. М.: Наука, 1986.

41. Кузнецов, И.П. Система выявления из документов значимой информации на основе лингвистических знаний в форме семантической сети Текст. / И.П.

42. Кузнецов, В.П. Кузнецов, А.Г. Мацкевич // Диалог-2000 по компьютерной лингвистике и ее приложениям: труды межд. семинара. Том 2. Протвино, 2000, - С.232-234.

43. Кузнецов, И. П. Интеллектуальный редактор знаний на основе расширенных семантических сетей Текст. / И. П. Кузнецов, М. М. Шарнин // Системы и средства информатики, Вып. 5. -Москва: Наука, 1993. С. 14-21.

44. Левин, Д.Я. Экспериментальный минипроцессор: семантически-ориентированный анализ Текст. / Д.Я. Левин, А.С. Нариньяни // сб. «Взаимодействие с ЭВМ на естественном языке», ВЦ СО АН СССР. -Новосибирск, 1978. С.223-233.

45. Леонов, В.П. Реферирование и аннотирование научно-технической литературы Текст. / В.П. Леонов Новосибирск: Наука, 1986. - 175 с.

46. Литвинов, П.П. Классификация прилагательных Электронный ресурс. / П.П. Литвинов. Электрон. текстовые дан. - Режим доступа: http://ru.wiktionary.org/wiki/Пpилoжeниe:Kлaccификaцияпpилaгaтeльныx.

47. Ломакина, Л.С. Анализ некоторых моделей лингвистических явлений Текст. / Л.С. Ломакина, А.З. Панкратова // Математика. Компьютер. Образование. Вып.6. Часть I: сборник науч. трудов [под ред. Г.Ю. Руниченко]. М: Прогресс - Традиция, 1999. - С.102-105.

48. Лукашевич, Н.В. Автоматическое построение аннотаций на основе тематического представления текста Текст. / Н.В. Лукашевич, Б.В. Добров // Труды международного семинара Диалог'97. Москва, 1997. - С.188-191.

49. Лукашевич, Н.В. Представление знаний в системе автоматической обработки текстов Текст. / Н.В. Лукашевич, А.Д. Салий // Научно-техническая информация. Сер.2. №3. Москва, 1997. -С.27-33.

50. Лурия, А.Р. Язык и сознание Текст. / А.Р. Лурия М.: Изд-во Моск. ун-та, 1979.-320с.

51. Максименко, О.И. Формальные методы оценки эффективности системавтоматической обработки текста Текст.: дис. докт. тех. наук: 10.02.21 / О.И.

52. Максименко Москва, 2003. - 447с. РГБ ОД, 71:04-10/82

53. Машанова, С.В. Соединение графов семантической окрестности Текст. /

54. С.В. Машанова // Искусственный интеллект. Интеллектуальные системы:

55. Мат. X Междунар. науч-тех. конф. Таганрог: Изд-во ТТИ ЮФУ, 2009. - С.282.285.

56. Найханова, J1.B. Технология создания методов автоматического построения онтологий с применением генетического и автоматного программирования: монография Текст. / JI.B. Найханова. Улан-Удэ: Изд-во БНЦ СО РАН,2008.-244 с.

57. Нариньяни, А.С. Кентавр по имени ТЕОН: тезаурус+онтология Текст. / А.С. Нариньяни // Диалог'2001: Междунар. семинар по компьютерной лингвистике и ее приложениям. Аксаково, 2001. - Т. 1. - С. 184-188.

58. Нариньяни, А. С. ТЕОН-2: от тезауруса к онтологии и обратно Текст. / А.С. Нариньяни // Диалог'2002: Междунар. семинар по компьютерной лингвистике и интеллектуальным технологиям. -М.: Наука, 2002. Т. 1. - С. 307-313.

59. Нестеров, П.В. Интерактивная система автоматизированного реферирования документов на основе словаря стандартных фраз Текст. / П.В. Нестеров, Г.Г. Белоногов [и др.]. // Научно-техническая информация Сер.2. №7. Москва, 1991. - С.13-15.

60. Никитина, С.Е. Семантический анализ языка науки Текст. / С.Е. Никитина. М.: Наука, 1987. - 143 с.

61. Николаева, И.В. Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах Текст.: дис. филол. наук: 10.02.21 / И.В. Николаева Москва, 2008. - 253 с.

62. Новицкий, Д.В. Системы интерактивной работы с текстом с применением искусственного интеллекта (на семантическом уровне) Текст. / Д.В. Новицкий // История и компьютер. 1998. №23. - С.45-49.

63. Ножов, И.М. Морфологическая и синтаксическая обработка текста (модели и программы) Электронный ресурс. / И.М. Ножов. Электрон, текстовые дан. -Режим доступа: http://www.aot.ru/docs/Nozhov/chapter4.pdf.

64. Панкратова, А.З. Разработка модели и метода структурирования текста сцелью его идентификации Текст.: дис. канд. тех. наук / А.З. Панкратова -Нижний Новгород, 2002. 134 с.

65. Панкратова А.З. Сетевое моделирование как метод исследования некоторых лингвистических явлений Текст. / А.З. Панкратова // Исследования молодых ученых: сборник статей аспирантов. Часть III Мн.: Изд-во МГПУ, 1999. -с.59-61.

66. Петров, А.И. Компьютерный анализ текста. Историография метода Текст. / А.И. Петров // Круг идей: модели и технологии исторической информатики. -М., 1999. -С.255-277.

67. Пиотровский, Р.Г. Методы автоматического анализа и синтеза текста Текст. / Р.Г. Пиотровский, В.Н. Билан, М.Н. Боркун [и др.]. Минск: Вышейшая школа, 1985.

68. Попов, Э.В. Общение с ЭВМ на естественном языке Текст. / Э.В. Попов -М.: Наука, 1982,- С. 17.

69. Попов, Э.В. Естественно-языковые системы: прошлое, настоящее и будущее Текст. / Э.В. Попов // ИИ-2000: материалы VI нац. конф., Переславль-Залесский, 24-27 октября 2000. М.: ИФМЛ, 2000.- С. 17.

70. Сбойчаков, К.О. Автоматизированная система смысловой обработки текстов при создании электронных фондов библиотеки Текст.: дис. канд. техн. наук: 05.25.05 / К.О. Сбойчаков Москва, 2003. - 169 с. РГБ ОД, 61:04-5/2564

71. Селезнев, К. Обработка текстов на естественном языке Текст. / К. Селезнев // Открытые системы. Вып. 12. Москва, 2003.

72. Система автореферирования TextAnalyst Электронный ресурс. Режим доступа: http://www.analyst.ru.

73. Скороходько, Э.Ф. Лингвистические проблемы обработки текстов в автоматизированных ИПС Текст. / Э.Ф. Скороходько // Вопросы информационной теории и практики. №25. М.:1974.

74. Скороходько, Э.Ф. Семантические сети и автоматическая обработка текста Текст. / Э.Ф. Скороходько Киев: Наукова думка, 1983. - 218 с.

75. Сокирко, А.В. Семантические словари в автоматической обработке текста Текст.: дис. канд. тех. наук: 0513.17 / А.В. Сокирко Москва, 2001. - 120 с.

76. Технологии анализа и поиска текстовой информации Электронный ресурс. -Режим доступа: http://www.rco.ru.

77. Технология Text Mining Электронный ресурс. Режим доступа: http ://www. smartedu.com/index.php?option=comcontcnt&view=article&id=105&Itemid=770

78. Технологии автоматического семантического анализа текстов Электронный ресурс. Режим доступа: http ://uisrussia.msu.ru/linguist/B 1 2avtosem antanaliz .j sp.

79. Тузов, B.A. Семантический анализ текста на русском языке: функциональная модель предложения Текст. / В.А. Тузов // Экономико-математические исследования: математические модели и информационные технологии. -СПб.: Наука, 2003. Вып. 3. С. 304-328.

80. Тузов В.А. Компьютерная семантика русского языка Текст. / В.А. Тузов -СПб.: Изд-во С.-Петерб. ун-та, 2004. 400 с.

81. Ю4. Тузов, В.А. Компьютерная семантика русского языка Текст. / В.А. Тузов // Диалог'2001: тр. Междунар. семинара по компьютерной лингвистике и ее приложениям.- М.: РосНИИ искусственного интеллекта, 2001.- Т. 2.- С. 356363.

82. Филлмор. Ч. Основные проблемы лексической семантики Текст. / Ч. Филлмор // Новое в зарубежной лингвистике. М.: 1983. Вып. 12. - С. 74122.

83. Филлмор, Ч. Фреймы и семантика понимания Текст. / Ч. Филлмор // Новое в зарубежной лингвистике. М.: 1988. Вып. 23. - С. 52-90.

84. Хан, У. Системы автоматического реферирования Текст. / У. Хан, И. Мани // Открытые системы. Вып. 12. Москва, 2000.

85. Харламов, А.А. Технология обработки текстовой информации с опорой на семантические представления на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания Текст.

86. А.Л. Харламов, А.Е. Ермаков, Д.М. Кузнецов // Информационные технологии. №2, 1998. с. 26-32.

87. Чижаковский, В.А. Тезаурус в системах автоматической переработки текста Текст. / В.А. Чижаковский, JI.H. Беляева Кишинев, 1983.

88. ПО. Шингарева, E.JI. О двух направлениях представления семантики текста (тезаурус и фрейм) Текст. / E.JT. Шингарева // Научно-техническая информация. Сер.2. №3. Москва, 1986. - С.1-7.

89. Яцко, В.А. Логико-лингвистические проблемы анализа и реферирования научного текста Текст. /В .А. Яцко Абакан: Изд-во Хакасского гос. ун-та, 1996. - 128с.

90. Яцко, В.А. Симметричное реферирование: теоретические основы методика Текст. / В.А. Яцко // Научно-техническая информация. Сер.2. №5. Москва, 2002.-С. 18-28.

91. ИЗ. Яцко, В.А. Проблемы информационно-лингвистического моделирования научного текста Текст.: дис. докт. филол. наук: 05.13.17 / В.А. Яцко. -Москва, 1998, С.341.

92. A RU G 06 F 17/20. Способ автоматического реферирования при помощи ЭВМ несегментированного текста на языке с идеографической системой письменности / Замбалов Т.Е. № 2004114542/09; Заявл. 27.10.2005. - №30. - С.462.

93. П5. Copeck Т. Text Summarization as Controlled search / Т. Copeck, N. Japcowicz, S. Japcowicz // Advances in Artificial Intelligence. Volume 2338/2002. Springer Berlin / Heidelberg, 2002, - pp.268-280.

94. Fillmore Ch.J. The case for case / Ch.J. Fillmore // Universals in lingvistic theory: Ed. By E. Bach and B. Halns, N.Y., 1968.

95. Kupiec J. A Trainable Document Summarizer / J. Kupiec, J. Pedersen, F. Chen // Xerox Palo Alto Research Center. Palo Alto, CA, 1995.

96. Justeson, J. S. Technical terminology : some linguistic properties and an algorithm for identification in text /J. S. Justeson, S. M. Katz // Natural Language Engineering, 1(1), 1995.-pp. 9-27.

97. Lee C.B. Automatic summarization based on principal component analysis / C.B. Lee, M.S. Kim, H.R. Park // EPIA 2003: Portuguese conference on artificial intelligence №11, Beja, 2003, vol. 2902. pp. 409-413.

98. Leite D.S. Combine multiple features for Automatic Text Summarization through Machine Learning / Computational Processing of the Portuguese Language. -2008. vol. 5190, Springer, Heidelberg. - pp. 122-132.

99. Leontyeva N. Semantic dictionary for Text Understanding and Summarization // International Journal of Translation. Vol. 15. No. 1. Ed. M. Blekhman. New Delhi, 2003.

100. Loukashevitch N.V. Construction of structural thematic summary of text / N.V. Loukashevitch, B.V. Dobrov // Proceedings of the 1st workshop on text, speech, dialogue.-Brno, 1998.-P.85-90.

101. Loukashevitch N.V. Thesaurus-Based Structural Thematic Summary in Multilingual Information Systems / N.V. Loukachevitch, B.V. Dobrov // Machine Translation Review. 2000, №11. - P. 10-20.

102. Narin'yani A.S. Towards an Integral Model of Language Competence / A.S. Narin'yani // Computational Models of Natural Language Processing. Amsterdam: North-Holland. 1984. pp. 275-295.

103. Rigouste L. An Automatic Evaluation Framework for Improving a Configurable Text Summarizer / L. Rigouste, S. Szpakowicz, N. Japkowicz, T.Copeck // Advances in Artificial Intelligence. 2004. - Vol. 3060. - Springer Berlin, Heidelberg. - pp. 529-533.

104. Yanmin Ch. Automatic Text Summarization based on textual cohesion / Ch. Yanmin, L. Bingquan, W. Xiaolong // Journal of Electronics (China). 2007. -vol.24, №3. - pp. 339-346.

105. Yatsko V.A. Some problems of the development of Systems of Automatic Text Summarization / V.A. Yatsko, T.N. Vishnyakov // Automatic Documentation and Mathematical Linguistics. 2007. - vol.41, №5. - pp. 185-193.

106. Yatsko, V.A Semi-automatic Text Summarization System / V. Yatsko, S. Shilov, T. Vishniakov // Proceedings of the 10 International Conference on Speech and Computer. Patras, 2005. - pp. 283-288.