автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Метод тематического связанного ранжирования для задач автоматического сводного реферирования научно-технических информационных сообщений

кандидата технических наук
Тарасов, Сергей Дмитриевич
город
Санкт-Петербург
год
2011
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Метод тематического связанного ранжирования для задач автоматического сводного реферирования научно-технических информационных сообщений»

Автореферат диссертации по теме "Метод тематического связанного ранжирования для задач автоматического сводного реферирования научно-технических информационных сообщений"

На правах рукописи

Тарасов Сергей Дмитриевич

МЕТОД ТЕМАТИЧЕСКОГО СВЯЗАННОГО РАНЖИРОВАНИЯ ДЛЯ ЗАДАЧ АВТОМАТИЧЕСКОГО СВОДНОГО РЕФЕРИРОВАНИЯ НАУЧНО-ТЕХНИЧЕСКИХ ИНФОРМАЦИОННЫХ СООБЩЕНИЙ

Специальность 05.13.01 - Системный анализ, управление и обработка информации (технические системы)

4047764

АВТОРЕФЕРАТ Диссертации на соискание ученой степени кандидата технических наук

2 6 МАЙ 2011

Санкт-Петербург-2011 г.

4847764

Работа выполнена в Балтийском государственном техническом университете «ВОЕНМЕХ» им. Д. Ф. Устинова, г. Санкт-Петербург.

Научный руководитель: кандидат технических наук, доцент

Смирнова Наталия Николаевна

Официальные оппоненты:

доктор технических наук, профессор Смирнов Юрий Михайлович

кандидат технических наук Воронин Иван Викторович

Ведущая организация: Закрытое Акционерное Общество «Институт

телекоммуникаций»

Защита диссертации состоится « » IЛЮЮЯ 2011 г. в часов на заседании совета по защите докторских и кандидатских диссертаций Д 212.010.03 при Балтийском государственном техническом университете «ВОЕНМЕХ» им. Д. Ф. Устинова по адресу: 190005, Санкт-Петербург, 1-я Красноармейская ул., д. 1

С диссертацией можно ознакомиться в библиотеке университета.

Автореферат разослан »

Ученый секретарь совета Д 212.010.03

/ Петров Ю. В./

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, научно-исследовательские институты, проектные бюро, органы государственной власти и управления накопили большие объемы данных. Эти данные хранят в себе огромные потенциальные возможности по извлечению полезной информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находил, новые решения. Необходимость осуществлять целенаправленную политику, эффективно действовать в условиях нового информационного режима, принимать эффективные управленческие, проектные и технические решения привела к развитию информационно-аналитической деятельности, как необходимого условия развития современного информационного общества. Объём информации, необходимой и используемой в аналитической деятельности, и далее принятии решений, достигает десятков и сотен мегабайт, а в крупных корпоративных и общегосударственных системах - терабайт (десятки и сотни тысяч электронных документов). Традиционные ручные методы обработки электронных документов экспертами-аналитиками, и даже автоматизированные методы обработки этих документов информационно-аналитическими системами оказываются малоэффективными. В таких условиях особую актуальность приобретают методы смыслосохраняющего сжатия текста, позволяющие извлекать наиболее значимую информацию из электронных текстовых документов. Среди них особое место занимают методы интеллектуального реферирования документов и коллекций документов. Классическое реферирование -процесс сжатия текстового документа и получение реферата, в котором сохраняется смысл оригинала. Реферат представляет собой краткое изложение содержания документа, его части или коллекции документов, включающее основные фактические сведения, необходимые для первоначального ознакомления с первоисточником и определения целесообразности обращения к нему. Наибольшую потребность в реферировании испытывает преимущественно научная и техническая литература, в которой содержится преимущественно новая информация. Использование рефератов вместо первоисточников документов позволяет эффективнее работать с большими объемами текстовой информации. Наибольший интерес для аналитической деятельности представляют обзорные или сводные рефераты, составляемые на некоторое множество документов, содержащие основные положения из них.

Одним из наиболее важных этапов жизненного цикла сложных технических систем является проектирование, которое, как правило, включает в себя сбор и анализ существующей информации о технических характеристиках, опыте эксплуатации в различных условиях, показателях надежности, авариях, отказах, контрактах на поставку, проектирование или приобретение аналогичных систем или систем-конкурентов. При этом объем информации, используемой для поиска и принятия нужных проектных и управленческих решений, может быть настолько большим, что делает невозможным ее полный анализ и обработку в виду существенных трудовых и временных затрат, что в конечном итоге затрудняет принятие правильных решений.

Таким образом, актуальным является создание новых эффективных методов и алгоритмов, позволяющих автоматизировать формирование технических и информационно-аналитических справок, информационных бюллетеней, сокращающих трудовые и временные затраты на принятие проектных и управленческих решений, на основе сжатого представления коллекций научно-

технических текстовых документов на русском языке для задач информационной поддержки аналитической деятельности при проектировании сложных технических систем.

Цель работы. Целью диссертационной работы является повышение эффективности процесса проектирования сложных технических систем, а также качества информационного обеспечения аналитической деятельности в процессе проектирования с использованием современных методов обработки информации.

Задачи исследования. Главной научной задачей диссертационной работы является разработка нового эффективного метода автоматизации сводного реферирования научно-технических документов для информационной поддержки проектной и аналитической деятельности. Для решения этой главной задачи в работе поставлены и решены следующие частные научные и практические задачи:

1. Анализ основных современных подходов и методов, применяемых при решении задач автоматического сводного реферирования, методов оценки качества сводного реферирования.

2. Разработка модели тематической связности кластера научно-технических документов.

3. Разработка метода тематического связанного ранжирования, учитывающего связную природу текста, но не требующего большого количества лингвистических ресурсов.

4. Разработка алгоритма автоматического сводного реферирования коллекций научно-технических текстовых документов на основе предложенного метода.

5. Создание программного комплекса для автоматического сводного реферирования научно-технических информационных сообщений на основе разработанного алгоритма, ручной и автоматизированной оценки качества сводного реферирования.

6. Экспериментальные исследования оценки качества сводного реферирования на основе разработанного метода.

Объект исследований. Объектом исследования является семантико-синтаксическая структура научно-технического текста на русском языке.

Предмет исследований. Предметом исследования являются математические методы и модели автоматического сводного реферирования.

Методы исследования. При проведении исследований были использованы методы теории вероятностей, математической статистики, теории графов, теории информационного поиска, компьютерной лингвистики, современные технологии программирования. Разработанные теоретические положения и методы подтверждены экспериментально на базе созданного программного комплекса. Научные положения, выносимые на защиту:

1. Модель тематической связности кластера научно-технических документов.

2. Подход к описанию кластера научно-технических документов на основе модели тематической связности.

3. Метод тематического связанного ранжирования.

4. Алгоритм формирования различных типов сводных рефератов на основе метода тематического связанного ранжирования.

5. Способ и результаты оценки качества сводного реферирования на основе предложенного метода.

Научная новизна.

1. Предложенный подход формального описания кластера научно-технических документов на основе модели тематической связности отличается учетом некоторых положений современной лингвистической теории связного текста Т. А. ван Дейка -В. Кинча, что позволяет формализовать сложную тематическую структуру кластера документов, выделять тематические связи в тексте для задач автоматического сводного реферирования.

2. Метод тематического связанного ранжирования отличается использованием строгого аппарата формализации тематической структуры текста и учетом его связности, что позволяет повысить качество сводного реферирования научно-технических документов, обеспечить связность текста получаемого сводного документа.

3. Разработанный метод также отличается возможностью реализации различных подходов к выбору основных значимых тем коллекции документов, включая полностью автоматический, что позволяет формировать различные типы сводных документов с заданными характеристиками для различного типа задач.

4. Разработанный алгоритм отличает универсальность в отношении лингвистических ресурсов, что позволяет применять метод для текстов практически на любом естественном языке, масштабировать программное обеспечение сводного реферирования в зависимости от наличия тех или иных лингвистических ресурсов для данного естественного языка.

Практическая ценность работы. Разработанное программное обеспечение на основе предложенных методов и алгоритмов позволяет реализовывать системы автоматического сводного реферирования научно-технических информационных сообщений на русском языке, учитывающие нелинейную и иерархическую природу текста. Разработанный автором программный комплекс позволяет автоматизировать процесс сводного реферирования научно-технических документов, создание аналитических справок и информационных бюллетеней на базе автоматических сводных рефератов, производить ручную и автоматическую оценку качества сводного реферирования. Программный комплекс имеет свидетельство о регистрации в Реестре программ доя ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ.

Внедрение и реализация результатов. Результаты работы использовались в ОАО «Восточно-Европейский головной научно-исследовательский и проектный институт энергетических технологий» (ОАО «Головной институт «ВНИПИЭТ») при организации информационно-аналитической деятельности отдела автоматизированных систем управления технологическими процессами в рамках проектирования комплекса технических средств АСКУ технологическими процессами промышленного производства МОКС-топлива; ООО «Инженерный Центр СпецАтомПроекг» при организации информационно-аналитической деятельности в отделе комплексного проектирования для разработки технической документации на информационно-компьютерную сеть и оснащение рабочих мест персонала комплекса контейнерного хранения отработавшего ядерного топлива Филиала ОАО «Концерн Росэнергоатом «Ленинградская Атомная Станция» (подтверждено актами о внедрении).

Результаты работы внедрены в учебный процесс кафедры «Информационные системы и компьютерные технологии» БГТУ «ВОЕНМЕХ» им. Д. Ф. Устинова для

дисциплин «Моделирование систем представления знаний», «Автоматическая обработка естественного языка» (подтверждено актом о внедрении).

Достоверность результатов. Достоверность научных положений, результатов и выводов подтверждается корректным использованием математического аппарата, результатами вычислительных экспериментов по разработанным методам, алгоритмам и программам, обсуждением полученных результатов на научных конференциях, а также результатами использования и внедрения.

Апробация работы. Результаты работы докладывались и обсуждались на II Российской конференции молодых ученых по информационному поиску (Таганрог) в 2008г., на X Всероссийской научной конференции «Электронные библиотеки. Перспективные методы и технологии, электронные коллекции» (Дубна) в 2008г, на XI Национальной Конференции по Искусственному Интеллекту с международным участием (КИИ-2008, Дубна) в 2008 г., на XI Всероссийской научной конференции «Электронные библиотеки. Перспективные методы и технологии, электронные коллекции» (Петрозаводск) в 2009г.

Личный вклад автора. Основные научные положения, алгоритмы и их программная реализация, содержащиеся в диссертационной работе, получены автором самостоятельно.

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 13 научных работах, среди которых 5 статей в ведущих рецензируемых изданиях, рекомендованных в перечне ВАК, 4 доклада на всероссийских и международных научно-практических конференциях и 2 свидетельства об официальной регистрации программ для ЭВМ.

Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, списка литературы, включающего 225 наименований, и 7 приложений. Работа изложена на 157 страницах, содержит 25 рисунков, 21 таблицу, объем приложений составляет 54 страницы.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цели и задачи работы, раскрыты основные пункты научной и практической ценности выполняемой работы, перечислены основные положения, выносимые на защиту, их научная новизна и практическая значимость.

В первой главе проведен подробный анализ существующих методов автоматического сводного реферирования, их преимуществ и недостатков. Обосновываются и конкретизируются цель и задачи исследования.

С самого начала активного использования ЭВМ первого поколения (т.е. с середины 50-х годов) стали предприниматься попытки решать задачи обработки текста на естественном языке. История исследований методов и алгоритмов автоматического реферирования связана с именами таких отечественных и зарубежных ученых, как: Д. Г. Лахути, В. П. Леонов, В. Е. Берзон, И. П. Севбо, Э. Ф. Скороходько, H. P. Luhn, H. Р. Edmundson, С. D. Paice, R. Brandow, J. Kupiec, D. Marcu, M. Elhadad. Среди современных исследователей наиболее известны: Г. Г. Белоногов, П. И. Браславский, В. А. Яцко, М. Г. Мальковский, В. Д. Гусев, Л. А. Мирошниченко, Н. В. Саломатина,

B. С. Ступина, Н. В. Лукашевич, Б. В. Добров, H. Н. Абрамова, М. Ю. Попов,

C. А. Тревгода, Е. Hovy, С. Lin, D. R. Radev, G. Saltón, T. Nomoto, Y. Matsumoto, A. Nenkova, I. Mani, U. Hahn, J. Tait, R. Barzilay, R. K. Ando, L. Alonso и другие. За это

время было предложено множество подходов к решению данной проблемы. На первом этапе исследований наиболее популярными были подходы, основанные на выявлении тех или иных статистических закономерностей распределения терминов в тексте или их взаимного расположения в нем. В дальнейшем исследования в области автоматизированного реферирования сместились в сторону использования внутренних структур текста, выявления той информационной основы, которая организует весь текст. В настоящий момент можно выделить два основных подхода к автоматическому реферированию по типу получаемого реферата:

- Экстракция (извлечение_предложений. Sentence_Extraction.

квазиреферирование) - извлечение из исходного текста наиболее важных и существенных информационных блоков (абзацев, предложений).

Абстракция (извлечение содержания. Content Extraction) - генерация реферата с порождением нового текста, содержательно обобщающего первичный документ или документы. В рамках данного подхода можно выделить два основных направления: абстракиия на основе лингвистического сжатия, предполагающая чисто лингвистический подход к сжатию текста, и абстракция с опорой на знания. основанная на попытках построения модели понимания и синтеза текста на естественном языке.

Методы автоматического реферирования можно разделить по уровню анализа исходного текста:

- Методы поверхностного уровня (Surface-level approach) отличаются поверхностным анализом текста, который, как правило, представляется как линейная последовательность предложений, никак не связанных между собой. Предложения рассматриваются как линейные последовательности слов (в некоторых случаях, словосочетаний). В рамках подхода этого уровня можно выделить два основных направления: классические методы (статистические, позиционные и индикаторные) и методы на основе машинного обучения.

Методы уровня сущностей текста (Entity-level approach) более детально рассматривают модель текста, его элементы - «сущности», их взаимосвязи, совместную встречаемость, кореферентность, анафорические отношения и т.д., опираясь на модель структурной связности текста (когезию).

- Методы уровеня дискурсной структуры текста (Discourse-level approach) предполагают качественно новый уровень анализа исходного текста, его глобальной структуры, его связи с коммуникативными целями. В основе данных методов лежит анализ содержательной модели связности текста (когеренции). Когеренция представляет собой семантико-прагматические аспекты смысловой и деятельностной (интерактивной) связности дискурса, как локальной, так и глобальной.

В России исследования в области автоматического реферирования в настоящее время, главным образом, ведутся в рамках подхода экстракции с использованием различных комбинаций поверхностных методов. К наиболее известным коммерческим системам, позволяющим получать аннотации на русском языке, относятся: Intelligent Miner for Text (IBM% TextAnalyst, Oracle Text RCO, MS Office AutoSummarise, Inxight Summarizer, автоматическое сводное реферирование русскоязычных текстов реализовано в русскоязычных новостных агрегаторах, как «Яндекс. Новости», «Рамблер. Новости», «Новотека», а также в информационно-аналитической системе «InfoStream».

В результате анализа материалов, посвященных современным исследованиям в области обработки текста на естественном языке, было выявлено, что работа с текстом на естественном языке до сих пор остается сложной задачей для вычислительной лингвистики. До уровня промышленной реализации в системах автоматического реферирования доведены только различные комбинации методов экстракции (в основном, на базе поверхностного подхода). К основному недостатку методов экстракции стоит отнести поверхностный анализ внутренней структуры текста, и как следствие, отсутствие связности текста получаемого реферата. Несмотря на многочисленные попытки решить данную проблему, для методов экстракции это остается серьезным ограничением. Подходы на основе анализа модели связности текста (лексической, структурной и смысловой), например, подходы дискурсного уровня и уровня сущностей текста более эффективны, однако, требуют наличия различных лингвистических ресурсов (лексических и частотных словарей, грамматик, словарей синонимов, тезаурусов), различных баз данных, баз знаний и, как правило, ориентированы только на отдельно взятую узкую предметную область. Довольно ограниченный набор лингвистических ресурсов промышленного масштаба (известно только несколько ресурсов должного объема: \VordNet, ОПТ), отсутствие многоязыковых ресурсов, сложности при формализации естественного языка, ограниченная поддержка со стороны методов искусственного интеллекта, многозначность языка, зависимость от контекста делают промышленную или коммерческую реализацию таких подходов в настоящее время крайне сложной.

В данной работе предлагается подход к решению задачи автоматического сводного реферирования коллекций научно-технических информационных сообщений на русском языке на основе метода экстракции, но с обязательным учетом особенностей связной структуры текста. Научной задачей в рамках предлагаемого подхода является разработка метода автоматического сводного реферирования на основе модели тематической связности кластера документов и алгоритма, позволяющего формировать различные типы сводных рефератов для различного типа прикладных задач без использования сложных и труднодоступных лингвистических ресурсов. Подход позволяет по-новому и более качественно решить проблему построения сводных рефератов нескольких документов для широкого круга задач информационно-аналитической деятельности. Основное внимание в работе уделено вопросам тематической связности текста, а также алгоритмам автоматического построения и анализа такой структуры с целью решения задачи автоматического сводного реферирования.

Вторая глава посвящена разработке подхода к описанию модели тематической связности кластера документов и метода тематического связного ранжирования на основе этой модели. На основе некоторых положений популярной в настоящее время лингвистической теории связного текста Т. А. ван Дейка — В. Кинча, а также ряда предположений автором был предложен следующий подход к описанию тематической связности кластера документов доя задачи автоматического сводного реферирования. Для набора (кластера, коллекции) п документов £>=/£>/, В2, й3, ..., можно определить т основных тем Т={Ти Т2, Тз, ..., Тт}. Для каждого предложения SeDi.cH и каждой темы 7} еТ можно вычислить:

£,,=/>№,?}) (1) - численное значение степени отражения темы 3} в предложении Я,. При этом делается предположение, что связность предложений и £,•+/ определяется наличием

некоторой общей темы 7}. Темы кластера могут быть сформулированы какими-либо предложениями исходных документов (например, заголовками), либо заранее определенны в соответствие с предполагаемой тематикой кластера. Эти формулировки должны содержать некоторую совокупность слов, наиболее значимых для передачи основного содержания каждого документа. При этом, на основе положений теории лексической связности текста, можно предположить, что слова, семантически связанные с понятиями основных тем кластера, образуют лексические цепочки, которые пронизывают весь текст, раскрывая его основные темы, используя повторы слов, синонимы или другие слова, близкие по смыслу к словам из формулировок основных тем. Таким образом, использование только повторов слов позволяет довольно грубо вычислять значение численной степени отражения темы 2} в предложении 5, без использования каких-либо лингвистических ресурсов, кроме морфологического словаря. В то же время использование лингвистического ресурса, в котором описаны различные смысловые связи между словами, позволяет более эффективно выделять лексические цепочки, которые пронизывают весь текст, и в конечном итоге более точно вычислять значение меры ^ на основании (1).

На основе предложенного подхода автором был разработан метод тематического связанного ранжирования для задачи автоматического сводного реферирования кластера научно-технических документов на русском языке.

Основной задачей разработанного автором метода тематического связанного ранжирования (МТСР) является формирование связного текста итогового сводного реферата. Предложенный метод опирается на подход экстракции. Суть метода заключается в последовательном отборе предложений из исходных документов, наиболее полно отражающих заданный набор тем, при этом:

1. Для предварительного ранжирования предложений документов относительно исходных заданных тем может быть использован любой базовый метод, например, один из простейших статистических методов на основе подхода Луна. Автором был использован метод Manifold Ranking, как наиболее полно отражающий структурную связность исходного текста.

2. Темы, которые заданы ошибочно и плохо отражают суть документа, исключаются. По результатам анализа такие темы имеют очень слабую связь с текстом документа, что делает возможным их относительно несложную идентификацию.

3. Выбор исходных тем для ранжирования предложений осуществляется в зависимости от предметной области, типа исходных документов, целей и задач реферирования. Например, для документов новостного характера наиболее очевидным является выбор в качестве тем заголовков документов.

4. Для обеспечения связности полученного реферата каждое последующее предложение, отбираемое для сводного реферата, должно быть связано с предыдущим некоторой общей темой.

5. Для обеспечения уникальности каждого предложения и связности получаемого сводного реферата, каждое последующее предложение отражает основную тему предыдущего предложения, а также некоторую новую тему, отличную от предыдущей.

6. Для разрешения анафорических связей предложения, содержащие анафорическую связь, игнорируются, если предыдущее предложение уже не

I

10

содержится в реферате. Также возможен вариант включения в реферат обоих предложений.

Рассмотрим метод более подробно. Для набора предложений SteDkcD и набора тем Т={Т,, Т2, Т3, ..., Тт} Можно сформировать матрицу тематической связанности Е={£и}, где определяется соотношением (1). В качестве меры р связанности предложения с темой может быть использована любая мера ранжирования предложения относительно некоторого «абстрактного запроса». В зависимости от конкретного естественного языка и имеющихся в наличии лингвистических ресурсов могут быть использованы следующие варианты предварительного ранжирования:

1. Ранжирование на основе меры лексической близости предложений.

2. Ранжирование на основе меры лексической близости с учетом лингвистических особенностей, например, синонимии.

3. Ранжирование с учетом нелинейности текста, как связанной структуры на основе метода Manifold Ranking.

Сформированная в результате процедуры предварительного ранжирования матрица тематической связности кластера документов Н подвергается нормализации по столбцам:

s=a-z_1, (2)

где Z- вспомогательная диагональная матрица для нормализации:

Z =

(3)

/=1

В результате этого матрица тематической связности Е содержит коэффициенты соответствия предложений кластера заданным темам, то есть можно сформулировать следующую формальную математическую модель:

= 1 (4)

¡=1 ¡=1

для любого ]е[1...т]. Это означает, что каждое предложение в различной мере может выражать любую из т сформулированных тем 7}; при этом вес каждого предложения относительно темы 2} распределяется между всеми предложениями коллекции документов пропорционально связи этого предложения с темой (с учетом простой «лексической близости» или с учетом сложной связной структуры), и является нормированным. Модель тематической связности кластера документов представлена на рисунке 1.

Задача формирования итогового сводного реферата может быть представлена, как последовательное выделение некоторого множества предложений ££/с5 из исходного множества предложений кластера документов £>. При этом каждая заданная уникальная тема Тя из множества уникальных и актуальных тем Т' коллекции документов:

Тч е Т',Т' с Г,|Г'| ^ |Г| (5)

должна быть отражена в итоговом сводном реферате. Согласно предложенной модели тематической связности каждое из п предложений кластера документов 5!, в различной мере может формулировать любую из т тем 7}. При этом для репрезентации каждой уникальной темы Г, используется только одно предложение

исходного множества предложений кластера, наиболее полно отражающее эту тему, то есть имеющее с ней наиболее сильную тематическую связь:

документов

Для формирования связного текста итогового сводного реферата заданного объема необходимо выполнить следующие условия:

1. Должна быть определена главная тема кластера Tmain. Формулировка данной темы может быть использована как заголовок результирующего сводного реферата.

2. Первое предложение сводного реферата SUj должно быть связано с главной темой кластера документов Tmain и формулировать ее, то есть необходимо искать предложение с наибольшей тематической связью p(Tmaim SUj):

piT^SU^Sj)^ max (7)

3. Для обеспечения уникальности каждого предложения и связности получаемого сводного реферата, каждое последующее предложение должно отражать основную тему предыдущего предложения, а также некоторую новую тему, отличную от предыдущей. При этом если текущее предложение SUj сводного реферата отражает некоторую тему 7}, то последующее предложение SUl+l реферата должно быть связано с предыдущим SU, некоторой общей темой (в роли этой общей темы выступает новая тема 7}+/). Для определения следующей темы используется метод максимума. Если текущее предложение Sty сводного реферата отражает некоторую тему Т] (имеет место максимальная тематическая связь):

piTj,SU,)-> шах (8)

...т]

то можно найти следующую по значимости тему TJ+1 в текущем предложении Sb):

р(5£/„Гу) > р(5С/,,Г;+1) 2: р(Би1,ТкУ,к е\..м,к* ],к * у + 1, (9)

и в дальнейшем определить методом максимума наиболее соответствующее этой теме следующее предложение Щ+; сводного реферата:

тах. (10)

Модель текста связного сводного реферата представлена на рисунке 2.

Рисунок 2 - Графическое представление модели связного текста реферата

Разработанная модель тематической связности кластера документов позволяет учитывать сложную иерархическую природу текста и выявлять связи между предложениями документов и каждой из основных тем кластера. Выделение таких тематических связей делает возможным формирование итогового сводного реферата в виде связного текста за счет постепенного раскрытия каждой из заранее заданных тем, а также обеспечения связи каждого последующего предложения с предыдущим некоторой общей темой.

Третья глава посвящена разработке алгоритма сводного реферирования научно-технических документов на основе предложенного метода. Сводный документ строится из набора исходных предложений путем последовательного выбора предложений, отражающих каждую из предварительно сформулированных тем с обязательным учетом основного критерия связности: каждое последующее предложение сводного реферата должно быть тематически связано с предыдущим предложением и в то же время отражать некоторую новую тему. Обобщенный алгоритм автоматического сводного реферирования научно-технических новостных сообщений представлен на рисунке 3.

Рисунок 3 - Обобщенный алгоритм сводного реферирования

Среди основных этапов алгоритма стоит выделить:

1. Формирование исходной коллекции документов.

2. Выбор способа формулировки тем. Заданный набор тем кластера документов полностью определяет результат работы метода тематического сводного ранжирования, так как информационное сжатие (свертка) происходит с опорой именно на набор выбранных тем. Этим обеспечивается управляемое сжатие,

например, можно сжимать текст, выделяя те или иные наиболее значимые в данной кошфетной задаче или предметной области аспекты. Выбор исходных тем для ранжирования предложений может осуществляться в зависимости от предметной области, типа исходных документов, целей и задач реферирования. Следует выделить следующие подходы к формулировке основных тем коллекции документов:

- выбор существующих предложений кластера документов, например, заголовков;

- выбор шаблонных фраз для заранее известной заданной предметной области;

- выделение тем из исходных документов методами кластеризации и классификации и дальнейшая их формулировка (переформулировка) при помощи вспомогательных алгоритмов.

3. Разбиение текста на предложения, лексический и морфологический анализ,

анализ знаков препинания, выделение прямой речи и цитат, морфологический и морфемный анализ, поиск синонимов и анализ при помощи тезауруса.

4. Представление предложений в векторном пространстве, вычисление TF-IDF, вычисление величины «Sim». Каждое предложение S/ представляется в векторном пространстве следующим образом:

= .....tfjsff], (11)

где tfjsf - стандартная TF-ISF мера относительной важности терма tk:

(12)

где

k CountjSЛ) tfi = County • <13>

- абсолютная частота встречаемости терма tl в тексте предложения Sh а

isf,k= l + log(—)( (14)

ft ^

t

- инверсная частота встречаемости терма /* во всех предложениях документа Dm,

5.eD„; N- общее количество предложений; п, - количество предложений, содержащих терм f. Учёт ISF уменьшает вес широкоупотребительных слов.

Таким образом, предложения документов представляются векторами в М-мерном пространстве (М определяется количеством различных словоформ кластера документов) с мерой подобия предложений, устанавливаемой:

(15)

5. Выбор способа предварительного ранжирования предложений относительно заданных тем.

6. Построение графа тематической связности кластера документов на основе результатов ранжирования. Результатом данного этапа алгоритма является матрица (граф) тематической связности 3.

7. Постобработка текста сводного реферата. Включает в себя окончательное формирование текста итогового сводного реферата. При необходимости может быть произведен дополнительный анализ текста, выделение ключевых слов, сущностей,

наиболее значимых блоков, формирование ссылок на исходные документы и так далее.

Для формирования связного текста итогового сводного реферата заданного объема используется алгоритм, показанный на рисунке 4 и содержащий следующие этапы:

Рисунок 4 - Алгоритм формирования связного текста итогового сводного реферата

1. Выбор основной темы. На данном шаге выбирается основная (главная) тема коллекции документов. Выбор главной темы Ттат осуществляется на основе предположения, что основная тема коллекции (документа) имеет большее количество более сильных связей с предложениями текста, чем другие (на основе метода максимума):

Тта,„ = тфи^ шах. (16)

Если в качестве формулировок тем используются заголовки документов или любые другие законченные самостоятельные предложения, то основная тема может быть вынесена в заголовок сводного реферата. Далее основная (главная) тема устанавливается как текущая:

^current ' ОТ)

2. Поиск предложения, имеющего самую сильную связь с текущей темой Tcurnnt. На данном шаге определяется предложение имеющее самую сильную связь с текущей выбранной темой Ггаггм/. При этом выполняется следующее соотношение:

^k,curren! ~ <31,curren!. (18)

На выбор данного предложения также накладываются следующие ограничения: Предложение S¡¡ не должно являться вопросительным или отрицательным предложением.

Предложение Sk не должно содержать в заданном числе первых слов местоимение (анафорическую связь), если предыдущее предложение этого же документа уже не содержится в итоговом сводном реферате.

- Число слов предложения 5* не должно превышать некоторой заранее определенной максимальной длины предложения.

Число слов предложения Sk должно превышать некоторую заранее определенную величину минимальной длины предложения.

Предложение Sk, удовлетворяющее всем условиям, помещается в итоговый сводный реферат.

3. Актуализация новизны. На этом шаге происходит пересчет 1рафа тематической связности для решения проблемы избыточности и повторения информации.

h = ÜtJ ~ k • l,J ■ Ta + <Pl • HtJ ■ kcurren\ (19)

где T - исходная матрица связности предложений кластера:

1 = {Tu¡^p{Si,Sj)\,i,je\...n, (20)

где p(S¡,Sj) вычисляется, например, на основе:

piS^^Sim&Tj), (21)

' сюзн. '

Т = G",/2-T-G-"2, (22)

- симметрично нормализованная матрица Т, где:

G = {^=íx], (23)

a <p¡ - коэффициент аюуализацни новизны следующих предложений (понижается ранг предложений, близких на основе матрицы связности уже выбранному предложению S¿)\ q>2 - коэффициент актуализации новизны следующей темы: понижается ранг предложений, близких уже выбранной теме Т^тт- Выбор коэффициентов <p¡ ж (fo должен осуществляться экспериментально. После этого матрица тематической связности снова подвергается нормализации на основании (2) и(3).

4. Поиск следующей темы. На данном шаге происходит поиск следующей темы T„at. При этом должен быть обеспечен плавный переход от текущего предложения Sk к следующему S¡ с учетом перехода от текущей темы Torrent к новой теме Tnex¡\

P(Sk,Current) * p{Sk,Tnal) > p(Sk,Tj);j Gl,.mj * next. (24)

= . n max Д (25)

с учетом следующего соотношения:

^k,current ^ ^,next •

(26)

Формально это означает выбор следующей темы, как следующей по значимости в текущем предложении S¿. Новая тема Тпех, выбирается текущей:

^'current ~~ ^'next • (27)

5. Итерация. Процесс переходит на Шаг 2. Если объем итогового реферата достиг требуемой величины, то процесс формирования связного реферата завершается.

Разработанный обобщенный алгоритм автоматического сводного реферирования научно-технических документов на основе метода тематического связного ранжирования может использоваться для решения широкого круга задач сводного реферирования. Универсальность алгоритма обеспечивается: во-первых, возможностью выбора различных способов формулировки основных тем кластера (критериев сжатия для различного типа прикладных задач), во-вторых, необходимостью дня базового функционирования метода только минимального набора лингвистических ресурсов и возможностью использовать дополнительный набор, доступный для данной предметной области и выбранного естественного языка.

Четвертая глава посвящена оценке качества сводного реферирования и оценке эффективности предложенного автором метода. Для оценки качества работы метода тематического связного ранжирования был проведен эксперимент по ручной экспертной и автоматической оценке рефератов, получаемых различными методами автоматического сводного реферирования, а также сводных рефератов, полученных вручную.

В эксперименте приняло участие 22 эксперта (преподаватели и студенты 5 курса БГТУ «ВОЕНМЕХ»), Эксперимент состоял из двух частей: построение ручных рефератов и их последующая оценка. Исходными данными послужили 12 отобранных вручную новостных кластера различной тематики («Наука и техника», «Россия», «Происшествия») из системы «Google. News» за 2009 год. В рамках построения ручных рефератов участниками эксперимента было построено 156 ручных рефератов: каждый участник составил свой ручной сводный реферат для каждого кластера. Далее в процессе оценки рефератов каждый участник оценил каждый сводный реферат (всего было получено 156 ручных и 2600 автоматических, порожденных различными методами с различными параметрами) по 10-бальной шкале по набору формальных критериев: «грамматическая правильность», «краткость (лаконичность)», «общее впечатление», «связность», «полнота», «сложность восприятия», «содержание». Кроме того была проведена автоматическая оценка всех сводных рефератов по метрикам ROUGE-RUS, для чего были использованы рефераты, построенные вручную.

При проведении эксперимента была обеспечена полная анонимность: все сводные рефераты были перемешаны (в том числе автоматические рефераты,

порожденные различными методами; ручные рефераты, построенные различными пользователями): эксперт не знал, какой именно реферат он оценивает в данный момент, а также, какие оценки этот реферат уже получил от других пользователей.

Достоверность полученных экспериментальных исследования была проверена при помощи методов непараметрической статистики (критерия конкордации Кендалла с дополнительной проверкой значимости на основе распределения «хи-квадрат»). Анализ полученных результатов показывает, что согласованность мнений экспертов по критериям: «общее впечатление», «связность», «полнота», «содержание» превышает 0,7 с асимптотическим уровнем значимости (вероятностью ошибки) а=0,00, что позволяет использовать усреднение оценок экспертов по этим критериям. Исследования также выявили довольно слабую корреляцию автоматических метрик с ручными оценками. Наибольшая связанность была выявлена с критерием «Полнота», что подтверждается определением данных метрик. Результаты экспериментальной оценки качества сводного реферирования представлены в таблице 1.

Таблица 1. Результаты экспериментальной оценки

BL Manifold Модифицированный Manifold МТСР Ручные

Связность 0,42 0,69 0,73 0,81 0,88

Содержание 0,45 0,78 0,78 0,83 0,84

Полнота 0,45 0.78 0,80 0,82 0,84

Общее впечатление 0,41 0,71 0,78 0,85 0,86

ROUGE-1 0,26 0,39 0,40 0,41 0,38

ROUGE-2 0,11 0,18 0,18 0,19 0,17

ROUGE-3 0,07 0,12 0,12 0,12 0,12

ROUGE-L 0,22 0,33 0,34 0,36 0,33

В пятой главе приводятся принципы построения программного комплекса для автоматического сводного реферирования и составления ручных рефератов для задачи оценки качества сводного реферирования. Созданный автором программный комплекс «MDS Evaluation» позволяет решать следующие задачи:

1. Производить автоматическое сводное реферирование в широком диапазоне различных параметров для различных задач.

2. Производить ручное сводное реферирование в многопользовательском режиме.

3. Производить ручную и автоматическую оценку качества сводного реферирования.

Программный комплекс реализует интерфейс «тонкого клиента» (Web-интерфейс), что позволяет использовать его на любом компьютере, подключенном к локальной сети или Internet с установленным браузером для просмотра Web-страниц. Программный комплекс «MDS Evaluation» реализован в виде набора РНР-скриптов для Web-сервера «Apache» для операционных систем Linux, FreeBSD, MacOS и Windows. ПК «MDS Evaluation» имеет свидетельство об официальной регистрации программы для ЭВМ №2010612816. Входящая в состав библиотека сверхбыстрых матричных вычислений для языка PHP «PHP Math Extension» также имеет свидетельство об официальной регистрации программы для ЭВМ №2010612817.

По результатам апробации использование программного комплекса позволяет сократить время на создание аналитической справки в среднем в 500 раз, в целом сократить временные затраты на процесс поиска проектного решения на 30%, увеличить количество анализируемых документов в среднем в 1,4 раза. Это, в конечном итоге, не только снижает общие затраты на проектирование, но и повышает его эффективность за счет увеличения количества документов, анализируемых при поиске соответствующих проектных решений.

Заключение по результатам проведенных исследований. Среди основных результатов диссертации можно отметить следующие:

1. Выполненный анализ современных подходов к автоматическому сводному реферированию текстов показал, что в настоящий момент практически реализуемы только различные комбинации методов экстракции, в основном, на базе поверхностного подхода. К основному недостатку таких методов стоит отнести поверхностный анализ внутренней структуры текста, и как следствие, отсутствие связности текста получаемого реферата. Учет сложной тематической структуры текста может быть использован при разработке методов автоматического сводного реферирования для повышения качества сводных документов за счет повышения связности текста.

2. Разработанный способ формализованного описания модели тематической структуры кластера документов, учитывающий иерархическую природу текста, позволяет построить новый метод автоматического сводного реферирования научно-технических информационных сообщений на русском языке. Связность текста реферата обеспечивается постепенным раскрытием каждой из заранее заданных тем, а также связью каждого последующего предложения с предыдущим некоторой общей темой.

3. Разработанный обобщенный алгоритм автоматического сводного реферирования научно-технических документов на основе метода тематического связного ранжирования может использоваться для решения широкого круга задач сводного реферирования. Универсальность алгоритма обеспечивается возможностью выбора различных способов формулировки основных тем кластера (критериев сжатия для различного типа прикладных задач), а также, необходимостью для базового функционирования метода только минимального набора лингвистических ресурсов и возможностью использовать дополнительный набор, доступный для данной предметной области и выбранного естественного языка.

4. Результаты проведенных экспериментальных исследований подтвердили высокую эффективность предложенного подхода по сравнению с рассмотренными традиционными методами квазиреферирования. Достоверность полученных экспериментальных исследования была проверена при помощи методов непараметрической статистики.

5. Многопользовательский программный комплекс для автоматического и ручного сводного реферирования, оценки качества сводного реферирования «MDS Evaluation» позволяет автоматизировать процесс подготовки технических и информационно-аналитических справок, информационных бюллетеней. Использование программного комплекса позволяет сократить время на создание аналитической справки в среднем в 500 раз, в целом сократить временные затраты на процесс поиска проектного решения на 30%, увеличить количество анализируемых

документов в среднем в 1,4 раза. Это позволяет сократить временные и трудовые затраты на принятие проектных и управленческих решений при проектировании сложных технических систем.

Основные положения диссертации опубликованы в следующих работах: Публикации в изданиях, рекомендованных ВАК РФ:

1. Тарасов, С.Д. Современные методы автоматического реферирования [Текст] / С.Д. Тарасов // Научно-технические ведомости СПБГПУ. - СПб.: СПБГПУ, 2010. -№6 (113).-С. 59-74.

2. Тарасов, С.Д. Метод тематического связанного ранжирования для задач автоматического сводного реферирования сообщений [Текст] / С.Д. Тарасов // Научно-технические ведомости СПБГПУ. - СПб.: СПБГПУ, 2010. - №2 (97). -С. 140-144.

3. Тарасов, С.Д. Метод тематического связанного ранжирования для автоматического сводного реферирования новостных сообщений в задачах поддержки принятия управленческих решений [Текст] / С.Д. Тарасов // Вестник ВГУ. Серия: Системный анализ и информационные технологии. - Воронеж: ВГУ, 2010. — №1. - С. 166-173.

4. Тарасов, С.Д. Метод тематического ранжирования в задачах автоматического сводного реферирования [Текст] / С.Д. Тарасов // Искусственный интеллект и принятие решений. - М.: ИСА РАН, 2010. - №2. - С. 36-41.

5. Тарасов, С.Д. Автоматическое сводное реферирование новостных сообщений [Текст] / С.Д. Тарасов // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. -Спб.: СПБГУ ИТМО, 2010. - №4 (68). - С. 88-93.

Публикации в других изданиях:

6. Тарасов, С.Д. Алгоритм ранжирования связных структур в задачах автоматического составление обзорных рефератов новостных сюжетов [Текст] / С.Д. Тарасов // Труды Второй Российской конференции молодых ученых по информационному поиску. - Таганрог: Изд-во ТТИ ЮФУ. - 2008. - С. 90-100.

7. Тарасов, С.Д. Автоматическое составление обзорных рефератов новостных сюжетов [Текст] / С.Д. Тарасов // Труды X Всероссийской научной конференции Электронные библиотеки. Перспективные методы и технологии, электронные коллекции. - Дубна: ОИЯИ, 2008. - С. 171-176.

8. Тарасов, С.Д. Алгоритм ранжирования связанных структур для задачи автоматического составления обзорных рефератов новостных сюжетов [Текст] / С.Д. Тарасов // Труды XI Национальной Конференции по Искусственному Интеллекту с международным участием. - КИИ-2008 (28 сентября - 3 октября 2008 г., г. Дубна, Россия): Труды конференции. Т.2 - М.:ЛЕНАНД, 2008. - С. 165-174.

9. Тарасов, С.Д. Автоматическое составление обзорных рефератов [Текст] / С.Д. Тарасов // Информационные и автоматизированные системы: Юбилейный сборник трудов кафедры «Информационные системы и компьютерные технологии». - СПб.: БГТУ, 2008.-С. 95-98.

10. Тарасов, С.Д. Автоматическое составление обзорных рефератов новостных сюжетов [Текст] / С.Д. Тарасов // Вестник Балтийского Государственного Технического Университета. - СПб.: БГТУ, 2008. - №3. - С. 61—67.

11. Тарасов, С.Д. Исследование и оптимизация параметров алгоритма Manifold Ranking на основе метрики автоматической оценки качества обзорного реферирования ROUGE-RUS [Текст] / С.Д. Тарасов // Труды XI Всероссийской научной конференции Электронные библиотеки. Перспективные методы и технологии, электронные коллекции. - Петрозаводск: КарНЦ РАН - 2009. - С. 86-93.

12. Свидетельство об официальной регистрации программы для ЭВМ №2010612817. Многопользовательский программный комплекс для ручного и автоматического сводного реферирования и оценки качества сводного реферирования. (MDS Evaluation) / С. Д. Тарасов. - 2010.

13. Свидетельство об официальной регистрации программы для ЭВМ №2010612816. Расширение языка PHP для работы с матрицами и векторами. (PHP Math Extension) / С. Д. Тарасов. - 2010.

Подписано в печать 13.05.2011. Формат бумаги 60x84 1/16. Бумага документная Печать трафаретная. Усл. печ. л. 1. Тираж 100 экз. Заказ №109 Балтийский государственный технический университет

Типография БГТУ 190005, Санкт-Петербург, 1-я Красноармейская ул., д.1

Оглавление автор диссертации — кандидата технических наук Тарасов, Сергей Дмитриевич

Введение.

Глава 1. Современное состояние проблемы автоматического сводного реферирования текста.

1.1. Актуальность задачи автоматического реферирования текста.

1.2. Реферат и аннотация.:.

1.3. Постановка задачи реферирования текста.

1.4. Обзор методов автоматического реферирования текста.

1.5. Современные системы автоматического реферирования текста.

1.6. Особенности сводного автоматического реферирования.

1.7. Обзор методов сводного автоматического реферирования.

1.8. Современные системы автоматического сводного реферирования.

1.9. Постановка задачи исследования диссертационной работы.

1.10. Выводы по Главе 1.

Глава 2. Разработка метода тематического связанного ранжирования для задач сводного реферирования.

2.1. Метод Manifold Ranking.

2.2. Использование метода Manifold Ranking для задачи сводного реферирования.

2.3. Использование метода Manifold Ranking для задачи сводного реферирования новостных кластеров на русском языке.

2.4. Подбор параметров метода Manifold Ranking.

2.5. Модифицированный метод Manifold Ranking.

2.6. Подход к описанию модели кластера документа на основе тематической связности.

2.7. Метод тематического связного ранжирования.

2.7.1. Ранжирование на основе меры лексической близости предложений.

2.7.2. Ранжирование на основе меры лексической близости предложений с учетом более сложных лингвистических критериев.

2.7.3. Ранжирование с учетом нелинейности текста, как связной структуры на основе метода Manifold Ranking.

2.7.4. Метод построения графа тематической связности.

2.7.5. Метод формирования сводного реферата на основе графа тематической связности.

218. Выводы по Главе 2.

Глава 31 Разработка алгоритма; автоматического сводного реферирования научно-технических Информационных сообщений.

3.1. Обобщенный алгоритм автоматического сводного реферирования научно-технических информационных сообщений.

3.2. Выбор способа формулировки тем.

3.2.1. Использование заголовков документов в качестве формулировок основных тем коллекции документов.

3.2.2. Использование шаблонных фраз как формулировок основных тем коллекции документов.

3 .3. Предварительный анализ текста.

3.4. Модель и алгоритм вычисления TF-меры с учетом связей понятий по тезаурусу.

3.5. Алгоритм формирования связного текста сводного реферата на основе графа тематической связности.

3.6. Выводы по Главе 3.

Глава 4. Исследование эффективности метода тематического связного ранжирования.

4.1. Основные подходы к функциональной оценке качества систем реферирования.

4.2. Экспертные ручные оценки качества реферирования.

4.3. Метрика ROUGE-RUS.

4.3.1. Метрика ROUGE-N.

4.3.2. Метрика ROUGE-L.

4.3.3. Метрика ROUGE-RUS для кластеров на русском языке.

4.4. Описание эксперимента по оценке.

4.5. Достоверность экспертных оценок и корреляция между критериями.

4.6. Результаты оценки.

4.7. Оценка производительности.

4.8. Выводы по Главе 4.

Глава 5. Программный комплекс «MDS Evaluation».

5.1. Общая концепция организации программного комплекса автоматического сводного реферирования.

5.2. Программный комплекс для автоматического сводного реферирования «MDS Evaluation».

5.3. Архитектура ПК «MDS Evaluation».

5.4. Пользовательский интерфейс ПК «MDS Evaluation».

5.5. Пример работы ПК «MDS Evaluation».

5.6. Оценка эффективности ПК «MDS Evaluation».

5.7. Выводы по Главе 5.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Тарасов, Сергей Дмитриевич

В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, научно-исследовательские институты, проектные бюро, органы государственной власти и управления накопили большие объемы-данных. Эти данные хранят в себе большие потенциальные возможности по извлечению »полезной информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения [134]. Необходимость осуществлять целенаправленную политику, действовать в условиях «нового информационного режима» [107], формировать и принимать эффективные управленческие решения привела к развитию информационно-аналитической деятельности, как необходимого условия развития современного информационного общества.

Информационно-аналитическая деятельность представляет собой процесс качественно-содержательного преобразования информации по производству нового знания на основе переработки имеющейся информации в целях поиска и формирования управленческих решений и эффективного управления [108].

В XX столетии аналитическая деятельность получила широкое распространение и превратилась в профессиональную деятельность. Во многих странах существуют информационно-аналитические отделы и службы в государственных органах, компаниях, банках, политических партиях [23]. Объём информации, необходимой и используемой в аналитической деятельности, и далее принятии решений, достигает десятков и сотен мегабайт, а в крупных корпоративных и общегосударственных системах и терабайт (десятки и сотни тысяч электронных документов). Согласно последним исследованиям, до 2020 года количество информации и потребности в ней будут расти экспоненциально [219]. Традиционные методы обработки электронных документов как автоматизированными информационно-аналитическими системами, так и вручную экспертами-аналитиками оказываются малоэффективными. В этих условиях особую актуальность приобретают методы семантического сжатия информации, в первую очередь текстовой. Среди них особое место занимают методы интеллектуального реферирования документов и коллекций документов.

Классическое реферирование — процесс сжатия текстового документа и получение реферата, в котором сохраняется смысл оригинала. Реферат представляет собой краткое изложение содержания документа, его части или коллекции документов, включающее основные фактические сведения, необходимые для первоначального ознакомления с первоисточником и определения целесообразности обращения к нему. Наибольшую потребность в реферировании испытывает преимущественно научная и техническая литература, в которой содержится преимущественно новая информация. Использование рефератов вместо первоисточников документов позволяет эффективнее работать с большими объемами текстовой информации.

Наибольший интерес для аналитической деятельности представляют обзорные или сводные рефераты, составляемые на некоторое множество документов, содержащие основные положения из них [104]. В качестве исходных документов в задачах информационной поддержки аналитической деятельности могут быть использованы:

- Внутренние документы: аналитические отчеты, рекламации, протоколы аварий, заключения экспертов. Достоверность внутренних документов, как правило, принимается абсолютной. Такие документы, несомненно, представляют наибольший интерес, однако являются труднодоступными.

- Внешние документы: документы, находящиеся в публичном доступе, например, публикации в СМИ. Традиционно считается, что достоверность таких документов довольно низкая, однако политематичность, всесторонний охват, разнообразие оценок и мнений по различным вопросам делает этот тип документов основным (около 80-90%) для современной информационно-аналитической деятельности, в том числе в бизнес и военной разведке [38]. Такие документы позволяют сопоставлять, уточнять и снабжать новыми подробностями данные, полученные оперативным путем, а также давать новые направления для текущей информационно-поисковой работы. В [83] предложена модель и метод оценки показателя «меры доверия» к текстовой информации из открытых публикаций.

Одним из наиболее важных этапов жизненного цикла сложных технических систем является проектирование, которое, как правило, вкшочает в себя сбор и анализ существующей информации о технических характеристиках, опыте эксплуатации в различных условиях, показателях надежности, авариях, отказах, контрактах на поставку, проектирование или приобретение аналогичных систем или систем-конкурентов. При этом объем информации, используемой для поиска и принятия нужных проектных и управленческих решений, может быть настолько большим, что делает, невозможным ее полный анализ и обработку в виду существенных трудовых и временных затрат, что в конечном итоге затрудняет принятие правильных решений. Так, например, только в открытом доступе в архиве за 1990 - 2010 года системы «Google. Новости» содержится довольно большое количество документов, посвященных техническим системам (Таблица 1.1.1).

Таблица 1.1.1 - Упоминание в СМИ различных технических систем

Техническая система Примерное количество новостных сюжетов (кластеров)

Вертолет Ми-8 15000

Самолет Су-24 3200

Самолет МиГ-29 6800

Самолет МиГ-31 1690

Самолет Су-33 1180

Самолет Су-27 8210

Для формирования технических и информационно-аналитических справок, информационных бюллетеней в задачах обеспечения информационной поддержки лиц, принимающих проектные, технические и управленческие решения, из таких источников могут быть получены следующие сведения о технических системах:

- сведения об эксплуатации на территории различных государств в различных климатических условиях;

- сведения о происшествиях, связанных с данными техническими системами;

- сведения об авариях и отказах в данных технических системах;

- сведения о контрактах по проектированию, приобретению, продаже, изготовлению подобных технических систем;

- эксплуатационные и технические характеристики.

При этом сведения о реальных эксплуатационных характеристиках технических систем содержат в себе информацию, используемую для расчета реальных показателей надежности, которые на практике могут отличаться от заявленных производителем. Комбинация методов интеллектуального реферирования и методов расчета надежности и технической диагностики позволяет получить инструмент оценки соответствия расчетных показателей надежности реальным эксплуатационным. Это, в свою очередь, может быть использовано для внесения «коэффициентов-поправок» при расчете надежности вновь разрабатываемых технических систем.

Традиционные подходы к реферированию рассматривают его как процесс ана-литико-синтетической переработки первичных документов экспертом. В современных условиях экспоненциального роста объема информации, ее неструктурированности, а также высокой потребности лиц, принимающих управленческие решения, в новой информации, ручное реферирование имеет ряд критических недостатков. К ним относятся:

- крайне высокая стоимость составления рефератов;

- низкая скорость составления рефератов, даже в случае привлечения большого количества экспертов;

- отсутствие возможности оперативного составления рефератов для очень большого количества исходных документов или документов большого объема;

- отсутствие возможности оперативного составления различных рефератов с заданными свойствами (например, объем реферата);

- ручные рефераты, так или иначе, содержат элементы субъективности (каждый эксперт выделяет личностно-значимые элементы).

Таким образом, актуальным является создание новых эффективных методов и алгоритмов сводного реферирования, позволяющих автоматизировать формирование технических и информационно-аналитических справок, обзоров, информационных бюллетеней, сокращающих трудовые и временные затраты на принятие проектных и управленческих решений, на основе сжатого представления коллекций научно-технических текстовых документов на русском языке для задач информационной поддержки аналитической деятельности при проектировании сложных технических систем.

Цель работы. Целью диссертационной работы является повышение эффективности процесса проектирования сложных технических систем, а также качества информационного обеспечения аналитической деятельности в процессе проектирования с использованием современных методов обработки информации.

Задачи исследования. Главной научной задачей диссертационной работы является разработка новых эффективных методов автоматизации сводного реферирования научно-технических документов для информационной поддержки проектной и аналитической деятельности. Для решения этой главной задачи в работе поставлены и решены следующие частные научные и практические задачи:

1. Анализ основных современных подходов и методов, применяемых при решении задач автоматического сводного реферирования, методов оценки качества сводного реферирования.

2. Разработка модели тематической связности кластера научно-технических документов.

3. Разработка метода тематического связанного ранжирования, учитывающего связную природу текста, но не требующего большого количества лингвистических ресурсов.

4. Разработка алгоритма автоматического сводного реферирования коллекций научно-технических текстовых документов на основе предложенного метода.

5. Создание программного комплекса для автоматического сводного реферирования научно-технических информационных сообщений на основе разработанного алгоритма, ручной и автоматизированной оценки качества сводного реферирования.

6. Экспериментальные исследования оценки качества сводного реферирования на основе разработанного метода.

Объект исследований. Объектом исследования является семантико-синтаксическая структура научно-технического текста на русском языке.

Пуедмет исследований. Предметом исследования являются математические методы и модели автоматического сводного реферирования.

Методы исследования. При проведении исследований были использованы методы теории вероятностей, математической статистики, теории графов, теории информационного поиска, компьютерной лингвистики, современные технологии программирования. Разработанные теоретические положения и методы подтверждены экспериментально на базе созданного программного комплекса.

Научные положения, выносимые на защиту: 1. Модель тематической связности кластера научно-технических документов.

2. Подход к описанию кластера документов на основе модели тематической связности.

3. Метод тематического связного ранжирования.

4. Алгоритм формирования различных типов сводных рефератов на основе метода тематического связного ранжирования.

5. Способ и результаты оценки качества сводного реферирования на основе предложенного метода.

Научная новизна.

1. Предложенный подход формального описания кластера научно-технических документов на основе модели тематической связности отличается учетом некоторых положений современной лингвистической теории связного текста Т.А. ван Дейка -В. Кинча, что позволяет формализовать сложную тематическую структуру кластера документов, выделять тематические связи в тексте для задач автоматического сводного реферирования.

2. Метод тематического связанного ранжирования отличается использованием строгого аппарата математической формализации тематической структуры текста и учетом его связности, что позволяют повысить качество сводного реферирования научно-технических документов, обеспечить связность текста получаемого сводного документа.

3. Разработанный метод также отличается возможностью различных подходов к выбору основных значимых тем, коллекции документов, включая полностью автоматический, что позволяет формировать различные типы сводных документов с заданными характеристиками для различного типа задач.

4. Разработанный алгоритм отличает универсальность в отношении лингвистических ресурсов, что позволяет применять метод для текстов практически на любом естественном языке, масштабировать программное обеспечение сводного реферирования в зависимости от наличия тех или иных лингвистических ресурсов для данного естественного языка.

Практическая ценность работы. Разработанное программное обеспечение на основе предложенных методов и алгоритмов позволяет реализовывать системы автоматического сводного реферирования научно-технических информационных сообщений на русском языке, учитывающие нелинейную и иерархическую природу текста. Разработанный автором программный комплекс позволяет автоматизировать процесс сводного реферирования научно-технических документов, создание аналитических справок и информационных бюллетеней на базе автоматических сводных рефератов, производить ручную и автоматическую оценку качества сводного реферирования. Программный комплекс имеет свидетельство о регистрации в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ.

Внедрение результатов работы. Результаты работы использовались в ОАО «Восточно-Европейский головной научно-исследовательский и проектный институт энергетических технологий (ОАО «Головной институт ВНИПИЭТ») при организации информационно-аналитической деятельности отдела автоматизированных систем управления технологическими процессами в процессе проектирования комплекса технических средств АСКУ технологическими процессами промышленного производства МОКС-топлива; ООО «Инженерный Центр СпецАтомПроект» при организации информационно-аналитической деятельности в отделе комплексного проектирования для разработки технической документации на информационно-компьютерную сеть и оснащение рабочих мест персонала комплекса контейнерного хранения отработавшего ядерного топлива Филиала ОАО «Концерн Росэнергоатом «Ленинградская Атомная Станция» (подтверждено актами о внедрении).

Результаты работы внедрены в учебный процесс кафедры «Информационные системы и компьютерные технологии» БГТУ «Военмех» им. Д.Ф.Устинова для дисциплин «Моделирование систем представления знаний», «Автоматическая обработка естественного языка» (подтверждено актом о внедрении).

Достоверность результатов. Достоверность научных положений, результатов и выводов подтверждается корректным использованием математического аппарата, результатами вычислительных экспериментов по разработанным методам, алгоритмам и программам, обсуждением полученных результатов на научных конференциях, а также результатами использования и внедрения.

Апробация работы. Результаты работы докладывались и обсуждались на II Российской конференции молодых ученых по информационному поиску (Таганрог) в

2008 г., на X Всероссийской научной конференции Электронные библиотеки. Перспективные методы и технологии, электронные коллекции (Дубна) в 2008 г., на XI Национальной Конференции по Искусственному Интеллекту с международным участием КИИ-2008 (Дубна) в 2008 г., на XI Всероссийской научной конференции «Электронные библиотеки. Перспективные методы и технологии, электронные коллекции» (Петрозаводск) в 2009 г.

Личный вклад автора. Основные научные положения, алгоритмы и их программная реализация, содержащиеся в диссертационной работе, получены автором самостоятельно.

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 13 научных работах, среди которых 5 статей в ведущих рецензируемых изданиях, рекомендованных в перечне ВАК, 4 доклада на всероссийских и международных научно-практических конференциях и 2 свидетельства об официальной регистрации программ для ЭВМ.

В первой главе проведен подробный анализ существующих подходов к задаче автоматического реферирования. Дается обзор существующих методов автоматического сводного реферирования. На основе анализа преимуществ и недостатков существующих методов и алгоритмов конкретизируется цель и задачи исследования.

Вторая глава посвящена разработке способа формализованного описания модели тематической структуры кластера документов, учитывающего иерархическую природу текста, метода тематического связного ранжирования на основе этой модели.

Третья глава посвящена разработке обобщенного алгоритма сводного реферирования кластеров научно-технических документов на основе предложенного метода.

Четвертая глава посвящена оценке качества сводного реферирования и оценке эффективности предложенного автором метода.

В пятой главе приводится принципы построения и описание программного комплекса для ручного и автоматического сводного реферирования.

Заключение диссертация на тему "Метод тематического связанного ранжирования для задач автоматического сводного реферирования научно-технических информационных сообщений"

5.7. Выводы по Главе 5

1. Разработанный программный комплекс имеет открытую клиент-серверную архитектуру, реализованную с использованием объектно-ориентированного подхода, что позволяет расширять имеющийся функционал. ПК предназначен ручного и автоматического сводного реферирования научно-технических новостных сообщений на основе предложенного метода тематического связного ранжирования, ручной и автоматической оценки качества сводного реферирования по набору критериев, проведения экспериментов и дальнейшей статистической обработки результатов.

2. Серверная часть программного комплекса «MDS Evaluation» может работать под управлением операционных систем Linux, FreeBSD, MacOS и Windows. Программный комплекс реализует интерфейс «тонкого клиента» (Web-интерфейс), что позволяет использовать клиентскую часть на любом компьютере, подключенном к локальной сети или Internet с установленным браузером для просмотра Web-страниц.

3. По результатам апробации использование программного комплекса позволяет сократить время на создание аналитической справки в среднем в 500 раз, в целом сократить временные затраты на процесс поиска проектного решения на 30%, увеличить количество анализируемых документов в среднем в 1,4 раза. Это, в конечном итоге, не только снижает общие затраты на проектирование, но и повышает его эффективность за счет увеличения количества документов, анализируемых при поиске соответствующих проектных решений.

ЗАКЛЮЧЕНИЕ

1. Выполненный анализ современных подходов к автоматическому сводному реферированию-текстов показал, что в настоящий момент практически реализуемы только различные комбинации методов.экстракции; в основном, на базе поверхностного подхода. К основному недостатку таких методов , стоит отнести поверхностный анализ внутренней структуры текста, и как следствие, отсутствие связности текста получаемого реферата. Учет сложной тема структуры текста может быть использован при разработке методов автоматического сводного реферирования для повышения качества сводных документов за счет повышения связности текста.

2. Разработанный способ формализованного описания модели тематической структуры кластера документов, учитывающий иерархическую природу текста, позволяет построить новый метод автоматического сводного реферирования научно-технических информационных сообщений на русском языке. Связность текста реферата обеспечивается постепенным раскрытием каждой из заранее заданных тем, а также обеспечен™ связи каждого последующего предложения с предыдущим некоторой общей темой.

3. Разработанный обобщенный алгоритм автоматического сводного реферирования научно-технических документов на основе метода тематического связного ранжирования может использоваться для решения широкого круга задач сводного реферирования. Универсальность алгоритма обеспечивается возможностью выбора различных способов формулировки основных тем кластера (критериев сжатия для различного типа прикладных задач), а также, необходимостью для базового функционирования метода только минимального набора лингвистических ресурсов и возможностью использовать дополнительный набор, доступный для данной предметной области и выбранного естественного языка.

4. Результаты проведенных экспериментальных исследований подтвердили высокую эффективность предложенного подхода по сравнению с рассмотренными традиционными методами квазиреферирования. Достоверность полученных экспериментальных исследования была проверена при помощи методов непараметрической статистики.

5. Многопользовательский программный комплекс для автоматического и ручного сводного реферирования, оценки качества сводного реферирования «MDS Evaluation» позволяет автоматизировать процесс подготовки технических и информационно-аналитических справок, информационных бюллетеней. Использование программного комплекса позволяет сократить время на создание аналитической справки в среднем в 500 раз, в целом сократить временные затраты на процесс поиска проектного решения на 30%, увеличить количество анализируемых документов в среднем в 1,4 раза. Это позволяет сократить временные и трудовые затраты на принятие проектных и управленческих решений при проектировании сложных технических систем.

Библиография Тарасов, Сергей Дмитриевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Автоматическая обработка текста Электронный ресурс. // Режим доступа: http://aot.ru/

2. Алексеров, Ф.Т. Методы обработки интервальных экспертных оценок Текст. / Ф.Т. Алексеров, В. Бауман, В.И. Вольский // Автоматика и телемеханика. -1984. -№3.-С. 127-133.

3. Алыгулиев, P.M. Автоматическое реферирование документов с извлечением информативных предложений Текст. / Р. М. Алыгулиев // Вычислительные технологии. 2007. - Т. 12, № 5. - С. 5-15.

4. Белоногов, Г. Г. Компьютерная лингвистика и перспективные информационные технологии Текст.: монография / Г. Г. Белоногов, Ю. П. Калинин, А. А. Хорошилов. М.: Русский мир, 2004. - 246 с.

5. Берзон, В.Е. Об одном подходе к проблеме автоматического реферирования и автоматического свертывания индексируемых текстов Текст. / В.Е. Берзон //НТИ. Сер. 2. -1971. № 10. - С. 16-21.

6. Берзон, В.Е. Синтаксические сверхфразовые связи и их инженерно— лингвистическое моделирование Текст.: монография / В.Е. Берзон, Э. М. Добрускина. Кишинев: Штиинца. -1986. -168 с.

7. Бешелев, С.Д. Математико-статистические методы экспертных оценок Текст.: монография / С.Д. Бешелев, Ф.Г. Гурвич. М.: Статистика, 1980. - 263 с.

8. Блюменау, Д.И. Проблемы свёртывания научной информации Текст.: монография / Д.И. Блюменау. Л.: Наука, 1982. - 166 с.

9. Блюменау, Д.И. Индикаторный метод компьютерного свертывания в процессе обучения аналитико-синтетической переработке информации Текст. / Д.И. Блюменау, JI.H. Афанасова // Научные и технические библиотеки. 2001. № 12. С. 2941.

10. Богословская, И.В. Объективность структуры текста и субъективность процесса понимания Текст. / И. В. Богословская // Теория языка и межкультурная коммуникация. -№1 (7), Курск, 2010.

11. Болдырев, H.H. Когнитивная семантика Текст.: монография / H.H. Болдырев. Тамбов: Изд-во Тамб. ун-та, 2001. - 123 С.

12. Большакова, E.H. Структурирование и извлечение знаний, представленных в научных текстах Текст. / Е.И. Большакова, Н.В. Баева, Н.Э Васильева // Труды 9 -ой Национальной конф. по искусственному интеллекту. М.: Физматлит, 2004. -С. 45 -51.

13. Большакова, Е.И. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов Текст. / Е.И.Большакова, Н.В. Баева, Н.Э.Васильева //Труды межд. конф. Диалог 2007. М.: Издательский центр РГГУ, 2007. - С. 70-75.

14. Бондаренко, Г. В. Распределение повторов в связном тексте как основа для обнаружения суперсинтаксических единиц Текст. / Г. В. Бондаренко // НТИ, 1975. сер.2, № 12, С. 20—31.

15. Бондаренко, Г.В. Использование структурных закономерностей текста при автоматической обработке информации Текст. / Г. В. Бондаренко, О. И. Яровенко //НТИ, 1984. сер.2, № 3, С. 23—29.

16. Браславский, П. И. eXtragon:экспериментальная система для автоматического реферирования веб-документов Текст. / П.И. Браславский, И.С. Колычев //Труды РОМИП 2005. СПб, 2005. - С. 40-53.

17. Браславский, П.И. Автоматическое реферирование веб-документов с учетом запроса Текст. / П.И. Браславский, И.С. Колычев // Интернет-математика 2005. М.: Яндекс, 2005. - С. 485-501.

18. Буч, Г. Объектно-ориентированный анализ и проектирование Текст.: монография / Г. Буч.- Изд-во Вильяме, 2008. 560 с.ч

19. Валгина, Н. С. Теория текста Текст. / Н. С. Валгина // Учебное пособие. — М.: Изд-во МГУП «Мир книги», 1998. — 210 с.

20. Гаврилова, Т.А Базы знаний интеллектуальных систем Текст.: монография / Т!А.Гаврилова, В.Г.Хорошевский. СПб.: Питер, 2000. - 384 с.

21. Гальперин, И.Р. Текст как объект лингвистического исследования. Текст. / И.Р. Гальперин // М.: Наука, 1981. 140 с.

22. Гиляревский, P.C. Методы автоматизированного фрагментирования текста, отражающиеся на характеристике внутреннего состава фрагментов Текст. / P.C. Гиляревский, С.И. Гиндин // Семиотика и информатика. М.: ВИНИТИ, 1977. Т.9. -С.35-84.

23. Гладкий, A.B. Формальные грамматики и языки Текст.: монография /

24. A. В. Гладкий. М.: Наука, - 1973. - 368 с.

25. Голуб, И. Б. Стилистика русского языка Текст. / И. Б. Голуб // М.: Рольф, 2001

26. Горский, В.Г., Метод согласования кластеризованных ранжировок Текст. / В. Г. Горский, А.И. Орлов, A.A. Гриценко // Автоматика и телемеханика. -2000. №3. С. 59-167.

27. Горькова, В.И. Пособие по реферированию и редактированию научно-технической литературы Текст. / В. И. Горькова, Т. В. Муранивский // М., 1964. -С. 85.

28. Горькова, В.И. Реферат в системе научной коммуникации. Направления совершенствования лингвистических и структурных характеристик Текст. /

29. B. И. Горькова, Э. А. Ворохов // М.: ВИНИТИ, 1987. - 323 с. (Итоги науки и техники. Сер. Информатика/ ВИНИТИ, Т. 11). - С. 43.

30. Грачева JI. В. Отчет НИР по теме «Исследования возможности применения метода объектно-ориентированного анализа (МОДА) для составления рефератовнаучно-технической литературы» Текст. / JI. В. Грачева, Ю. С. Гузев, Е. С. Похвалина- М.: ВИНИТИ, 2003.-31 с.

31. Губин, М.В. Эффективный алгоритм формирования контекстно-зависимых аннотаций Текст.' / М.В. Губин, А.И. Меркулов //Труды межд. конф. Диалог 2005. М.: Наука, 2005. - С. 116-120.

32. Гусев, В.Д. Выявление аномалий в распределении лексических единиц по тексту Текст. / В.Д. Гусев, JI.A. Мирошниченко, Н.В. Саломатина // Вестник СПбГУ, сер. 9. Вып. 3. Санкт-Петербург, 2005. - С. 64-69.

33. Гусев, В.Д. Тематический анализ и квазиреферирование текста с использованием сканирующих статистик / В.Д. Гусев, JI.A. Мирошниченко, Н.В. Саломатина // Труды междунар. конф. Диалог-2005, Звенигород, 1—7 июня 2005. М.: Наука, 2005.-С. 121-125.

34. Дейк, Т.А. ван Стратегии понимания связного текста Текст. / Т.А. ван Дейк, В. Кинч // Новое в зарубежной лингвистике. М.: Прогресс, 1988. - Вып. 23. -С. 153-211.

35. Дейк, Т.А. ван Язык. Познание. Коммуникация Текст.: монография / Т.А. ван Дейк, под ред. В. И. Герасимова. М.: Прогресс, 1989. - 310 с.

36. Доронин, А. И. Бизнес-разведка Текст. / А. И. Доронин -М.: Издательство Ось-89, 2003.

37. Дридзе, Т.М. Понятие и метод установления содержательной структуры текста применительно к учебному тексту Текст. / Т. М. Дридзе // Психолингвистическая и лингвистическая природа текста и особенности его восприятия. — Киев, 1979. -С. 27-39.

38. Емашова, O.A. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текстов / O.A. Емашова, М.Г. Мальковский //

39. Труды межд. конф. Диалог 2007. (http://www.dialog21.ru/dialog2007/materials/html/25.htm).

40. Ефимеико, И.В. Лингвистические аспекты кросс-языкового реферирования: синтез текстов под управлением предметных онтологий Текст. И.В. Ефименко // Труды 10-ой конф. по искусственному интеллекту.- М.: Физматлит, 2006, Т 1. - С. 81-87.

41. Жинкин, Н. И. Язык. Речь. Творчество Текст. / Н. И. Жинкин // М.:1998.

42. Жолкова, А.И. К вопросу о реферировании научно-технической периодики в реферативном журнале ВИНИТИ Текст. / А. И. Жолкова // НТИ. Сер. 1. -1970. № 5. - С. 24.

43. Заболеева-Зотова, A.B. Лингвистическое обеспечение автоматизированных систем Текст.: монография / A.B. Заболеева-Зотова, В.А. Камаев. М.: Высшая школа, 2008. - 245с.

44. Зализняк А. А. Грамматический словарь русского языка. Словоизменение. М., 1977; 3-е изд. М., 1987.

45. Зубов, A.B. Автоматическое построение табличного реферата группы текстов одной тематики / А.В.Зубов.// Материалы конференции «Диалог-2005». -(http://www.dialog-l.ru/Archive/2005/Zubov%20A/ZubovA.htm).

46. Зубов, A.B. Информационные технологии в лингвистике Текст.: монография / А.В.Зубов. М.: Академия, 2004. - 208 с.

47. Кулагина, О.С. Исследования по машинному переводу Текст.: монография / О. С. Кулагина. М.: Наука, 1979. - 320 с.

48. Ландэ, Д.В. Сканер системы контент-мониторинга InfoStream Текст. / Д. В. Ландэ // Открытые информационные и компьютерные интегрированные технологии: Сб. науч. трудов. Харьков: НАКУ «ХАИ», 2005. - Вып. 28 - С. 53-58.

49. Ландэ, Д. В. Феномены современных информационных потоков Текст. / Д. В. Ландэ, А. Б. Литвин // "Сети и бизнес". 2001. - №1. - С. 14-21.

50. Ларичев, О.И. Теория и методы принятия решений Текст.: монография / О. И. Ларичев М.: Логос, 2006. - 392 с.

51. Лахути, Д.Г. Формализованное реферирование с использованием словесных клише (маркеров) Текст. / Д.Г. Лахути, Д.И. Блюменау, Н.И. Гендина // НТИ. Сер.2. 1981. №2. - С.16-20.

52. Лахути, Д. Г. Вопросы отладки и оценки дескрипторных поисковых систем Текст. / Д.Г. Лахути // Семантические проблемы информатики. М., 1971. - С. 6-37.

53. Лахути, Д. Г. Средства и процедура концептуальной интерпретации входных сообщений на естественном языке систем Текст. /Д .Г. Лахути, В.Ш. Ру-башкин // Известия АН СССР: Техническая кибернетика. -1987. № 2. - С. 49-59.

54. Лахути, Д. Г. Автоматизированные документально-фактографические информационные системы Текст. / Д .Г. Лахути // Итоги науки и техники. Сер. Информатика. 1988. - Т. 12. - С. 56-79.

55. Лахути, Д.Г Экстрагирование как один из подходов к автоматизации реферирования Текст. / Д.Г. Лахути, Д.И. Блюменау, И.С. Добро-нравов // Теория и практика механизации библ. и информ.-библиогр. процессов. Л., 1982. - С 108 -128.

56. Леонов, В. П. О методах автоматического реферирования (США 19581974 гг.) Текст. / В.П.Леонов // Научно-техническая информация, сер.2. 1975. -№6.- С.16-20.

57. Леонов, В. П. Реферирование и аннотирование научно-технической литературы Текст.: монография / В.П. Леонов. Новосибирск: Наука, 1986. - 175 с.

58. Леонтьева, H. H. Семантика связного текста и единицы информационного анализа Текст. / H. Н. Леонтьева // Научно-техническая информация, Сер.2 -М., 1981.- №1. -С. 5-11.

59. Литвак, Б. Г. Экспертная информация: методы получения и анализа Текст.: учеб. пособие для вузов / Б. Г. Литвак. М.: Радио и связь, 1982. - 350 с.

60. Литвиненко, А. О. Описание структуры дискурса в рамках теории риторической структуры Текст. / А. О. Литвиненко //Труды Межд. семинара Диалог 2001 по компьютерной лингвистике и ее приложениям. Аксаково, 2001. Т.1. - С. 159-168.

61. Лукашевич, Н. В. Автоматическое построение аннотаций на основе тематического представления текста Текст. / Н. В. Лукашевич //Труды международного семинара Диалог'97. М.: 1997 С. 188-191.

62. Лукашевич, Н. В., Добров, Б. В. Исследования тематической структуры текста на основе большого лингвистического ресурса Текст. / Н. В. Лукашевич, Б. В. Добров // Труды международного семинара "Диалог 2000". М.: 2000. Том 2,1. С.252-258. »

63. Лукашевич, Н. В. Обработка потока новостей на основе больших лингвистических ресурсов Текст. / Н.В. Лукашевич, Б.В. Добров, C.B. Штернов // Интернет-математика 2005. Автоматическая обработка веб-данных. М.: - 2005. - С. 461484.

64. Лукашевич, Н.В Представление знаний в системе автоматической обработки текстов Текст. / Н.В. Лукашевич, А.Д. Салий // НТИ. Сер.2. 1997. - N3. - С. 15-23.

65. Макаров, М.Л. Основы теории дискурса Текст.: монография / М.Л.Макаров. М.: Гнозис, 2003. - 280 с.

66. Макконнелл, С. Совершенный код Текст.: монография / С. Макконнелл. Издательство: Питер Русская редакция, 2007. - 896 с.

67. Мак Кьюин, К. Дискурсивные стратегии для синтеза текста на естественном языке Текст./ К. Мак Кьюин // Новое в зарубежной лингвистике: М.: -1989. - Вып. XXIV. - С. 311 - 356.

68. Мальцев, А. Н. Алгоритмы и рекурсивные функции Текст.: монография / А. Н. Мальцев // М.: Наука, 1986. - 366 с.

69. Марчук, Ю. Н. Проблемы машинного перевода Текст.:монография / Ю. Н. Марчук // М.: Наука, 1983. - 231 с.

70. Марчук, Ю.Н. Компьютерная лингвистика Текст. :Учеб.пособие / Ю.Н. Марчук // ACT, Восток-Запад, 2007. 226 с.

71. Материалы Лаборатории информационно-системного анализа ГПНТБ СО РАН Электронный ресурс. // Режим доступа: http://www.spsl.nsc.ru/win/ecol/index.html

72. Мельчук, И.А Опыт теории лингвистических моделей «Смысл-Текст»Г Семантика, синтаксис Текст. / И. А. Мельчук // М.:Наука, 1999. - 314 с.

73. Мелюхин, И. С. Состояние информационно-аналитической деятельности в России Текст. / И. С. Мелюхин / Журнал «Информационное общество» Вып. №6, -М. ИРИО. -1994. С. 55-64.

74. Мецлер, А. А. Структурные связи в тексте (парентезные конструкции) Текст. / А. А. Мецлер // Кишинев, «Штиинца», 1987. - 140с.

75. Михайлов, А.И. Основы научной информации. Текст. / А.И. Михайлов, А.И. Черный, Р.С. Гиляревский // М.: Наука, 1965. - 655 с.

76. Михаилян, А. Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах- / А. Михаэлян. 2001. -(http://www.citforum.ru/programming/digest/avtestlang.shtml).

77. Нелюбин, Л.Л. Компьютерная лингвистика и машинный перевод Текст.: Метод.пособие / Л.Л. Нелюбин. М.: ВЦП, 1991. - 151 с.

78. Новиков, А.И. Семантика текста и её формализация Текст. / А. И. Новиков // М., Наука, 1983. - С. 211.

79. Овсянников, А. А. Подход к фильтрации сообщений СМИ на основе модели процесса оценки качества Текст. / А. А. Овсянников, К. В. Елецкий // Информационные системы и технологии. 2010. Т. 584. № 1-57. С. 68-74.

80. Орлов, А.И. Современная прикладная статистика Текст. / А.И. Орлов // Заводская лаборатория. 1998. Т. 64. - № 3. - С.52-60.

81. Панкова, JI.A. Организация экспертизы и анализ экспертной информации Текст.: монография / JL А.Панкова, А. М. Петровский, М. В. Шнецдерман. М.: Наука, 1984. - 120 с.

82. Пащенко, Н.А. Проблемы автоматизации индексирования и реферирования Текст. / Н.А. Пащенко, JI.B. Кнорина, Т.В. Молчанова // Итоги науки и техники. Сер. Информатика. —М.: ВИНИТИ, 1983. -Т.7. С. 7-164.

83. Пиотровский, Р.Г. Текст, машина, человек Текст.: монография / Р.Г. Пиотровский. Л.: Наука, 1975. - 327с.

84. Пиотровский, Р.Г. Инженерная лингвистика и теория языка Текст.: монография / Р.Г. Пиотровский. Л. : Наука, 1979. - 112 С.

85. Попов, Э. В. Общение с ЭВМ на естественном языке Текст.: монография / Э. В. Попов. М.: Наука, 1982. - 360 с.

86. Попов, М.Ю. Визуализация семантической структуры и реферирование текстов на естественном языке Электронный ресурс. / М. Ю. Попов, А. В. Заболеева-Зотова, С. А. Фоменков. (http://www.dialog-21 .ru/Archive/2003/Popov.htm).

87. Поспелов, Д.А. Из истории искусственного интеллекта: история искусственного интеллекта до середины 80-х годов Текст. / Д.А.Поспелов // Новости искусственного интеллекта Вып. 4, 1994 - С.70 - 90.

88. Поспелов, Д.А. Логико-лингвистические модели в системах управления Текст. монография./ Д.А. Поспелов. М., 1981.- 232 с.

89. Преображенский, А.Б. Состояние развития систем естественноязыкового общения Текст. / А. Б. Преображенский // Сб. Искусственный интеллект. М.:Радио и связь,1990. - Т.1. - С.32-64.

90. Ровинская, М. Точка как Проблема. Материалы Международной Конференции Диалог. 2000.

91. Рождественская, Н.В. Дискурс как высшая единица коммуникативного акта./ Н.В. Рождественская (www.zsu.zp.ua/herald/articles/1955.pdf).

92. Рыков, А.С. Методы системного анализа: Многокритериальная * и нечеткая оптимизация, моделирование и экспертные оценки Текст.: Учеб.пособие / А.С.Рыков. М.: Экономика, 1999. - 216 с.

93. Сборник руководящих материалов по научно-технической информации в области строительства и архитектуры. М.: ЦИНИС, 1972. - С. 18.

94. Свидетельство об официальной, регистрации программы для ЭВМ №2010612817. Многопользовательский программный* комплекс для ручного и автоматического сводного реферирования и оценки качества сводного реферирования. (MDS Evaluation) / С. Д. Тарасов. 2010.

95. Свидетельство об официальной регистрации программы для ЭВМ №2010612816. Расширение языка РНР для работы с матрицами и векторами. (РНР

96. Math Extension) / С. Д. Тарасов. 2010.» «

97. Севбо, И.П. Структура связного текста и автоматизация реферирования Текст.монография / И.П. Севбо М.: Наука, 1969. - 135 с.

98. Севбо, И.П. Сквозной анализ как шаг к структурированию текстовых знаний Текст. / И.П. Севбо. // НТИ. Сер. 2. 1989. - № 2. - С. 26-32.

99. Сегалович, И. В. Как работают поисковые системы Текст. / И. В. Сегалович // Мир Internet. 2002. № 10. С. 24-32.

100. Селезнев, К.Е Обработка текстов на естественном языке / К.Е. Селезнев // Открытые системы. 2003. - №12.-(http://www.osp.ru/os/2003/12/183694).

101. Система стандартов по информации, библиотечному и издательскому делу. Реферат и аннотация. Общие требования Текст. : ГОСТ 7.9-95.

102. Скороходько, Э.Ф. Семантические связи в лексике и текстах Текст. / Э.Ф. Скороходько // Вопросы информационной теории и практики. М.:- 1977. - № 23. - С. 42 - 45.

103. Скороходько, Э.Ф. Семантические сети и автоматическая-обработка текста Текст.: монография / Э.Ф. Скороходько. Киев: Наукова думка, 1983. - 219 с.

104. Сляднева, Н. А. Информационно-аналитическая деятельность: проблемы и перспективы Текст. / Н. А. Сляднева // Информ.-аналит. журн. 2001. № 2. С. 14-25.

105. Сляднева, Н. А. Информационная аналитика эзотерическое искусство или современная профессия? Электронный ресурс. / Н. А. Сляднева // http://www.fact.ru/www/arhiv7s6.htm. (дата обращения: 01.07.2010).

106. Совпель, И. В. Инженерно-лингвистические принципы, методы и алгоритмы автоматической переработки текста Текст.: монография / И.В. Совпель. -Минск : Вышэйш. шк., 1991. - 236 с.

107. Соловьев В.И., Составление и редактирование рефератов: Вопросы теории и практики Текст. / А. А. Гречихин, И. Г. Здоров, В. И. Соловьев / Жанры информационной литературы. Обзор. Реферат. М., 1983. - 324 с.

108. Солтон Д. Динамические библиотечно-информационные системы Текст.: монография / Д. Солтон М.: Мир, 1979. - 557 с.

109. Ступин, B.C. Система автоматического реферирования методом симметричного реферирования Текст. / B.C. Ступин // Компьютерная лингвистика и интеллектуальные технологии. Труды межд. конференции «Диалог 2004» М.: Наука, 2004. - С. 579-591.

110. Тарасов, С.Д. Современные методы автоматического реферирования Текст. / С.Д. Тарасов // Научно-технические ведомости СПБГПУ. — СПб: СПБГПУ, 2010. №6 (113). - С. 59-74.

111. Тарасов, С.Д. Метод тематического связанного ранжирования для задач автоматического сводного реферирования сообщений Текст. / С.Д. Тарасов // Научно-технические ведомости СПБГПУ. СПб: СПБГПУ, 2010. - №2 (97). - С. 140144.

112. Тарасов, С.Д. Метод тематического ранжирования в задачах автоматического сводного реферирования Текст. / С.Д. Тарасов // Искусственный интеллект и принятие решений. М.: ИСА РАН, 2010. - №2. - С. 36-41.

113. Тарасов, С.Д. Автоматическое составление обзорных рефератов Текст. / С.Д. Тарасов // Информационные и автоматизированные системы: Юбилейный сборник трудов кафедры «Информационные системы и компьютерные технологии». -СПб.: БГТУ, 2008. С. 95-98.

114. Manifold Ranking на основе метрики автоматической оценки качества обзорного реферирования ROUGE-RUS Текст. / С.Д. Тарасов // Труды XI Всероссийской научной конференции Электронные библиотеки. Перспективные методы и технологии,iка. М. Школа-Пресс, 1996

115. Тревгода, С.А. Технология автоматического реферирования технического текста Текст. / О.Ю. Сабинин, С. А. Тревгода // Известия СПбГЭТУ «ЛЭТИ». -2008.- № 7. -С. 25-34.

116. Тункель, В. Д. К вопросу об устной передаче речевого сообщения ¡ Текст. / В. Д. Тункель // Автореферат диссертации на соискание ученой степеникандидата филологических наук. — М., 1964. —20с.

117. Тураева, З.Я. Лингвистика текста. Текст. / З.Я. Тураева // М.: ПРОСВЕЩЕНИЕ, 1986. 128 с.

118. Хан, У. Системы автоматического реферирования // У. Хан, И. Мани // ' Открытые системы. (http://www.osp.ru/os/2000/12/067.htm).

119. Хэллидей, М.А.К. Когезия в английском языке. Текст. / М.А.К. Хэл-лидей, Р. Хасан // Исследования по теории текста: реферативный сборник. М., 1979. -С. 108-115.

120. Щавелев, Л. В. Способы аналитической обработки данных для поддерж-< ки принятия решений Электронный ресурс. / Л. В. Щавелев // Системы управлениябазами данных. 1998 № 04-05. (http://www2.osp.ru/dbms/1998/04-05/03.htm)

121. Щеглов, С. Н. Современные Технологии Построения Систем Поддержки Принятия Решений Текст. / С. Н. Щеглов // Известия Южного федерального «университета. Технические науки. 2008 № 4. С. 106-111.

122. Шемакин, Ю. И. Тезаурус в автоматизированных системах управления и информации Текст. / Ю. И. Шемакин // М: Военное изд-во министерства обороны СССР, 1974.- 192 с.

123. Юганов В. И. К вопросу об актуальном членении текста Текст. / В. И. Юганов // Предложение и текст в семантическом аспекте. Межвуз. темат. сб. под ред. С.А.Сусов. Калинин, изд-во КГУ, 1978. - С. 154-160.

124. Яцко, В.А. Симметричное реферирование: теоретические основы и методика Текст. / В.А. Яцко // НТИ. Сер. 2. 2002. - №5. - С. 18-28.

125. Allan, J. Introduction to topic detection and tracking. Текст. / J.Allan,// Event-based Information Organization, Kluwer Academic Publishers, Boston, 2002. -С. 116.

126. Barzilay M., Elhadad R. Using lexical chains for text summarization Текст. / M. Barzilay, R. Elhadad // In Proceedings of the ACL/EACL-97 Workshop on Intelligent Scalable Text Summarization. Madrid, Spain, 1997. - C. 10-17.

127. Barzilay, R., Elhadad, N., McKeown, K. R. Inferring strategies for sentence ordering in multidocument news summarization. Текст. / R. Barzilay, T. Elhadad, K. R. McKeown // Journal of Artificial Intelligence Research, 17, 2002. C. 35-55.

128. Boguraev, В., Kennedy, С. Salience-based Content Characterization of Text Documents. Текст. / В. Boguraev, С. Kennedy // In Mani, I., and Maybury, M., eds., Proceedings of the ACL/EACL, 1997. C. 2-9.

129. Borko, H. Abstracting concepts and methods Текст. / H. Borko, C. L. Bernier // New-York: Academic Press, 1970. - 250 c.

130. Brandow, R., Mitze, K., Rau, L.F. Automatic Condensation of Electronic Publications by Sentence Selection. Текст. / R. Brandow, K. Mitze, and L. F. Rau. // Information Processing & Management, 31(5), 1995. C. 675-685.

131. Braun, R. K., Kaneshiro, R. Exploiting Topic Pragmatics For New Event Detection In TDT-2004. Текст. / R. K. Braun, R. Kaneshiro // DARPA Topic Detection and Tracking Workshop, Gaithersburg, 2004. C. 189-192.

132. Brin, S., Page, L. The anatomy of a large scale hypertextual web search engine Текст. / S. Brin, L. Page // In Proc. 7th International World Wide Web Conf., 1998.

133. Brunn, M., Chali, Y., Pinchak, C. J. Text summarization using lexical chains. Текст. / M. Brunn, Y. Chali, C. J. Pinchak. // In Proceedings of DUC2001 Conference, New Orleans, Louisiana, USA, 2001. C. 135-140.

134. Carbonell, J. G., Goldstein, J. The use of MMR, diversity based reranking for reordering documents and producing summaries. Текст. / J. G. Carbonell, J. Goldstein // In Research and Development in Information Retrieval, 1998. — C. 335-336.

135. Connel, M., Feng, A., Kumaran, G., Raghavan, H., Shah, C., Allan, J. Umass at TDT2004. Текст. / M. Connel, A. Feng, G. Kumaran, H. Raghavan, C. Shah, J. Allan. //

136. Proc. DARPA Topic Detection and Tracking Workshop Report, Gaithersburg, December 2004.

137. Conroy J.M., O'leary D.P., Text summarization via hidden Markov models, Proceedings of the 24th annual international ACM SIGIR conference on Research and development in.information retrieval, p.406-407, 2001.

138. Corston-Oliver, S. Computing Representations of the Structure of Written Discourse Текст. / S. Corston-Oliver // Ph.D. dissertation. University of California, Santa Barbara, U.S.A.

139. Danes, F. Cognition and emotion in discourse interaction Текст. / F. Danes // XIV International Congress of Linguistics: Preprints of the Plenary Session Papers. Berlin, 1987. - C. 272-291.

140. Dijk, T.A. van. Semantic Macro-Structures and Knowledge Frames in Discourse Comprehension. Текст. / T.A. van Dijk // Cognitive Processes in Comprehension, M.A. Just and P.A. Carpenter, eds., Lawrence Erlbaum, Hillsdale, N.J., 1977, C. 3-32.

141. Dobzynska, T. Tekst. Proba syntezy Текст. / Т. Dobzynska //- Warszawa, 1983, C. 24-56.

142. Edmundson, H.P. New Methods in Automatic Extracting. Текст. / H.P. Edmundson. // Journal of the Association for Computing Machinery, 16(2), April 1969. C. 264-285.

143. Evans, D.K., Klavans, J.L., McKeown, K.R. Columbia Newsblaster: Multilingual News Summarization on the Web. Текст. / D.K. Evans, J.L. Klavans, K.R. McKeown // In Proceedings of NAACL/HLT, 2004. C. 1-4.

144. Glaser, B. G., Strauss, A. L. The discovery of grounded theory; strategies for qualitative research. Текст. / В. G. Glaser, A. L. Strauss // Aldine de Gruyter, New York, 1967.-271 c.

145. Grimes J.E. The Thread of Discourse. Текст. / J.E. Grimes // The Hauge, Paris: Moution. 1975. - 346 c.

146. Grosz B.J., Sidner C.L. Attention, intentions, and structure of discourse Текст. / B.J. Grosz, C.L. Sidner // Computational Linguistics. 1986 - №12 - C. 203226.

147. Haliday A.K., Hasan R. Cohesion in English. Текст. / A.K. Haliday, R. Hasan // England, Londin: Longman. 1976. - 221 c.

148. Hearst, M. TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages. Текст. / M. Hearst // Computational Linguistics , 23 (1), 1997. C. 33-64.

149. Hirao Т., Isozaki H., Maeda E., Matsumoto Y. Extracting Important Sentences with Support Vector Machines. // In Proc. of the 19th International Conference on Computational Linguistics, vol. 1. 2002. - C. 1-7.

150. Hobbs J.R. Summaries from structure Текст. / J.R. Hobbs // In Working Notes of the Dagstuhl Seminar on Summarizing Text for Intelligent Communication Dagstuhl, Germany. - 1993. - C. 13-17.

151. Hobbs J.R. On the relation between informational and intentional perspectives on discourse Текст. / J.R. Hobbs // Computational and Conversational Discourse. Burning rssues An Interdisciplinary Account - Heidelberg,- Germany. - 1996. - C. 139-157.

152. Hovy E.H. Planning coherent multisententional text Текст. / E.H. Hovy // In Proceedings of the 26th Annual Meeting of the Association for Computational Linguistics -Buffalo, New-York. 1988. - C. 163-169.

153. Hovy, E., Lin, C-Y. Automated Text Summarization in SUMMARIST. Текст. / E. Hovy, C-Y. Lin. // In I. Mani and M.T. Maybury, editors, Advances in Automatic Text Summarization. The MIT Press, 1999. C. 81-94.

154. Hutchins, J. Summarization: Some Problems and Methods. / J. Hutchins // Proc. Informatics 9: Meaning The Frontier of Informatics, K.P. Jones, ed., Aslib, London, 1987, -C. 151-173.

155. Hutchins, J. The first public demonstration of machine translation: the Georgetown-IBM system, 7th January 1954. Электронный ресурс. / J. Hutchins // Paper presented at the AMTA Conference. Режим доступа: http://www.hutchinsweb.me.uk/GU-IBM-2005.pdf

156. Iatsko V. Linguistic Aspects of Summarization. Текст. / V. Iatsko // In Philologie im Netz. Вып. 18. - 2001. - С. 33-46. (http://www.fu-berlin.de/phin/phinl8/pl8t3.htm).

157. Jang, D., Myaeng, S.H. Development of a document summarization system for effective information services. Текст. / D. Jang, S.H. Myaeng // In RIAO-97 Computer-Assisted Information Searching on Internet, 25th-27th June 1997. C. 101-111.

158. Lin, C.-Y. ROUGE: A Package for Automatic Evaluation of Summaries. Information Sciences Institute Текст. / C.-Y. Lin // University of Southern California. 2004.

159. Kleinberg, J. Authoritative sources in a hyperlinked environment Текст. / J. Kleinberg // Journal of the ACM 46 (5). C. 604-632.

160. Kolla, M., Tech, B. Automatic text summarization using lexical chains: algorithms and experiments. Текст. / M. Kolla, B. Tech // Jawaharlal Nehru Technological University, 2002. 80 c.

161. Kupiec, Т., Pedersen J., Chen F. A trainable document summarizer. Текст. / Т. Kupiec, J. Pedersen, F. Chen // In Proceedings of the 18th ACM/SIGIR Annual Conference on Research and Development in Information Retrieval, Seattle, WA, 1995. C. 6873.

162. Lehnert, W. G. Plot Units and Narrative Summarization. Текст. / W. G. Lehnert // Cognitive Science, (4), 1981. C. 293-331.

163. Luhn, H.P. The automatic creation of literature abstracts. Текст. H.P. Luhn// IBM Journal of Research and Development Вып. 2. - 1958. - С. 159-165.

164. Mani, I., Bloedorn, E. Summarizing similarities and differences among related documents. Текст. / I. Mani, E. Bloedorn // Information Retrieval, 1(1), 1999. C. 3567.

165. Mani, I. Automatic summarization (Natural Language Processing) Текст. / I. Mani //John Benjamins Publishing Company, 2001. 285 c.

166. Mani, I., Maybury M. T. Advances in automatic text summarization Текст. /1. Mani, M. T. Maybury // The MIT Press, 1999. 434 c.

167. Mann W.C., Thompson S.A. Rhetorical structure theory: Toward a functional theory of text organization Текст. / W.C. Mann, S.A. Thompson // Text № 8(3). - 1988. -C. 243-281.

168. Marcu D. Discourse trees are good indicators of importance in text Текст. / D. Marcu // Advances in automatic text summarization Cambridge, The MIT Press. -1999. - C. 123 - 136.

169. Maybury, M.T. Generating summaries from event data. Текст. / M.T. Maybury // Information Processing & Management, 31(5), 1995. C. 735-751.

170. McKeown, K. R., Robin, J., Kukich, K. Generating concise natural language summaries. Текст. / К. R. McKeown, J. Robin, K. Kukich // Information Processing & Management, 31(5), 1995. C. 702-733.

171. McKeown, K. R., Barzilay, R. Tracking and summarizing news on a daily basis with Columbia's NewsBlaster Текст. / К. R. McKeown, R. Barzilay , D. Evans, V. Hatzivassiloglou, J. L. Klavans, A. Nenkova, C. Sable, B. Schiffman, S. Sigelman // In

172. Proceedings of Human Language Technology Conference (HLT 2002), (San Diego, CA, Mar. 2002).194: Maizell, R.E. Abstracting scientific and technical literature Текст. / R. E. Maizell // New-York: Willey, 1971. - 297 c.

173. Miller, K. Five papers on WordNet CSL Report 43 Текст. / G, R. Beckwith, С. Fellbaum, D. Gross, К. Miller // Cognitive Science Laboratory, Princeton'University, Princeton, NJ.

174. Morris, J., Hirst, G. Lexical cohesion computed by thesaural relations as an indicator of the structure of a text. Текст. / J. Morris, G. Hirst // Computational Linguistics, 17(1), 1991.-C. 21-48.

175. Nomoto, T., MatsumotoY. The diversity-based approach to open-domain text summarization. Текст. / T. Nomoto, Y.Matsumoto // In Information Processing & Management, 39, 2003. C. 363-389.

176. Ohbuchi, R., Shimizu, T. Ranking on semantic manifold for shape-based 3d model retrieval Текст. / R. Ohbuchi, T. Shimizu // In MIR' 08. 2008. - C. 411-418.

177. О'Neil, E.J., OT4eil, P.E., Weikum, G., An Optimality Proof of the LRU-K Page Replacement Algorithm, Journal of the ACM 46(1), 1999

178. PHP Morphy Электронный ресурс. // Режим доступа: http ://phpmorphy. sourcefo r ge.ne t/do ku wiki/

179. Polanyi L. The linguistic structure of discourse. Текст. L. Pôlanyi // Technical report CSLI-96-200, Center for study of language and information. Stanford, CA. -1996. - 45 c.

180. Pollock, J.J., Zamora, A. Automatic abstracting research at Chemical Abstracts Service. Текст. / J.J. Pollock, A. Zamora // Journal of Chemical Information and Computer Sciences, (15), 1975. C. 226-233.

181. Radev, D. R., Jing, H., Budzikowska, M. Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies. Текст.

182. D. R. Radev, H. Jing, M. Budzikowska // In ANLP/NAACL Workshop on Summarization, Seattle, WA, April 2000. C. 21-29.

183. Rijsbergen C. J. Information retrieval. Текст. / С. J. Rijsbergen. Butterworths, London. - 1979. - 325c.

184. Roweis, S. Т., Saul, L. K. Nonlinear dimensionality reduction by locally linear embedding Текст. / S. T. Roweis, L. K. Saul // Science, 290:2323.2326, 2000

185. Salton, G., Singhal, A., Mitra, M., Buckley, C. Automatic Text Structuring and Summarization. Текст. / G. Salton, A. Singhal, M. Mitra, C. Buckley // Information Processing &Management, 33(2), 1997. C. 193-207.

186. Salton, G., The SMART Retrieval System Experiment in Automatic Document Processing Текст. / G. Salton // Prentice-Hall, Englewood Cliffs, New Jersey (1971).

187. Segal, E. M. The role of interclausal connectives in narrative structuring. Текст. E. M. Segal // Discourse processes. 1991. - C. 27-54.

188. Silber, G., McCoy, K. Efficiently computed lexical chains as an intermediate representation for automatic text summarization //. Computational Linguistics. 2002. 28 (4). P.487-496.

189. Smith, К. E. Hypertext linking to the future Текст. / К. E. Smith // Online. - 1988. - Vol. 12, N 2. - C. 32 -40.

190. Spark-Jones. K. A Statistical Interpretation of Term Specificity and Its Application Текст. / К. Spark-Jones // In Retrieval Journal of Documentation, 1972.

191. Strzalkowski, Т., Stein, G. C., Wang, J., Wise, G.B. A robust practical text summarizer. Текст. / Т. Strzalkowski, G. C. Stein, J. Wang, G. B. Wise // In: Advances in Automatic Text Summarization, COLING-ACL, 1999. C. 137-154.

192. Tenenbaum, J. В., de Silva, V., Langford, J. C. Global geometric framework for nonlinear dimensionality reduction / J. B. Tenenbaum, V. de Silva, J. C. Langford // Science, 290:2319.2323, 2000.

193. Teufel, S., Moens, M. Argumentative classification of extracted sentences as a first step towards flexible abstracting. Текст. / S. Teufel, M. Moens // Mani, M. May-bury (eds), Advances in automatic text summarization, MIT, 1999. C. 155-171.

194. Teufel, S., Moens, M. Sentence Extraction and rhetorical classification for flexible abstracts. Текст. / S. Teufel, M. Moens // AAA! Spring Symposium on Intelligent Text summarization, 1998. C. 89-97.

195. The Matrix Template Library Электронный ресурс. // Режим доступа: http://www.osl.iu.edu/research/mtl/

196. Toffler, A. Third Wave. Текст. / A. Toffler // Bantam Boob. N.Y. -1991. -544 c.

197. Wan, X., Yang, J., Xiao, J. Manifold-Ranking Based Topic-Focused Multi-Document Summarization Электронный ресурс. / X. Wan, J. Yang, J. Xiao // DUC 2003. C. 2903-2908. http://www.ijcai.org/papers07/Papers/IJCAI07-467.pdf

198. Weil, B.H. Standards for writing abstracts Текст. / B.H.Weil // J. Amer. Soc. Inf. Sci. 1970. - Vol. 21, N 5. - P. 2784.

199. Yang, Ch. C., Wang, F. L. Fractal Summarization for Mobile Devices to Access Large Documents on the Web. Текст. / Ch. C. Yang, F. L. Wang, // In Proceedings of the WWW2003, Budapest, Hungary, 2003. C.134-139.

200. Zipf, G. K. Human behavior and the principle of least effort Текст. / G. K. Zipf//Wesley, Cambridge, MA, 1949.

201. Zhou, D. Ranking on data manifolds Текст. / D. Zhou, J. Weston, A. Gretton, O. Bousquet, B. Schlkopf// In Proceedings ofNIPS'2003.

202. Zhu, X., Guo, J., Cheng, X. Recommending Diverse and Relevant Queries with A Manifold Ranking Based Approach Текст. / X. Zhu, J. Guo, X. Cheng // Workshop on Query Representation and Understanding in the 33rd International ACM SIGIR Conference, 2010.