Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды

Кокорин, Павел Петрович

Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды

кандидата технических наук: Кокорин, Павел Петрович
город: Санкт-Петербург
год: 2010
специальность ВАК РФ: 05.13.11

Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды»

Автореферат диссертации по теме "Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды"

004608167

На правах рукописи

КОКОРИН Павел Петрович

ИССЛЕДОВАНИЕ И РАЗРАБОТКА ИНФОЛОГИЧЕСКОГО ПОДХОДА ДЛЯ ПОСТРОЕНИЯ ТЕМАТИЧЕСКИХ АНТОЛОГИЙ ПРИ МОНИТОРИНГЕ

ИНТЕРНЕТ-СРЕДЫ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

1 6 СЕН 2010

Санкт-Петербург 2010

004608167

Работа выполнена в Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН

Научный руководитель: доктор технических наук, профессор, заслуженный деятель

науки и техники РФ Александров Виктор Васильевич

Официальные оппоненты: доктор технических наук,

профессор Никифоров Вшстор Викеитьевич

кандидат технических наук,

доцент Савосин Сергей Валентинович

Ведущая организация: Санкт-Петербургский Государственный Политехнический Университет

Защита состоится «28» сентября 2010 г. в 13 часов 00 минут на заседании Диссертационного Совета Д.002.199.01 при Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН по адресу: 199178, Санкт-Петербург, В.О., 14-я линия, 39.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Санкт-Петербургского института информатики и автоматизации

РАН

Автореферат разослан «23» августа 2010 г.

Ученый секретарь

диссертационного совета Д.002Л 99.01 кандидат технических наук

Ронжин Андрей Леонидович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Информационные Интернет-технологии - инструмент управления знаниями. Однако основной ресурс знаний представляется в традиционной форме текстов, лингвистические законы которых ориентированы для удобства и адекватности их восприятия и понимания содержания человеком.

Существующие Интернет-технологии автоматизируют процесс накопления, распространения и обработки данных, представленных в различных текстовых форматах. Для анализа текстов рекламируются различные сервисные и интерфейсные компьютерные программы информационного поиска для осуществления интеллектуальных функций: самообразования («аутопедия», e-learning), аналитического исследования, составления аннотаций и рефератов, а также установления семантической, ассоциативной и понятийной эквивалентности текстов.

В действительности же известные информационно-поисковые системы и технологии (Web 3.0, Semantic Web и пр.) ориентированы лишь на те функциональные расширения, которые вытекают из возможностей Интернет и компьютерных технологий. Они в большей степени занимаются компьютерной обработкой документов, атрибутикой внешней стороны текстов, а не работают с семантическим содержанием текстов.

Понятия семантики и онтологии применительно к Web 3.0 и Semantic Web имеют отношение к сугубо утилитарным сервисным функциям компьютерной программной реализации- разметке текстов метками. Суть концепции Web 3.0 - дополнение текстовых данных (текстов) компьютерно-читаемой разметкой (метками). Концепция Web 3.0 описывает подход (Resource Description Framework, Web Ontology Language) и формат разметок, позволяющие автору текста снабдить документ специальной разметкой, упрощающей его компьютерную обработку.

Указанные системы принципиально не способны реализовать перечисленные выше интеллектуальные функции. Wikipedia - система накопления и поиска текстов по запросу не отвечает за достоверность информации и представления знаний. Возникшее понятие «корпуса текстов» вызывает хаотизацию построения словарей и глоссариев, так как глоссарий и тезаурус - язык тематического описания и кластеризации предметной области, основа интерфейсного понимания и однозначной семантико-смысловой интерпретации текстов.

предметной области является критерием адекватности и кластеризации тематического знания. Развитие проблемно-ориентированного (тематического) знания рассматривается как итерационный процесс интерпретации пользователем отклика системы («аутопедия») на запрос и поступающие данные (тексты)..

Анализ существующих исследований выявил крайне незначительное число готовых и апробированных методов и программ выявления семантико-смыслового содержания текстов. Причиной этого является отсутствие эффективных методов представления семантико-смыслового содержания текстовых данных в компьютере. Решение указанных задач, применительно к реализации аналитического мониторинга Интернет-среды, и составляет суть диссертационной работы.

Целью работы является разработка методов и программ итерационного формирования тематических антологий (топиков) и выявления их понятийных ядер. Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:

1. Анализ основных подходов к извлечению, представлению и обработке тематических знаний проблемно-ориентированных предметных областей.

2. Разработка итерационного процесса адаптивного формирования тематических антологий, основанного на инфологическом подходе.

3. Разработка метода структурной декомпозиции текстов тематических антологий на основе рейтинго-рангового распределения связей между словами и совокупностью слов.

4. Разработка алгоритма формирования понятийного ядра (иерархии онтологических понятий) тематических антологий.

5. Проектирование и разработка комплекса программ, реализующих указанные методы и алгоритмы.

Основные методы исследования. Для решения поставленных задач в работе используются методы компьютерной лингвистики, логистические методы, теория множеств, теория графов, реляционная алгебра. При разработке архитектуры программного комплекса применены объектно-ориентированный и компонентно-ориентированный подходы.

Положения, выносимые на защиту. На основе проведенных теоретических работ и их экспериментальной апробации на защиту выносятся следующие положения:

1. Адаптивный метод итерационного формирования тематических антологий.

2. Алгоритм преобразования текстов в нормальную форму и формат представления текста в этом виде.

3. Метод структурной декомпозиции текстов тематических антологий на основе рейтинго-рангового распределения связей между словами и совокупностью слов.

4. Формат компактного представления семантики тематических текстов в виде понятийной иерархии.

5. Алгоритм формирования понятийного ядра тематической антологии.

6. Архитектура и программная реализация программного комплекса итерационного формирования тематических антологий для аналитического мониторинга Интернет-среды.

Научная новизна предлагаемой диссертации состоит в следующем:

1. Предложен подход для тематической кластеризации текстов, выявления и выбора предметно-ориентированных антологий, являющийся развитием инфологического подхода, отличающийся от традиционных способов работы с текстами представлением текста в виде системы идентификаторов, а не синтаксических конструкций.

2. Предложен иерархический рангово-рейтшгговый метод выявления понятийного ядра, онтологического глоссария и тезауруса тематической совокупности текстов. Предложен и разработан формат TNF — представления текстов в нормализованном виде, сохраняющий семантику текстов. По сравнению с традиционным текстовым форматом содержит компрессированную семантическую основу документа (сообщения), а также сокращает сложность компьютерной обработки семантики текстов.

3. Разработаны алгоритмы и программы построения тезаурусов и глоссариев тематических текстов для выявления анахронизмов и диахронизмов терминологического и семантического окружения.

4. Разработан метод структурной декомпозиции текстов тематических антологий на основе иерархических уровней рангового распределения связок слов в нормализованном тексте. В отличие от методов, основанных на использовании семантических словарей, он позволяет производить декомпозицию текстов, содержащих большое количество новых терминов или узкоспециализированные тематические тексты.

5. Разработана архитектура и реализован программный комплекс итерационного формирования тематических антологий для аналитического мониторинга Интернет-среды, реализующий визуальный интерфейс для быстрого ознакомления пользователя с содержанием проблемно-ориентированных предметных областей, ассоциативный поиск, аннотирование текстов.

Обоснованность н достоверность научных положений, основных выводов и результатов диссертации обеспечиваются тщательным анализом состояния исследований в данной области на сегодняшний день. Корректность предложенных методов и алгоритмов подтверждается согласованностью результатов, полученных при практической реализации этих методов и алгоритмов, а также апробацией основных теоретических положений диссертации в печатных трудах и до ¡сладах на научных российских и международных научных конференциях.

Практическая ценность работы заключается в создании программной системы, реализующей теоретические результаты работы, которая может использоваться в системах самообразования, семантического поиска, тематической кластеризации и автоматического реферирования текстов, аналитического мониторинга и ранней понятийной идентификации возникающих тенденций в проблемно-ориентированных предметных областях, заданных антологическими текстами.

Предложенные в диссертационной работе подходы, методы и алгоритмы позволяют значительно повысить качество предоставляемых интеллектуальных функций тематической кластеризации, автоматического реферирования текстов, семантического поиска.

Реализация результатов работы. Представленные в работе методы и алгоритмы были реализованы в программном исполнении в виде объектно-ориентированной библиотеки классов на языке Java и других вспомогательных программ. Библиотека нашла применение в подсистеме обработки новостных сообщений поисковой системы VisualWorld.ru для ассоциативного поиска по новостям, тематической кластеризации сообщений в компактные новостные топики, визуализации семантического содержания топика, а также для построения глоссария и визуализации их скрытых связей на корпусе антологии. Результаты работы были использованы в рамках госконтракта с ЦИПБ РАН №14/08-07 НИР «Определение необходимого состава функциональных программных компонент автоматизированной системы учета музейных предметов (АС учета МПр) в рамках обеспечения безопасности хранения и использования культурных ценности в Российской Федерации», грантов РФФИ ОИТВС РАН, проектов СПбНЦ РАН, 2007-2010.

Апробация результатов работы. Научные результаты и основные положения работы представлялись на конференциях: Distributed Intelligent Systems and Technologies Workshop (Санкт-Петербург, 2009); Distributed Intelligent Systems and Technologies Workshop (Санкт-Петербург, 2008); XI Санкт-Петербургская международная конференция «Региональная информатика-2008» (Санкт-Петербург, 2008).

Публикации. Автором опубликовано по теме диссертации 9 печатных работ, среди них 6 работ в журналах из перечня ВАК.

Структура и объем диссертационной работы. Диссертация объемом 130 машинописных страниц содержит введение, 5 глав и заключение, список литературы (142 наименования), 33 рисунка, 3 таблицы и 2 приложения.

СОДЕРЖАНИЕ РАБОТЫ

Во введении содержится обоснование актуальности темы диссертационного исследования, сформулированы основные научные результаты, выносимые автором на защиту, а также практическая ценность полученных результатов. Приводится краткое содержание работы по главам.

В первой главе рассматривается современное состояние подходов к решению задачи семантической обработки текстов, представления и аналитической обработки проблемно-ориентированных антологических текстов.

Аналитический обзор существующих методов компьютерной лингвистики (системы АОТ, Mystem, МедиаЛингва и др.) показал, что подавляющее большинство этих методов есть попытка переноса «в компьютер» лингвистических методов, применяемых лингвистами и филологами для обработки текстов, т.е. основанных на прагматике, лексике и теории формирования языка.

Язык не статичен, происходит постоянное изменение лексики, фонетики и произношения. Очевидно, что компьютерные информационные системы, работающие в области автоматической обработки текстов (в том числе и поисковые системы), должны «понимать» структуру реальных текстов, написанных на естественном языке, а не идеализированную структуру языка, заданную с помощью грамматик и теорий языка.

Перечисленные специфические свойства русского языка заставляют отказаться от традиционных методов компьютерной лингвистики в пользу логистико-лингвистического подхода.

Популяризация понятия «корпуса» некоторого языка, как собрания текстов на данном языке, представленного в электронной форме и снабженного «разметкой», или «аннотацией», принципиально ограничивает аналитические возможности для выявления семантико-смысловых понятий. Собственно, наука о корпусах («корпусная лингвистика») - это наука о том, как сделать хорошую разметку корпуса. В прикладной области есть предпосылки использования корпусов. Корпус дает модель текста и позволяет проверить прикладные разработки по данному языку. Однако понятие «корпуса текстов» вызывает хаотизацию построения словарей и глоссариев, т.к. не учитывает семантико-смысловую составляющую текстов. Также остается вопрос смешения глоссариев различных тематических совокупностей.

Многие функции лексики, прагматики и грамматики, входящие в понятие «лингвистика», обычно ориентируются на специфические свойства вербального мышления человека. И, следовательно, текстуальный интерфейс при своей компьютерной реализации требует введения специфических логистико-лингвистических методов и операций. Можно сформулировать задачу диссертационного исследования, заключающуюся в исследовании и разработке логистико-лингвистического (семиологического) подхода к обработке текстов, который не использует специфических свойств лингвистического анализа (грамматика, синтаксис и прагматика текстов), а слова используются как некоторые метки (знаки, символы).

В главе также приводится обзор современных подходов понятийной визуализации семантического содержания текстов: системы Semantic Explorer, TopSOM, «Визуальный словарь», CLASITEX+, Wolfram|Alpha. Кроме того,

приводится описание системы VisualWorld.ru, как наиболее приблизившейся к классу инфологических систем.

На основе проведенного анализа сделаны выводы, что информационно-поисковые системы и технологии (Web 3.0, Semantic Web и пр.) ориентированы лишь на те функциональные расширения, которые вытекают из возможностей Интернет и компьютерных технологий. Они в большей степени занимаются компьютерной обработкой документов, атрибутикой внешней стороны текстов, но не ориентированы на семантический анализ содержания текстов. Понятия «семантики» и «онтологии» в технологаях Web 3,0 и Semantic Web имеют отношение лишь к сугубо утилитарным функциям компьютерной программной реализации - разметке текстов м етками. Рассмотренные системы принципиально не способны реализовать интеллектуальные функции: самообразования («аутопедия», e-leaniiing), аналитического исследования, тематической кластеризации (УДК, ISBN и др.), составления аннотаций и рефератов, а также установления ассоциативной и понятийной эквивалентности текстов.

В связи с этим в диссертации используется инфологический подход, основа которого состоит в итерационном процессе формирования тематических знаний посредством выявления тематических антологий (предметно-ориентированных корпусов текстов), выявление их тезаурусов и глоссариев, а также построение иерархий онтологических понятий и составление семантического окружения содержания выбранных текстов.

Во второй главе рассматриваются основы вербального мышления, эволюционной теории языка и возможности их компьютерной реализации в расширениях поискового интерфейса компьютерных информационно-поисковых систем.

Рассмотренные аспекты показали, что для семантико-смыслового познания необходимо актуализировать объектное содержание, т.е. обеспечивать когерентность предыдущих: знаний с текстуальным изложением -конгруэнтность между текстуальным анализом и предыдущим знанием. Отсюда следует необходимость выбора или выявления набора актуальных тематических антологий.

В главе показано возникновение потребности иерархического упорядочения слов и понятий в виде совокупности связанных слов.

Все вышеперечисленное позволяет сформулировать методы решения задачи построения интерфейсной коммуникационной функции представления текстовых данных в рамках их компьютерной реализации для визуального представления онтологических понятий в рамках интерфейса компьютерных информационно-поисковых систем.

В третьей главе для исследования методов и форм представления знаний проблемно-ориентированных предметных областей, построения тезаурусов и глоссариев рассматривается инфологический подход, который постулирует итеративный характер развития знаний как расширение понятийной

терминологии, интерпретации предварительных знаний на текущий момент времени, т.е. осуществление интерфейсной понятийной интерпретации.

При работе пользователя с информационной системой сразу возникает конфликт - несоответствие различных тезаурусов баз данных и знаний, формы их представления в информационно-поисковых системах с существующими знаниями пользователя.

Решение задачи возможно с помощью известного интерфейсного процесса выявления тематических словарей и построения глоссариев на основе рангово-рейтингового распределения параметрических оценок текста. Интерпретация и понимание рассматриваются как диалоговое сопоставление предшествующего общеупотребительного словаря с тематическим -профессиональным. Интерфейсная интерпретация, эквивалентность понятий обеспечивается через предшествующие уровни знания. Для интерфейсной интерпретации всегда необходимо найти общеупотребительный словарь. Задача состоит в том, чтобы общеупотребительный словарь кластеризовать на специфические тематические области.

В основе инфологического подхода, предложенного Лонгефорсом, лежит итерационный процесс формирования тематических знаний посредством формирования тематических антологий, выявления их тезаурусов и глоссариев, а также построением иерархий онтологических понятий и составлением семантического окружения содержания выбранных текстов.

где 3,+к - сформированные проблемно-ориентированные знания на момент времени Г + к, / - процесс интерпретации, В1+к - данные на момент времени 1 + к , 5, - проблемно-ориентированные знания на момент времени t (предварительные знания), Г - интервал времени предварительных знаний.

Развитие проблемно-ориентированного (тематического) знания рассматривается как итерационный процесс интерпретации пользователем отклика системы на запрос и поступающие данные (тексты).

Рисунок 1. Структура инфологической системы.

Под логистикой лингвистического анализа понимается то, что в предлагаемом подходе не используются специфические свойства лингвистического анализа: грамматика, синтаксис и прагматика текстов. Используется подсчет рангов слов как критерий оценки того, как часто и в каких соотношениях в предложениях текста употребляются те или иные слова и понятия, как понятия становятся обобщающими, как меняется динамика диахронизации тезауруса антологии и т. п.

Данные— постепенно формируемые рейтинго-ранговые распределения слов и понятий в антологических текстах и тезаурус.

Антология — сборник тематически ориентированных текстов.

Тезаурус - множество слов, пар слов, троек слов и т. д., данные об их рейтинго-ранговом распределении, получаемые на основе антологии.

Глоссарий — минимально достаточный понятийно-терминологический базис предметной области, в котором все элементы иерархически и ассоциативно связаны с другими терминами заданной предметной области.

Онтология - обобщающие терминологические понятия.

Под понятием аналитического мониторинга понимается итерационный процесс сопоставления глоссария предварительных знаний предметной области с глоссарием предметной области на настоящий момент времени ¡ + к . В результате сопоставления в текущем глоссарии предметной области выявляются новые появившиеся понятия, невыразимые в терминах глоссария предварительного знания (анахронизмы и диахронизмы терминологической базы). Изменения состава глоссария заданной предметной области является критерием актуальности и кластеризации тематического знания.

Документ <НТМ1> <1Ю> оос

РПГ

Иерархия понятий текста

Рисунок 2. Структурная схема предлагаемой инфологической системы.

Предлагаемый подход реализован в инфологической системе формирования предметных антологий, общая структурная схема которой показана на рис. 2. Входной поток документов, заданных в виде текстов,

проходя этапы нормализации текста и выявления иерархии понятий текста, используется для формирования предметных антологий. Под формированием антологии понимается отнесение текста к тематике антологии (тематическая кластеризация), выявление и обновление понятийного ядра антологии, на основе вновь поступающих текстов и их понятийных иерархий. Цикличность процесса состоит в том, что сформированная (обновленная) антология и её понятийное ядро используются па этап е структурной декомпозиции текстов для выявления терминов.

Испытания предлагаемого инфологического подхода проводились на следующих информационных источниках:

- Архивные системы (кластеризация научно-исследовательских тем).

- Новостные системы.

- Аннотационные системы (музейные системы, self-reference).

- Обучающие системы («аутопедия», e-learning).

Для эффективной компьютерной обработки указанных источников общим для них является потребность приведения текстов, представленных различными форматами документов, в некоторый нормализованный формат текста (TNF).

Под текстом в нормальной форме (TNF) понимается специализированный формат представления текста, который получается из простого текстового формата (ТХТ) путем приведения всех его слов в нормальную (базовую) форму и исключением из него малоинформативных слов (стоп-слова: союзы, предлоги, местоимения и т.д.).

Назовем буквой идентификатор b , являющийся фрагментом потока данных определенного размера, однозначно определяющий символ текста. Словом назовем идентификатор w , состоящий из последовательности символов, являющихся буквами. Символом конца предложения назовем элементы множества Sterm = {".","?","!"}.

Назовем предложением (синтаксическим) S множество слов {wi,w1,...wN }, синтаксически связанных друг с другом (находящихся в одном естественно-языковом предложении, заканчивающимся символом конца предложения из множества Sterm ).

Пусть имеется текст- множество синтаксически связанных упорядоченных идентификаторов, являющихся словами:

weW ей),

где w - слово, W - множество слов текста, а - множество допустимых слов в языке.

Для каждого слова из множества W производится нормализация морфологической формы с использованием функции т морфологического анализа:

m(w) = b,we Gw—> i е

где Gw — множество словоформ одного слова, b - нормальная (базовая) форма слова (именительный падеж единственного числа для имен существительных, первое лицо единственного числа настоящего времени для глаголов и т.д.).

Свойства функции морфологического разбора:

m(b) = b, Vw ¿С„-> m(w) = b,bi Gw

Тогда в результате нормализации текст будет содержать множество слов в нормальной форме, не включая множество стоп-слов:

Wn = {b\bi Wstop Л m(w) = b, w e (W \ Wstop)}, где Wstop — множество стоп-слов, Wn - множество нормализованных слов текста.

Алгоритм нормализации текстов использует внешний модуль морфологического анализа системы «АОТ», работающий на основе модели прикладного морфологического анализа без словаря. Текст в нормальной форме (TNF) используется в системе на всех этапах дальнейшей обработки текстов.

Под структурпой декомпозицией текста понимается преобразование текста из нормальной формы (TNF) в формат компактного компьютерного представления семантики текста, построения понятийного графа текста, выявления тезауруса и глоссария текста.

Понятийным графом текста назовем неориентированный граф, в узлах которого находятся понятия текста, а дугами обозначаются связи между понятиями текста. Вес дуги, соединяющей две вершины графа, определяет рейтинг соответствующей связи.

Понятийный граф текста формируется следующим образом. Пусть имеется текст в нормальной форме- множество синтаксически связанных упорядоченных идентификаторов, являющихся словами в нормальной форме. Нормализованный текст сегментируется на множество предложений. Далее из предложения выделяются отдельные слова, связки двоек и троек слов, определяемые в данной работе как элементы предложения.

Для элементов предложения (слов, двоек и троек слов) вводятся следующие отношения Rx, R2и Л3 соответственно по следующему правилу:

Д, = {(w,, w2 ) | е Wsent л w2 е Wsent л w, Ф w2 }, R2 ={(w1w2,w3)| w,, w2, w3 e Wsent лSeq(w,,vv2)л vv, Ф w2 Ф w3 }, R3 ={(w1vv2w3,w4) j wl,w2,w3,wA e Wsent л Seqiw^w^w^) л w, Ф w2 Ф w3 Ф w4 }, где w — слово нормализованного текста (we Wn), Wsent - множество слов предложения нормализованного текста (Wsent с:Wn) , Seq(wuwlywi) -последовательный порядок слов в предложении.

Для отношений строятся рейтинговые распределения связей элементов > и Ç• Т.е. считается, что между каждой связкой элементов,

встречающихся в одном предложении, имеется связь с рейтингом, равным

единице. Для каждой связи запускается счетчик, учитывающий, сколько раз связка элементов встречается в предложениях текста.

После подсчета рейтингов связей элементов формируется список слов, двоек слов и троек слов, и производится их ранжирование, т.е. упорядочение по убыванию рейтинга связи (рис. За).

Текст» нормальней форме

1 Подсчет слов, состав»*»«« тезауруса текста; сегментация »а «жтаконводав единицы, -подсчет рейтинга слев, с9яэок2-кмЗ-кс«а

1 | Слеши .

с:»я»;и ^ » спо»

1. ' Слово!') С«оао2 ;

2. ) Сввша* ]

3. <ловоЗ, {бпив "

Псадмагныв слома»

I "ГгаПЛ^пя," | (обметы, шабммм!

1 [Став« Слом? }-; |

2. | Овм1| : Спов»4 |-{ Сто1.| 3,1 СлоаоЭ ) I 'I Слмвб )

1.' СММ1.И Совм? ;1С*в«Ч

2.:спап1 Ц СнтЛ

3.Спаев) ) [ Слове ] [ Ьшов")

["Слсмг'X .см*»'! | С

■ СюмМ ] { Словив"]

а) б)

Рисунок 3. Структурная декомпозиция текстов: а) подсчет рангов слов и совокупностей слов, б) формирование иерархии понятий текста.

Полученные списки слов, двоек слов и троек слов текста используются для выявления понятий, соответствующих предметной области, с использованием тезауруса и предметных словарей (рис. 36).

ЕЗННШЗ

шшш

м л а 1

а) б)

Рисунок 4. Примеры понятийных графов текста.

Заключительным этапом осуществляется построение понятийной иерархии текста как неориентированного взвешенного графа понятий текста, узлы которого являются понятиями, а дуги - связями между понятиями (рис. 4). Вес дуги обозначает рейтинг соответствующей связи между понятиями.

Далее формируется понятийное ядро предметной антологии. Тематическим тоником назовем подмножество тематически близких текстов антологии. Для начального формирования топиков, выбирается некоторое количество интересующих пользователя антологических текстов, строятся их понятийные иерархии и формируется понятийное ядро топика.

Понятийное ядро топика строится путем слияния понятийных иерархий антологических текстов топика и представляет собой неориентированный взвешенный граф понятий, узлами которого являются понятия, а дугами - связи между этими понятиями с весами дуг, равными рейтингам соответствующих связей.

Сформированные тематические топики участвуют в процессе итеративного обновления, который заключается в тематической кластеризации поступающих текстов по топикам, обновлении антологии топика и его понятийного ядра.

По завершении очередной итерации процесса обновления топика возможна ситуация, когда тематическое ядро имеет несколько связанных компонент в графе понятий. Это свидетельствует о необходимости разделения топика на два независимых топика с ядрами, соответствующими компонентам связанности исходного графа (рис. 5).

. [гёд .4...........................

"^■-"/1 I I-...

. ' I I nCDOL.rU I

Рисунок 5. Пример понятийного ядра топика с выявленными компонентами связанности графа понятий.

Тематическая кластеризация текстов основана на метрике тематической близости текстов. В качестве метрики в настоящей работе исследовались следующие методы:

- сравнение вершин понятийных графов текстов- подсчитывается количество совпадений вершин в понятийных графах текстов;

- сравнение вершин и дуг понятийных графов текстов -подсчитывается количество совпадений дуг в понятийных графах текстов;

- сравнение графов понятий текстов с использованием специализированных предметных словарей - вычисляется разница длин соответствующих путей в понятийных графах текстов от семантически значимых узлов до всех остальных узлов графа, которые выбираются с помощью предметных словарей.

Для тематической кластеризации новостных сообщений в работе исследовались три метода кластеризации:

- иерархическая кластеризация методом ближнего соседа;

- эвристический графовый метод выделения связных компонент;

— эвристический графовый метод кратчайшего незамкнутого пути

(минимальное покрывающее дерево графа).

Вершинами графа являются новостные сообщения, а ребрами — попарные значения метрики тематической близости текстов = (мера

тематической близости текстов).

На основе проведенных испытаний указанных методов был выбран графовый метод выделения связных компонент, обладающий достаточной точностью и невысокой вычислительной сложностью.

Интерфейс визуализации понятийных ядер предметных топиков позволяет представлять терминологическое содержание тематических топиков в виде визуального графа («паутины», семантического облака). Дополнение системы интерактивным визуальным интерфейсом позволяет создать интерактивную среду для быстрого ознакомления с тематикой топика. Пользователь, обладая таким инструментом, в самом грубом приближении «видит» проблематику в целом. На самом верхнем уровне понятийной иерархии (рис.4) будут находиться наиболее значимые для данного топика термины и понятия, связанные ассоциативными связями.

Четвертая глава посвящена анализу прикладных возможностей предлагаемого подхода. Приводится описание разработки программной системы и применение ее в различных областях.

Предлагаемый подход испытывался для задачи кластеризации научно-исследовательских тем, которая заключается в кластеризации потока научных публикаций по тематическим областям (научным направлениям), представленных основополагающими трудами (антологиями). Так, для кадастра научных исследований актуальна задача классификации поступающего потока работ (статей) по научным тематикам.

Кроме того, проводились исследования применимости предлагаемого подхода для создания аннотационных систем, в частности, музейных систем. Для музейных коллекций первичны тематические разделы, заданная каталогизация. Предлагаемый подход позволяет выделять понятийное ядро антологических текстов (каталожных описаний), его тезаурус и глоссарий. Тем самым появляется возможность построения аннотации полнотекстового описания, как форматного документа, содержащего уникальные идентификационные характеристики музейного предмета.

Разработанный подход, методы и алгоритмы нашли применение при создании систем обработки новостных сообщений. Специфика систем обработки новостных потоков - оперативная обработка больших потоков текстовых данных из множества источников в реальном масштабе времени. Новостные потоки обладают большой информационной избыточностью, множество новостей-дубликатов из различных источников, посвященных

одному событию, могут быть объединены в один тематический кластер-новостной топик.

Разработанная система реализует следующие интеллектуальные функции:

— Тематическая кластеризация входного потока новостей.

— Семантический поиск по новостным сообщениям.

— Выявление семантически зависимых новостных топиков.

— Визуализация понятийных ядер новостных топиков.

Система имеет модульную компонентную архитектуру, обеспечивающую платформо-независимость, возможность реконфигурирования и развертывания системы на различных конфигурациях серверов. Архитектура системы позволяет осуществлять гибкую настройку модулей (пространство имен Configuration), расширять перечень источников данных (DataSources), форматов поддерживаемых документов (DocumentParsers), осуществлять подключение внешней системы морфологии (Morphology), изменять способ хранения и доступ к базам данных системы (Datastorage). Кроме того, за счет расширения функциональности ядра (Core, News) возможна легкая адаптация системы для применения в других областях (научные ресурсы, музеи, архивы и др.). Взаимодействие с пользователем реализовано на основе Web-интерфейса.

Рисунок 6. Диаграмма компонентов системы обработки новостей.

Компонент Documentlndexer с помощью модуля источника данных (HTTPDataSource) производит циклическую загрузку новостных лент в форматах RSS (Atom) из известных системе Интернет-источников (информационных агентств). Далее классом RSSFeedParser производится сегментация входного потока новостей на отдельные новостные сообщения (RSSItems), выделяются атрибуты новостных сообщений (служебная информация). С помощью класса HTTPDataSource загружается полнотекстовая версия новостного сообщения (HTML) по URL-ссылке из

RSSItem. Класс HTMLDocParser производит разбор HTML-страницы новости, из которой извлекается текст новости в простом текстовом формате (ТХТ).

HTTPData Source

-а

RSSDocParser

HTMLDocParser

roataSources

IDocumentPa rse г

TextNormaiizer

-О-

IMorphology

MorphAOT

Documentlndexer

TextStructure Decomposer

RSSFeedParser

.......V-

DocumentStorageManager

Рисунок 7. Диаграмма композитной структуры компонента Documentlndexer.

Полученный текст преобразуется в формат TNF с помощью класса TextNormaJizer и модуля MorphAOT. После чего проводится структурная декомпозиция текста TNF (TextStructureDecomposer): выделяются двойки, тройки связанных слов, понятийный граф текста. Класс DocumentStorageManager предназначен для сохранения в базе данных системы результатов обработки текста новостного сообщения (текст TNF, тезаурус, понятийный граф, служебная информация), которые используются в дальнейшем для кластеризации и классификации новостей.

Рисунок 8. Диаграмма композитной структуры компонента^чУБОа^йег.

Тематическая кластеризация новостных сообщений осуществляется классом №\у$С1из1егег с использованием метрик тематической близости текстов (Тех1№агпе55Меа5игег). Полученные новостные топики сохраняются в базе данных системы (Оосите^З^гайеМападег) и используются для классификации вновь поступающих новостных сообщений методом к -ближайших соседей. Для этого используется класс №\¥8С1аз81Пег, реализующий указанный метод при к = 5. Для обновления понятийного ядра новостного топика применяется класс ^^УвТорк^НопСогеМе^ег, реализующий соответствующий метод. Время «устаревания» новостного топика составляет 14 дней, после чего топик более не участвует в классификации. Подробное описание методов оценки тематической близости

текстов, кластеризации и обновления понятийного ядра топиков приводится в главе 3.

DocumentSearcher NewsSearcher

IDocumei tSearcher

NewsVizuallzer

NewsSearcherMa nager

Рисунок 9. Диаграмма композитной структуры компонента NewsSearcher.

Семантический поиск новостей, выявление зависимостей и визуализация реализованы в компоненте NewsSearcher. Класс NewsSearcher расширяет базовую функциональность модуля поиска документов DocumentSearcher, обеспечивая семантический поиск новостей, новостных топиков в заданном промежутке времени, а также поиск семантически близких новостей и новостных топиков. Класс NewsVizualizer подготавливает данные результатов поиска в формате XML для последующей трансформации (XSLT) и представления в пользовательском интерфейсе (HTML).

Userinterface

I ConflgUI-JSPjar

I WebUI-JSPJar

Web-server (resin)

IModul ¡Control IDocumentSearcher

Documentlndexer.Jar

I NewsClassffierjar

I DocumentSearcher.jar _

News

€

NewsSearcher.jar

Рисунок 10. Диаграмма компонентов областей имен Core, Userlnterface и News.

Пространство имен Userlnterface содержит классы моделей, контроллеров и представлений для реализации интерфейса пользователя. Система поддерживает интерфейс поиска (WebUI-JSP) и интерфейс конфигурирования (ConfigUI-JSP), который обеспечивает настройку основных компонентов системы.

В пятой главе проводится оценка эффективности предложенных методов, приводятся результаты проведенных испытаний.

Для испытания системы использован тестовый набор данных на основе новостных ленты (RSS Feeds). Параметры набора тестовых данных сведены в таблицу 1.

Таблица 1 - Параметры тестового набора данных.

Обработано новостных лент 41

Временной период 11.01.2010-24.05.2010

Обработанных новостных сообщений 13 046

Объем обработанных текстов 106 893 375 байт

Количество слов в текстах 11 227 614

Количество слов в нормализированных текстах 1 951 886

Испытания метрик тематической близости текстов и методов первичной кластеризации осуществлялись на множестве новостных сообщений из указанных источников за одни сутки (783 сообщения).

На рисунках 11, 12 и 13 приведены графики зависимости количества кластеров от порогового значения параметра кластеризации Л для методов кластеризации и метрик тематической близости текстов, описанных в главе 3. 800 --------:--

Ш О

о.

0) &

га

ш &

0) ■х

с; о

Ближайший сосед

-■-Граф: метод связанных компонет

Граф: минимальный незамкнутый путь_

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Рисунок 11. График зависимости количества кластеров от порогового значения параметра Я для метрики сравнения вершин понятийных графов текстов.

ю о а

о £0

ш у

х с о ы.

Граф: метод связанных компонет

Граф: минимальный неэамкнутыйпугь

О 0,1 0.2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Рисунок 12. График зависимости количества кластеров от порогового значения параметра Я дня метрики сравнения вершин и дуг понятийных графов текстов.

О 700

о.

и 500

^ 400 т

о !

Ш 300 «

ё 200

-л-Граф: минимальный ........незамкнутый путь___

X 100

с;

о л—-----------------------------------—т—т—,------------,.....

О 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0.8 0.9

Рисунок 13. График зависимости количества кластеров от порогового значения параметра Я для метрики сравнения понятийных графов текстов с использованием предметных словарей.

Из графика на рисунке 12 видно, что метод сравнения вершин и дуг понятийных графов дал худший результат (зоны небольших внутриклассовых и больших межклассовых расстояний практически неразличимы). Это объясняется тем, что в методе не предусмотрено ограничение рейтингов связей графов, участвующих в сравнении. Из-за чего метод может давать отличный от нуля результат при совпадении связей с различными рейтингами, например при сравнении понятийных графов с большим количеством узлов и связей.

Напротив, метод оценки тематической близости текстов, основанный на сравнении понятийных графов с использованием словаря географических объектов и словаря персон, дает лучшее выделение зоны небольших внутриклассовых расстояний и зоны больших межклассовых расстояний (выраженная «ступенька» Ле[0.35;0.5] на рисунке 13). Это подтверждает то, что выделение семантических «центров» в графах понятий для сопоставления и последующего вычисления меры сходства графов является эффективным для оценки тематической близости текстов ново стных сообщений.

Анализируя результаты, можно сделать вывод, что метод кластеризации ближайшего соседа показал худшие результаты при испытаниях со всеми мерами близости текстов (рис. 11, 12, 13). Эвристические графовые методы выделения связных компонент и кратчайшего незамкнутого пути показали в испытаниях практически одинаковые результаты. Поэтому предпочтительно использовать эвристический метод выделения связных компонент в графе, как наименее ресурсоемкий из указанных двух.

Таким образом, по результатам испытаний были выбраны методы: для оценки тематической близости текстов- метод, основанный на сравнении графов понятий текстов с использованием специализированных предметных словарей (словарь географических объектов и словарь персон); для первичной кластеризации текстов - графовый метод связных компонент. Выбор параметра кластеризации Л и оценка качества кластеризации новостных сообщений оценивались экспертным методом. Для выбранного метода кластеризации параметр составил ^ = 0-42. Результаты оценки приведены в таблице 2.

Таблица 2 - Результаты оценки качества кластеризации.

Обработанных новостных сообщений 783

Количество кластеров 433

Верно кластеризованных текстов 578

Ошибочно кластеризованных текстов 205

Ошибочно разделенных кластеров 97

В приложении 1 и приложении 2 приводятся примеры и результаты работы предложенных алгоритмов.

ЗАКЛЮЧЕНИЕ

Совокупность разработанных в работе методов и программ, а также их практическая реализация представляют собой решение актуальной научно-технической задачи анализа семантико-смыслового содержания тематических антологий при мониторинге Интернет-среды, имеющей большое значение для развития информационных технологий в области интеллектуальной обработки текстов. При этом в ходе решения данной задачи были получены следующие результаты:

1. Проведен анализ современного состояния информационно-поисковых систем для решения задач анализа текстов и аналитического мониторинга Интернет-среды.

2. Предложен подход для тематической кластеризации текстов, выявления и выбора предметно-ориентированных антологий, являющийся развитием инфологического подхода.

3. Предложен иерархический рангово-рейтинговый метод выявления понятийного ядра, онтологического глоссария и тезауруса тематической совокупности текстов. Предложен и разработан формат TNF -представления текстов в нормализованном виде, сохраняющий семантику текстов.

4. Разработаны алгоритмы и программы построения тезаурусов и глоссариев тематических текстов для выявления анахронизмов и диахронизмов терминологического и семантического окружения.

5. Разработан метод структурной декомпозиции текстов тематических антологий на основе иерархических уровней рангового распределения связок слов в тексте.

6. Разработана архитектура и реализован программный комплекс итерационного формирования тематических антологий для аналитического мониторинга Интернет-среды, визуального интерфейса быстрого ознакомления пользователя с содержанием проблемно-ориентированных предметных областей, ассоциативного поиска, аннотирования текстов. Проведены экспериментальные исследования на следующих категориях текстов: новостные, аннотационные, научно-исследовательские.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. КокоринП. П., Колесников Р. А., Андреева Н. А., Фролов К. В., Боумедин Шаннаг, Кулешов С. В. О создании инфологических систем поддержки процесса «обучения через развлечение» (edutainment) — «Информационно-измерительные и управляющие системы», №11, т. 7, 2009. — С.42-^8. - (из перечня ВАК)

2. Кокорин П. П. Мифологическая система аналитического мониторинга научно-технических фондов библиотек. — «Информационно-измерительные и управляющие системы», №4, т. 7, 2009. — С. 11-15. -(из перечня ВАК)

3. Андреева Н. А., Кокорин П. П. Система построения понятийной иерархии для ассоциативного поиска по текстам. — «Информационно-измерительные и управляющие системы», №4, т.6, 2008. — С. 9-13. - (из перечня ВАК)

4. Кокорин П. П., Фролов К. В. Поиск и идентификация музыкальных произведений. — «Информационно-измерительные и управляющие системы», №4, т. 6,2008. — С. 28-32. - (из перечня ВАК)

5. КокоринП. П., Колесников Р. А. Селекция контекстных фрагментов в потоке данных. — «Информационно-измерительные и управляющие системы», №10, т. 6,2008. — С. 95-98. - (из перечня ВАК)

6. Кокорин П. П. Семиология и понятийная кластеризация для каталогизации текстов. — «Информационно-измерительные и управляющие системы», №10, т. 6,2008. — С. 62-66. - (из перечня ВАК)

7. Andreeva N., KokorinP., KuleshovS. VisualWorld.ru- the internet-educational resource. - Proceedings of the Distributed Intelligent Systems and Technologies Workshop, St. Petersburg, 2008, pp. 163-168.

8. AlexandrovV., AndreevaN., KokorinP., KolesnikovR., KuleshovS., Zaytseva A. Digital intelligent services based on the concept of programmed technology. - Proceedings of the Distributed Intelligent Systems and Technologies Workshop, St. Petersburg, 2009, pp. 71-75.

9. Александров В. В., Кулешов С. В., Кокорин П. П. Концепция построения информационно-логистических систем. // Системные проблемы надёжности, качества, математического моделирования, информационных и электронных технологий в инновационных проектах (Инноватика-2008). / Материалы Международной конференции и Российской научной школы. Часть 1.- М.: Энерго-атомиздат, 2008.— С. 21-23.

Типография «Восстания-!» 191036, Санкт-Петербург, Восстания, 1 Подписано в печать 17.08,2010 г. Формат 60x84 1/16. Тираж 100 экз.

Оглавление автор диссертации — кандидата технических наук Кокорин, Павел Петрович

Основные обозначения и сокращения.

Введение.

Положения, выносимые на защиту.

Глава 1. Аналитический обзор существующих методов построения информационно-поисковых систем.

1.1. Программы лингвистического анализа текстов.

1.2. Корпусная лингвистика.

1.3. Системы аналитической обработки текстов.

1.4. Современные подходы к понятийной визуализации семантического содержания текстов.

Выводы по главе 1.

Глава 2. Инфологический подход семантико-смыслового анализа текстов.

2.1. Логистико-лингвистический подход к обработке текстов.

2.2. Ассоциативно-понятийная идентификация.

2.3. Эволюционная эпистемология.

2.4. Смысл как составная часть проблемно-ориентированной среды.

2.5. Память и знание.

2.6. Контекстно-интерпретируемая семантика.

Выводы по главе 2.

Глава 3. Разработка инфологического подхода к аналитическому мониторингу проблемно-ориентированных предметных областей.

3.1. Преобразование формата документа.

3.2. Формат текста в нормальной форме.

3.3. Структурная декомпозиция текста.

3.4. Формат компьютерного представления семантики текста.

3.5. Метод формирования терминологических ядер предметных антологий.

3.6. Методы оценки тематической близости текстов.

3.7. Тематическая кластеризация текстов.

3.8. Визуально-динамический интерфейс представления понятийных ядер тематических топиков.

3.9 Аналитическое реферирование текстов.

3.10. Перспективные направления развития инфологических систем.

Выводы по главе 3.

Глава 4. Реализация системы аналитического мониторинга Интернет-среды.

4.1. Кластеризация тем научных исследований.

4.2. Аннотационные системы. Музейные системы.

4.3. Новостные системы.

Выводы по главе 4.

Глава 5. Экспериментальная апробация.

5.1. Испытания методов тематической кластеризации.

5.2. Испытания метода аналитического реферирования текстов.

Выводы по главе 5.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Кокорин, Павел Петрович

Информационные Интернет-технологии — инструмент управления знаниями. Однако основной ресурс знаний представляется в традиционной форме текстов, лингвистические законы которых ориентированы для удобства и адекватности их восприятия и понимания содержания человеком.

Понятия семантики и онтологии применительно к Web 3.0 и Semantic Web имеют отношение к сугубо утилитарным сервисным функциям компьютерной программной реализации - разметке текстов метками. Суть концепции Web 3.0 - дополнение текстовых данных (текстов) компьютерно-читаемой разметкой (метками). Концепция Web 3.0 описывает подход (Resource Description Framework, Web Ontology Language) и формат разметок, позволяющие автору текста снабдить документ специальной разметкой, упрощающей его компьютерную обработку.

Указанные системы принципиально не способны реализовать перечисленные выше интеллектуальные функции. Wikipedia - система накопления и поиска текстов по запросу — не отвечает за достоверность информации и представления знаний. Возникшее понятие «корпуса текстов» вызывает хаотизацию построения словарей и глоссариев, так как глоссарий и тезаурус — язык тематического описания и кластеризации предметной области -основа интерфейсного понимания и однозначной семантико-смысловой интерпретации текстов.

В данной диссертационной работе используется инфологический подход, основа которого состоит в итерационном процессе формирования тематических знаний посредством выявления тематических антологий (предметно-ориентированных корпусов текстов), выявления их тезаурусов и глоссариев, а также построения иерархий онтологических понятий и составления семантического окружения содержания выбранных текстов. Изменение словарного состава тезауруса и семантического окружения заданной предметной области является критерием адекватности и кластеризации тематического знания. Развитие проблемно-ориентированного (тематического) знания рассматривается как итерационный процесс интерпретации пользователем отклика системы («аутопедия») на запрос и поступающие данные (тексты).

Целью работы является разработка методов и программ итерационного формирования тематических антологий (топиков) и выявления их понятийных ядер. Для достижения указанной цели в диссертационной работе поставлены и решены следующие задачи:

5. Проектирование и разработка комплекса программ, реализующих указанные методы и алгоритмы.

Научная новизна предлагаемой диссертации состоит в следующем:

2. Предложен иерархический рангово-рейтинговый метод выявления понятийного ядра, онтологического глоссария и тезауруса тематической совокупности текстов. Предложен и разработан формат TNF для представления текстов в нормализованном виде, сохраняющем семантику текстов. По сравнению с традиционным текстовым форматом, содержит компрессированную семантическую основу документа (сообщения), а также сокращает сложность компьютерной обработки семантики текстов.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечиваются тщательным анализом состояния исследований в данной области на сегодняшний день. Корректность предложенных методов и алгоритмов подтверждается согласованностью результатов, полученных при практической реализации этих методов и алгоритмов, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на научных российских и международных научных конференциях.

Практическая ценность работы заключается в создании программной системы, реализующей теоретические результаты работы, которые могут использоваться в системах самообразования, семантического поиска, тематической кластеризации и автоматического реферирования текстов, аналитического мониторинга и ранней понятийной идентификации возникающих тенденций в проблемно-ориентированных предметных областях, заданных антологическими текстами.

Реализация результатов работы. Представленные в работе методы и алгоритмы были реализованы в программном исполнении в виде объектно-ориентированной библиотеки классов на языке Java и других вспомогательных программ. Библиотека нашла применение в подсистеме обработки новостных сообщений поисковой системы VisualWorld.ru для ассоциативного поиска по новостям, тематической кластеризации сообщений в компактные новостные топики, визуализации семантического содержания топика, а также для построения глоссария и визуализации их скрытых связей на корпусе антологии. Результаты работы были использованы в рамках госконтракта с ЦИПБ РАН №14/08-07 НИР «Определение необходимого состава функциональных программных компонент автоматизированной системы учета музейных предметов (АС учета МПр) в рамках обеспечения безопасности хранения и использования культурных ценностей в Российской Федерации», грантов РФФИ ОИТВС РАН, проектов СПбНЦ РАН, 2007-2010.

Заключение диссертация на тему "Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды"

Выводы по главе 5

Тестирование программной реализации разработанных методов и алгоритмов показало высокую работоспособность и корректность полученных результатов. Разработанные методы и алгоритмы позволяют автоматизировать процесс тематического реферирования и аннотирования.

Проведена экспериментальная апробация методов построения глоссариев предметных областей, ассоциативного поиска и аналитического реферирования на полнотекстовых версиях научно-технических материалов электронных фондов библиотеки академии наук (Санкт-Петербургский научный центр) и на архиве полнотекстовых электронных версий научных публикаций по астрофизике (<www.astronet.org>), которая подтверждает применимость и эффективность инфологического подхода в задачах аналитического мониторинга и кластеризации научных тем.

Апробация методов тематической кластеризации и классификации новостных сообщений показала применимость и эффективность предложенных методов оценки тематической близости новостных текстов; полученные при этом тематические топики (проблемно-ориентированные антологии) являются компактным представлением события, отраженного в новостных сообщениях, входящих в новостную тематику. Предложенный метод кластеризации позволяет группировать тематически близкие новостные сообщения в один компактный топик, сокращая при этом объем входных сообщений и повышая удобство использования информационной системы новостных лент. Алгоритмы выявления терминологического ядра топика и интерфейс визуализации терминологического ядра, топика дают эффективный инструмент для быстрого ознакомления с проблематикой топика.

Заключение

Совокупность разработанных в работе методов и программ, а также их практическая реализация представляют собой решение актуальной научно-технической задачи анализа семантико-смыслового содержания тематических антологий при мониторинге Интернет-среды, имеющей большое значение для развития информационных технологий в области интеллектуальной обработки текстов. В ходе решения данной задачи были получены следующие результаты:

1. Проведен анализ современного состояния информационно-поисковых систем для решения задач анализа текстов и аналитического мониторинга Интернет-среды с целью создания самообучающих систем типа «аутопедия», e-learning.

3. Предложен иерархический рангово-рейтинговый метод выявления понятийного ядра, онтологического глоссария и тезауруса тематической совокупности текстов. Предложен и разработан формат TNF - представления текстов в нормализованном виде, сохраняющий семантику текстов.

Программное обеспечение, разработанное в рамках диссертационной работы, нашло свое применение в проводимых в лаборатории автоматизации научных исследований СГШИРАН НИР в 2007-2010 годах в качестве модулей обработки текстовых данных в системах аналитического мониторинга.

В качестве направлений дальнейших исследований можно выделить:

- разработку автономного Internet-сервиса для формирования новостных потоков по заданной тематике;

- интеграцию методов обработки новостных потоков в универсальные поисковые системы.

Таким образом, диссертационное исследование выполнено в соответствии с положениями п.п. 3 и 5 областей исследований паспорта специальности 05.13.11.

Библиография Кокорин, Павел Петрович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Публикации соискателя

2. Кокорин 77. 77. Мифологическая система аналитического мониторинганаучно-технических фондов библиотек. — «Информационно-измерительные и управляющие системы», №4, т.7, 2009. — С. 11-15.

3. Андреева Н. А., Кокорин П. 77. Система построения понятийной иерархии для ассоциативного поиска по текстам. — «Информационно-измерительные и управляющие системы», №4, т.6, 2008. — С. 9-13.

4. Кокорин П. П., Фролов К. В. Поиск и идентификация музыкальных произведений. «Информационно-измерительные и управляющие системы», №4, т.6, 2008. — С. 28-32.

5. Кокорин 77. П., Колесников Р. А. Селекция контекстных фрагментов в потоке данных. — «Информационно-измерительные и управляющие системы», №10, т.6, 2008. — С. 95-98.

6. Кокорин П. П. Семиология и понятийная кластеризация для каталогизации текстов. — «Информационно-измерительные и управляющие системы», №10, т.6, 2008. —С. 62-66.

7. Апьхрейсат X., Кокорин П. П. Метод встраивания цифровых водяных знаков в звуковые файлы формата МРЗ.— «Известия вузов. Приборостроение», №10, т.50, 2007. — С.13-16.

8. Andreeva N., Kokorin P., Kuleshov S. VisualWorld.ru the internet-educational resource. - Proceedings of the Distributed Intelligent Systems and Technologies Workshop, St. Petersburg, 2008, pp. 163-168.

9. Агеев М. Некоторые способы определения географической привязки IP адресов // "Интернет-Математика-2005": семинар в рамках Всеросс. науч. конф. RCDL'2005. — М.: Яндекс, 2005. — С. 216-234.

10. Александров В. В. Интеллект и компьютер.— СПб.: Анатолия, 2004.— 285 с.

11. Александров В. В., Андреева Н. А., Кулешов С. В. Методы построения информационно-логистических систем. — СПб.: Анатолия, 2005. — 109 с.

12. Александров В. В., Арсентьева А. В. Информация и развивающиеся структуры. — Л.: ЛИИАН, 1984. — 182 с.

13. Александров В. В., Арсентьева А. В. Структурный анализ диалога.— Л.: ЛНИВЦ АН СССР, 1983. — 50 с.

14. Александров В. В., Кулешов С. В., Цветков О. В. Цифровая технология инфокоммуникации. Передача, хранение и семантический анализ текста, звука, видео. — СПб.: Наука, 2008. — 244 с.

15. Анил Хемраджани Гибкая разработка приложений на Java с помощью Spring, Hibernate и Eclipse. — М.: Вильяме, 2008. — 352 с.

16. Ахо А., Хопкофт Д., Ульман Д. Структуры данных и алгоритмы.— М.: Вильяме, 2009. — 400 с.

17. Басакер Р., Саати Т. Конечные графы и сети. — М.: Наука, 1974. — 368 с.

18. Беленький А. Текстомайнинг. Извлечение информации из неструктурированных текстов.— «КомпьютерПресс», 10'2008 (электронное издание) 20.11.2008. <http://www.compress.ru/article.aspx?id= 19605&iid=905#ll>.

19. Браславский П., Соколов Е. Автоматическое извлечение терминологии с использованием поисковых машин интернета // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2007. — М.: Изд-во РГГУ, 2007. — С. 89-94.

20. Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2006. — М.: Изд-во РГГУ, 2006. — С. 88-94.

21. Брасласвский П., Колычев И. eXtragon: экспериментальная система для автоматического реферирования веб-документов // Труды РОМИП-2005. — СПб.: 2005. — С. 40-53.

22. Буч Г. Объектно-ориентированный анализ и проектирование примерами приложений на С++. — М.: Бином, 2001. — 517 с.

23. Валиков А. Технология XSLT. — СПб.: ВНУ-СПб, 2001. — 544 с.

24. Гайдышев И. Анализ и обработка данных: специальный справочник. — СПб.: Питер, 2001. — 752 с.

25. Гамма Э., Хелм Р., Джонсон Р., Влиссидес Дэю. Приемы объектно-ориентированного проектирования. Паттерны проектирования.— СПб.: Питер, 2007.— 366 с.

26. Делез Ж. Логика смысла. — М.: Академия, 1995. — 298 с.

27. Доброе Б. Н., Лукашевич Н. В., Сыромятников С. В. Формирование базы терминологических свловосочетаний по текстам предметной области // Электронные библиотеки: Труды конференции RCDL'2003.— СПб.: 2003. —С. 201-210.

28. Дремайлов А. В. АДИТ и движение к организации Российской сети культурного наследия— Информационное общество, вып. 1, 2000.— С. 62-65. (электронный ресурс) <http://emag.iis.ru/arc/infosoc/emag.nsf/BPA/ 091ee08b76dbdf45c32569ae002e27da>.

29. Дунаев Е. В., Шелестов А. А. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой. // Интернет-математика 2005. Автоматическая обработка веб-данных. — М.: «Яндекс», 2005.

30. Дэвид Хантер, Джефф Рафтер XML. Базовый курс.— М.: Вильяме, 2009. — 1344 с.

31. Дэвис Э. Техногнозис: миф, магия и мистицизм в информационную эпоху. — М.: Ультра.Культура, 2008. — 480 с.

32. Капустин В. А., Ямсен А. А. Ранговая статистика встречаемости слов в большой текстовой коллекции // Электронные библиотеки: Труды конференции RCDL'2006. — Суздаль, Россия, 2006.

33. Карл Р. Поппер Эволюционная эпистемология. // «Эволюционная эпистемология и логика социальных наук: Карл Поппер и его критики». — М.: Эдиториал УРСС, 2000. — 464 с.

34. Кибрик А. А. Модус, жанр и другие параметры классификации дискурсов // Вопросы языкознания. — №2, 2009. — С. 3-20.

35. Кириченко К. М, Герасимов М. Б. Обзор методов кластеризации текстовых документов // Материалы международной конференции Диалог'2001, Таруса, 2001.

36. Кнут Д. Искусство программирования, том 3. Сортировка и поиск, 2-е издание. — М.: Вильяме, 2008. — 824 с.

37. Кормен Т. X. Алгоритмы: построение и анализ. — 2-е изд. — М.: Вильяме, 2006. — 1296 с.

38. Крижановский А. А. Автоматизированный поиск семантически близких слов на примере авиационной терминологии // Автоматизация в промышленности. — т. 4, 2008. — С. 16-20.

39. Кристофидес Н. Теория графов. Алгоритмический подход.— М.: Мир, 1978. —429 с.

40. Кузнецов Р. Ф. Извлечение значимой информации из web-страниц с использованием предложений. // Сборник тезисов постерных докладов восьмой всероссийской конференции RCDL'2006. — СПб.: НУ ЦСИ, 2006. — 274 с.

41. Кукушкина О. В., Поликарпов А. А., Хмелёв Д. В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. Вып.2, т.37, 2001. — С. 96-108.

42. Куратовский К., Мостовский А. Теория множеств / Под ред. Тайманова А. Д. — М.: Мир, 1970. — 416 с.

43. Лейбниц Г. Новые опыты о человеческом разумении автора системы предустановленной гармонии. Сочинения в 4-х томах, т.2. —- М.: Мысль, 1983. —686 с.

44. Милославский И. Г. Великий, могучий русский язык. — «Наука и жизнь», №6, 2009. (электронное издание) <http://www.nkj.ru/archive/articles/15881/>.

45. Народный рейтинг-плюс (элекстронный ресурс) <http://rating-plus.narod.ru/ politics.html>.

46. Опарин А. Системы мониторинга и анализа СМИ.— PCWeek, (413) 47'2003 (электронное издание) 16.12.2003. <http://www.pcweek.ru/themes/ detail.php?ID=66333>.

47. Плунгян В. А. Зачем мы делаем национальный корпус русского языка? — «Отечественные записки», №2, 2005. (электронное издание) <http:// www.strana-oz.ru^article^l 051 &numid=23>.

48. Плунгян В. А. Почему современная лингвистика должна быть лингвистикой корпусов.— Публичные лекции «Полит.ру», 23.10.2009. (электронное издание) < http://www.polit.ru/lectures/2009/10/23/corpus.html>.

49. Попов Э. В. Общение с ЭВМ на естественном языке. — М.: Наука, 1982. — 360 с.

50. Пресс-портреты по запросу: организация: «Россия» (электронный ресурс) <http://news.yandex.ru/yandsearch?rpt=pressp&company=Poccия>.

51. Ратушин Ю. А., Поленок С. П., Ткаченко С. Г. Онтология информационного общества в сети информационно-маркетинговыхцентров стран СНГ: организация электронного экономического взаимодействия. — Финансовые риски, 2008.

52. Реймонд Э. Искусство программирования для Unix. — М.: Вильяме, 2005. —544 с.

53. Сегалович И. В. Как работают поисковые системы // Мир Internet, №10, 2002. (электронный ресурс) <http://www.dialog-21.ru/directions/Segalovich vorprint.doc>.

54. Смит Б. Методы и алгоритмы вычислений на строках. Теоретические основы регулярных вычислений. — М.: Вильяме, 2006. — 496 с.

55. Сокирко А. В. Морфологические модули на сайте www.aot.ru // Материалы конференции «Диалог-2004». (электронный ресурс) <http://www.dialog-21 .ru/Archive/2004/Sokirko.htm>.

56. СолтонДж. Динамические библиотечно-информационные системы.— М.: Мир, 1979. —558 с.

57. Список городов (электронный ресурс) <http://ru.wikipedia.org/wiki/ < Списокгородов>.

58. СтрауструпБ. Язык программирования С++. Специальное издание.— СПб.: Бином, 2008. — 1104 с.

59. Ступин В. С. Система автоматического реферирования методом симметричного реферирования // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог'2004». («Верхневолжский», 2004 г.).— М.: Наука, 2004.— С. 579-591.

60. Телефонные коды городов и стран мира (электронный ресурс) <http://www.pkod.ru>.

61. ТойнбиА. Дж. Постижение истории: Пер. с англ. / Сост. Огурцов А. П.— М.: Прогресс, 1996. — 608 с.

62. Френкель А., Бар-Хиллел И. Основания теории множеств / Перевод с английского Гастева Ю. А. под редакцией Есенина-Вольпина А. С.— М.: Мир, 1966. —366 с.

63. Хан У., МаниИ. Системы автоматического реферирования // Открытые системы. №12, 2000. (электронный ресурс) <http://www.osp.ru/os/ 2000/12/067print.htm>.

64. Хмелев Д. Распознавание автора текста с использованием цепей Маркова // Вестник МГУ, сер.9: Филология. № 2, 2000. — С. 115-126.

65. Ходов A. Wolfram Alpha знает почти все. — Lenta.ru (электронное издание) 21.05.2009. <http://lenta.ru/articles/2009/05/19/wolfram/>

66. Хорстманн К., Корнелл Г. Java 2. Библиотека профессионала, том 2. Тонкости программирования, 8-е издание — М.: Вильяме, 2010. — 992 с.

67. Цимбал А. А., Ангиина М. Л. Технологии создания распределенных систем. Для профессионалов. — СПб.: Питер, 2003. — 576 с.

68. Эко У. Отсутствующая структура. Введение в семиологию.— СПб.: Симпозиум, 2006. — 544 с.

69. Эндрюс Г. Основы многопоточного, параллельного и распределенного программирования. — М.: Вильяме, 2003. — 512 с.

70. Якобсон Р. О. Речевая коммуникация. Язык в отношении к другим системам коммуникации. // Избранные работы.— М.: Прогресс, 1985.— 460 с.

71. Alexandrov V. V., Arsentyeva A. V. Dialogue structure. Part 2.-— Leningrad, 1984.

72. Alonso L., Castellon I., Climent S., Fuentes M., Padro L., Rodriguez И. Approaches to Text Summarization: Questions and Answers. In Revista Iberoamericana de Inteligencia Artificial, No. 20, pp. 34-52, 2003.

73. AmitayE. etal. Web-a-Where: Geotagging Web Content, SIGIR'2004.

74. Barzilay R., Michael Elhadad Using Lexical Chains for Text Summarization. In Proceedings of the Intelligent Scalable Text Summarization Workshop (ISTS'97), ACL Madrid, 1997.

75. Bjorn Lundell, Brian Lings Expressiveness within Enhanced Models: An Infological Perspective. In ER'97, 1997. Available online: <http://osm7.cs. byu.edu/ER97/workshop4/ll.html>.

76. Bras lavs ki P. Combining Relevance, Genre-Related Rankings: an Exploratory Study. In Proc. of the Workshop «Towards Genre-Enabled Search Engines: The Impact of NLP», 2007.

77. Braslavski P., Tselishchev A. Style-Dependent Document Ranking. RCDL'2005.

78. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Available online: <http://www.db.stanford.edu/pub/papers/google.pdf>.

79. Bubenko Janis jr. (1993) Extending the Scope of Information Modelling, Invited paper: 4th International Workshop on Deductive Approach to Information Systems and Databases, Lloret, Costa Brava, Sept. 20-22 1993.

80. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schiitze Introduction to Information Retrieval, Cambridge University Press, 496 pages, 2008.

81. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press, 2008.

82. Chuang Wang et al. Web Resource Geographic Location Classification and Detection, WWW2005.

83. Collins-Thompson К., CallanJ.P. A Language Modeling Approach to Predicting Reading Difficulty. HLT/NAACL'2004.

84. Ding J., Gravano L., Shivakumar N. Computing Geographical Scopes of Web Resources, VLDB2000.

85. Extensible Markup Language (XML) 1.0 (Fifth Edition). W3C Recommendation 26 November 2008. (электронный ресурс) <http://www.w3.org/TR/xml/>.

86. Frank E., Paynter G. W., Witten I. H., Gutwin C., Nevill-Manning C. G. Domain-specific keyphrase extraction. In Proc. of IJCAI-99, pages 668-673, 1999.

87. GeoNames <http://download.geonames.org/export/dump/>.

88. Hearst M. A. Automatic Acquisition of Hyponyms from Large Text Corpora // Proc. of the 14th International Conference on Computational Linguistics, Nantes, France, 1992.

89. Henzinger M. et al. Query-Free News Search, WWW2003, 1-10.

90. Iatsko V. (2001). Linguistic Aspects of Summarization. In Philologie im Netz, 18, 33-46. Available online: <http://www.fuberlin.de/phin/phinl8/pl8t3.htm>.

91. Jones R., Hassan A., Diaz F. Geographic Features in Web Search Retrieval. GIR'08.

92. Joshua Bloch Effective Java, 2nd Edition. Prentice Hall, 2008.

93. Langefors Borje (1973) Theoretical Analysis of Information Systems (4th ed.), Studentlitteratur, Lund, Sweden, AUERBACH Publishers Inc., Philadelphia.

94. Langefors Borje (1995) Essays on Infology: Summing up and Planning for the Future, Edited by Bo Dahlbom, Studentlitteratur, Lund.

95. Lars Backstrom, Jon Kleinberg, Ravi Kumar, Jasmine Novak. Spatial Variation in Search Engine Queries. WWW 2008.

96. Lim C. S. et al. Multiple sets of features for automatic genre classification of web documents. IPM, 2005.

97. LuhnH. The automatic creation of literature abstracts. In IBM Journal of Research and Development, Vol. 2(2), pp. 159-165, 1958.

98. Manning C.D., Schutze H. Foundations of Statistical Natural Language Processing. MIT Press, 2000.

99. Maslov M., Golovko A., Segalovich /., Bras lavs ki P. Extracting news-related queries from web query log. WWW '06, 931-932.

100. Meyer zu Eissen S., Stein B. Genre Classification of Web Pages: User Study and Feasibility Analysis. КГ2004.

101. Michael J. Welch, Junghoo Cho. Automatically Identifying Localizable Queries. SIGIR'08.

102. Nenkova A. Automatic Text Summarization of Newswire: Lessons Learned from the Document Understanding Conference. In Proc. of AAAI 2005, pp. 14361441.

103. Nomoto Т., Matsumoto Y. (2003). The diversity-based approach to open-domain text summarization. In Information Processing & Management, 39, 363-389.

104. Paul J. Perrone, Venkata S. R., R. Chaganti, Tom Schwenk J2EE Developer's Handbook. Sams, 2003.120 .PyallingA., Maslov M., Bras lavs ki P. Automatic geotagging of Russian web sites, WWW2006, 965-966.

105. R. Baeza-Yates, B. Ribeiro-Neto Modern Information Retrieval. Addison-Wesley, 1999.

106. Radev D. R., Jing H., Stys M., Tarn D. Centroidbased summarization of multiple documents. In Information Processing and Management, vol. 40, pp. 919-938, 2004.

107. Rauber A., Mueller-Koegler A. Integrating Automatic Genre Analysis into Digital Libraries. JCDL'2001.

108. Rehm G., Santini M., Mehler A., Bras lavs ki P., Gleim R., StubbeA., Symonenko S., Tavosanis M, Vidulin V. Towards a Reference Corpus of Web Genres for the Evaluation of Genre Identification Systems. LREC 2008.

109. Renaud Pawlak, Lionel Seinturier, Jean-Philippe Retaille Foundations of AOP for J2EE Development. Apress, 2005.

110. S. Beitzel et al. Automatic web query classification using labeled and unlabeled training data. SIGIR 2005 poster.

111. Santini M. State-of-the-Art on Automatic Genre Identification. Technical Report ITRI-04-03, Information Technology Research Institute, Univ. of Brighton, UK (2004).

112. Semantic Web — (элекстронный ресурс) <http://semanticweb.org>.

113. Si L., CallanJ. A Statistical Model for Scientific Readability. In: Proceedings of CIKM'2001, pp. 574—576 (2001).

114. Srinivas Vadrevu, Ya Zhang, Belle Tseng, Gordon Sun, Xin Li. Identifying Regional Sensitive Queries in Web Search. WWW 2008 poster.

115. StubbeA., Ringlstetter Ch., GoebelR. Elements of a Learning Interface for Genre Qualified Search. Proceedings of the Workshop «Towards Genre-Enabled Search Engines: The Impact of NLP», 2007.

116. The Extensible Stylesheet Language Family (XSL) (электронный ресурс) <http://www.w3 .org/Style/XSL/>.

117. Turney P. D. Learning to Extract Keyphrases from Text. National Research Council, Institute for Information Technology, Technical Report ERB-1057, 1999.

118. Turpin A. et al. Fast Generation of Result Snippets in Web Search, SIGIR 2007.

119. W3C Semantic Web Activity-— (электронный ресурс) <http://www.w3.org/ 2001/sw/>.

120. W3C Semantic Web Standard— (электронный ресурс) <http://www.w3.org/ standards/semanticweb/>.

121. WangJ., OardD. W. Combining Bidirectional Translation and Synonymy for Cross-Language Information Retrieval, SIGIR'06.

122. White R. W., JoseJ.M., Ruthvenl. A task-oriented study on the influencing effects of query-biased summarisation in web searching. In Information Processing & Management, 39, 707-733.

123. William Grosso Java RMI. O'Reilly Media, 2001. — 572 p.

124. World Wide Web Consortium — (электронный ресурс) <http://www.w3.org>

125. XML Schema specification (электронный ресурс) <http://www.w3.org/ XML/Schema>.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00