автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка и исследование модели нейросетевого метода анализа текстовых документов

кандидата технических наук
Шеменков, Павел Сергеевич
город
Санкт-Петербург
год
2009
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование модели нейросетевого метода анализа текстовых документов»

Автореферат диссертации по теме "Разработка и исследование модели нейросетевого метода анализа текстовых документов"

СЮ34ВО1В2

ШЕМЕНКОВ Павел Сергеевич

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МОДЕЛИ НЕЙРОСЕТЕВОГО МЕТОДА АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ

05.13.18 - Математическое моделирование, численные методы и комплексы программ

2 2 ОКТ ш

Автореферат диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2009

003480192

Работа выполнена в Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича

Научный руководитель:

Кандидат технических наук, профессор Макаров Леонид Михайлович

Официальные оппоненты:

Директор, главный конструктор ФГНУ

«НИКТИБТС»

д.т.н., профессор

Шаповалов Валентин Викторович

Генеральный директор ЗАО ДЕСМА к.т.н., доцент

Алипов Александр Николаевич

Ведущая организация:

НИИ промышленной и морской медицины Федерального управления медико-биологических и экстремальных проблем при Минздраве России

0V

часов на заседании

Защита состоится «12» ноября 2009 года в диссертационного совета Д 219.004.03 при Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича по адресу: 191186 Санкт-Петербург, наб. реки Мойки, 61.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича

Отзыв на автореферат в двух экземплярах, заверенных печатью учреждения, просим направлять по вышеуказанному адресу на имя ученого секретаря диссертационного совета

Автореферат разослан «8» октября 2009 г.

Ученый секретарь диссертационного совета кандидат технических наук, профессор

Л.М. Макаров

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность работы. Наиболее распространенной формой представления знаний являются естественно-языковые тексты. Текстовая форма знаний естественна для человека, такие знания легко воспринимаются, порождаются, тиражируются и модифицируются. Новые возможности позиционирования текстов, связанные с масштабным использованием компьютерной техники, а также доступность методов записи и хранения информации, привели к бурному росту количества информационных ресурсов. Необходимость изучения и осмысления все возрастающего объема неструктурированной текстовой информации на естественном языке актуализирует проблему анализа.

Теоретическое обоснование методов анализа рассмотрено в работах В.А. Ддова, Т.М. Дридзе, А.Р. Лурия, М. Шлика, Р. Карнапа, О. Нейрата Вышеупомянутые работы, в основном, посвящены рассмотрению смежных проблем анализа текстовых документов. Основным из направлений данной диссертационной работы рассматривается проблема кластеризации и систематизации текстовых документов информационного ресурса

Задача анализа текстовых документов ориентирована на извлечение знаний и является в настоящее время актуальной проблемой, затрагивающей различные сферы человеческой деятельности, поскольку ее решение позволит полностью автоматизировать процесс обработки, классификации и систематизации информационного ресурса Процесс аналитической обработки текстов требует создания принципиально новых моделей, методик и систем, которые следует отнести к разряду систем искусственного интеллекта - систем обработки знаний. Задача автоматического анализа естественных текстов, в определенной степени формируется при участии эксперта Надо отметить, что для экспертной оценки нет необходимости в построении модели естественного текста, реализующей глубинный семантический анализ текста. Одной из актуальных задач, решаемых экспертами, является определение отношений между объектами, которыми являются области знаний. Наиболее адекватно отношения между объектами представляются семантическими сетями. Традиционная интерпретация семантической сети позволяет получать только представление о структуре отношений между объектами, которой недостаточно для проведения полноценного аналитического исследования. Поэтому в работе предлагается расширение семантической сети для представления информации о классификации отношений между объектами и о принадлежности объектов к классам предметной области. В основе модели знаний находится семантическая сеть, узлы которой сопоставляются с областями знаний, а связи соответствуют отношениям между ними.

Цели и задачи исследования. Целью диссертационной работы является разработка и исследование модели нейросетевого метода автоматического анализа текстовых документов на естественном языке для формирования семантической базы знаний и повышения эффективности работы эксперта по знаниям. Для достижения поставленной цели последовательно решены следующие задачи исследования:

1) Рассмотрены известные модели и методы анализа документов;

2) Разработан алгоритм формирования информационных образов электронных текстовых документов, включающий механизм сокращения признаков, основанный на предложенном подходе к оценке тематической значимости признаков документов;

3) Разработан метод нейросетевого анализа коллекции текстовых документов, основанный на самоорганизующихся картах Кохонена;

4) Разработан метод самокоррекции системы путем автоматического вычисления внутренних показателей распределения;

5) Разработана структура информационно-аналитической системы (ИАС) автоматического анализа полнотекстовых документов, реализующей предложенные методы;

6) Реализован алгоритм представления результата анализа в виде семантической сети;

7) Осуществлено исследование разработанного алгоритма и проведена проверка предложенного метода анализа коллекций документов.

Объект и предмет исследования. Объектом исследования являются документы на естественном языке, как форма представления предметной области. Предметом исследования являются процессы автоматизированного выявления и формализации знаний, представленных в форме онтологии.

Методы исследования. В диссертационной работе использованы модели и методы искусственного интеллекта, лингвистики, математической статистики, кластерного анализа, теории множеств, метод экспертных оценок, теории информации, теории баз данных и программирования.

Обработка текстов, нейросетевое моделирование процессов, а также оценка качества извлечения знаний производились автором с помощью самостоятельно разработанной ИАС. При разработке ИАС применялись методы объектно-ориентированного программирования с использованием среды разработки Borland Delphi 7 Enterprise.

Научная новизна. Проведенные исследования позволили создать модель нейросетевого метода к содержательному анализу неструктурированных текстов на естественном языке для произвольных массивов документов без ограничений на тематику и объем при отсутствии априорной информации формализации их содержания.

Предложен подхода к решению задачи анализа текстовых документов, который состоит в использовании единой методологии, основанной на концептуальной модели

эксперта, для реализации всего цикла извлечения знаний, с возможностью интерактивного участия эксперта в процессе.

Предложен подход к оценке тематической близости документов с использованием метода сокращения пространства признаков, составляющих информационные образы, что позволило повысить качество и скорость выполнения анализа коллекции текстов.

Предложен метод кластерного анализа, включающий механизмы самокоррекции и саморегуляции в процессе построения онтологии предметной области.

Разработана структура ИАС «№игоТехЬ>, представляющая собой целостною интерактивную систему, состоящую из взаимосвязанных компонентов, позволяющих осуществлять построение онтологии коллекции документов.

Достоверность научных положений и выводов диссертационной работы подтверждена практической реализацией разработанных моделей и методов, а так же результатами проведенных экспериментов.

Практическая ценность работы. Предложенный подход к автоматическому анализу документов позволяет решить проблему содержательного анализа информации, как по всей коллекции документов, так и по ее подмножествам, отражающий семантические связи между областями знаний и позволяющий автоматически получать вербальные описаниями областей знаний. Практическим результатом применения метода извлечения структурных знаний из текстов на основе нейросетевой модели является разработка ИАС «ЫеигоТехЪ». ИАС включает три основных компонента: информационная часть, компонент импортирования данных (интегратор), модуль работы с искусственной нейронной сетью (ИНС). Информационная часть обеспечивает накопление, хранение и предоставление информации, и реализует интерфейс пользователя. Компонент импортирования данных обеспечивает импортирование накопившихся данных из базы данных в модуль работы с нейронной сетью. Компонентом реализуется подготовка данных для сети. Модуль работы с ИНС обеспечивает автоматическое построение нейронной сети на основе множества входных параметров решаемой задачи с соответствующими выходными состояниями, способной классифицировать поступающую информацию. В основу работы компонента положен алгоритм самоорганизации. Результатом работы компонента является граф - образ интеллектуальной модели решаемой задачи.

Граф - образ, дополненный семантическим набором отношений элементов, позиционирует модель знаний, что позволяет перейти на более высокий уровень представления информации (естественный для мышления человека), и одновременно с этим ввести качественные и количественные категории. В модели осуществляется извлечение ассоциаций подграфа семантической сети и формируется матрица отношений, отражающая

связь между элементами графа. Такой подход позволяет эксперту осуществлять сопоставление фрагмента семантической сети с естественными текстами, в которых встречается подобные отношения.

Сфера применения разработанной модели анализа текстовых документов обширна: информационно-поисковые системы, системы автоматической классификации, биб-лиотечно-справочные системы, поисковые роботы, системы обработки информации.

Апробации результатов и публикации. Основные положения и результаты работы были доложены автором и обсуждались в период с 2006 по 2009 годы на научно-технических конференциях профессорско-преподавательского состава, научных сотрудников и аспирантов ГУТ им. проф. М. А. Бонч-Бруевича: №59 2007г., №61 2009г., 2-ом международном конгрессе «Нейробиотелеком-2006», 3-ем международном научном конгрессе «Нейробиотелеком-2008».

Реализация результатов работы. Основные теоретические и практические результаты диссертационной работы использованы в госбюджетной научно-исследовательской работе «Нейросемаотический интерактивный анализатор информационного ресурса» /Санкт Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, 2009г., per. № 080-09-054/5/ Основные положения, выдвигаемые на защиту:

- Модель нейросетевого метода автоматического анализа коллекции полнотекстовых документов, отражающая деятельность эксперта по знаниям;

- Алгоритм выделения информативных признаков коллекции документов и формирования информационных образов документов;

- Компьютерная модель и алгоритм анализа коллекции полнотекстовых документов;

- Алгоритм оптимизации ассоциаций подграфа семантической сети;

- Результаты экспериментальных исследований, полученные посредством ИАС, характеризующих адекватность экспертного и компьютерного анализа коллекций документов.

Личный вклад автора. Основные научные положения, теоретические выводы и рекомендации, анализ результатов поставленных экспериментов, содержащихся в диссертационной работе, получены автором самостоятельно.

Публикации. По теме диссертации опубликовано 6 научных работ, в том числе 1 в издании, рекомендованных ВАК науки России.

Структура и объем диссертации. Диссертация состоит из введения, 4 глав, заключения, списка литературы, включающего 120 наименований, и приложения. Работа содержит 144 страницы текста, 51 рисунок и 9 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность исследуемой проблемы, определяется цель работы, выбираются направления исследований, обеспечивающих достижение поставленной цели.

В первой главе рассматривается роль текста как основного источника информации и средства коммуникации. Проведен обзор предметной области исследования, выделены проблемы анализа текстов на основе нейросетевых методов, отмечена актуальность разрабатываемой проблемы для решения широкого круга практических задач.

Получение информации из текста осуществляется различными методами, которые получили название метода анализа документов. Признавая необходимость получения качественных и количественных показателей, характеризующих как семантические элементы отдельного документа, так и коллекции документов, выделяются два подхода: неформализованный - проведение анализа документов экспертом (исследователем) и формализованный - с помощью компьютерных систем.

В рамках первого подхода в качестве основы принимается гипотеза о том, то эксперт, самостоятельно способен провести анализ коллекции документов и определить семантические линии каждого документа в коллекции, с целью установления их близости. Этот метод основан на интуиции исследователя и поэтому подвержен опасности субъективных смещений в восприятии и интерпретации материалов. Кроме того, различные эксперты могут одну и ту же информацию, содержащуюся в тексте, по-разному интерпретировать и придавать ей различную степень семантической значимости. На этой основе делается вывод о необходимости проведения объективного анализа текстовых документов.

В рамках второго подхода выделена группа методов, реализация которых требует использования специальных формализованных вычислительных процедур, в том числе и таких которые моделируют аналитический процесс отыскания экспертной оценки. Надо признать, что формализованный метод анализ текстовых документов ориентирован на извлечение различной информации, что в значительной степени отвечает современным требованиям работы с информационными ресурсами. Использование формализованного анализа документов позволяет создать наборы статистических характеристик текстов, в основе которых отражены существенные семантические линии, представленные в анализируемых коллекциях документов. Полагая, что элементарный объект изучаемого текстового документа, позиционируется словом или словосочетанием, указана возможность создания формализованных правил анализа, реализация которых требует наличия модели позиционирования текстовых документов.

Во второй главе рассмотрены основные модели позиционирования текстовых документов, произведена формализация задачи анализа текстовых документов и представлены методы решения, из которых выбран нейросетевой метод.

Нейронная сеть Эксперт (инструмент познания -мозг)

Нейросетевая модель

Математическая

модель нейронной сети

Объекты окружающего мира

(текстовые документы) Сущность

< Исследует/ Познающий субъект

Атрибуты сущности

Свойство] 1

Свойство 2

Свойство N

Имеет

Цель

Онтология

Рис. 1. Модель нейросетевого метода анализа текстовых документов.

Показано, что анализ текстовых документов воспроизводит задачу кластеризации и построения компактного образа коллекции документов. Основная цель такого анализа выделить в исходных данных однородные группы, которые позиционируют семантически близкие элементы. В диссертационной работе процедура кластерного анализа реализуется поэтапно: на множестве объектов выделяется совокупность подмножеств (кластеров) С=(с,} состоящих из Ыс классов объектов в соответствии с некоторым критерием схожести элементов (на основе некоторых априорных правил). Сходство элементов множества £> обуславливается наличием набора признаков -характеризующих элементы множества £>. Процедура кластеризации / объектов ^ е£> реализуется посредством модификации исходных объектов, после чего делается вывод о соответствии одной из структур, что означает отнесение ^ к классу С/. Применительно к текстам на естественном языке, элементами множества £> являются электронные текстовые документы. Общая модель представлена алгебраической системой следующего вида:

где £) - множество текстов, подлежащих анализу, С - множество классов-рубрик, ^ -множество описаний, ^-отношение на Сх/%/- операция классификации вида Т Отношение К имеет свойство:

В этом случае избранному классу соответствует единственное описание.

Установлено, что метод представления документа в виде образа в многомерном пространстве позволяет формализовать лингвистические знания, так что значения признаков лингвистических объектов - текстов - выражаются количественно. Это помогает наглядно представить структуру текстов с многообразием их лексических, синтаксических и семантических связей.

Используя введенные определения, полагаем, что каждому терму 4 в документе 4 сопоставляется неотрицательный весовой коэффициент Сопоставление производится таким образом, что каждый документ 4 позиционируется в виде к-мерного вектора

_ <1е/

={^vXj,w2j,...,^wkj), где к - общее количество различных термов во всех документах.

В качестве веса терма значения в документе ^ используется нормализованная частота употребления терма в данном документе, учитывающая актуальность терма по всей коллекции документов:

где п - частота встречаемости термав тексте у, общее количество слов в тексте у, - число документов, в которых употребляется терм /,, Б - общее число документов в массиве.

В результате, каждый документ коллекции описывается набором параметров, характеризующих уникальность каждого документа в коллекции:

где, - координата вектора /-ого документа ву'-ом измерении пространства признаков, ц = 0, еслиу'-ый признак не встречается в /-ом документе.

Согласно векторному представлению, близость документа 4 к ^ оценивается как значение коэффициента корреляции между векторами их описаний:

В качестве метода автоматического анализа текстовой коллекции рассматривается нейросетевой классификатор на основе самоорганизующихся карт Кохонена. Самоорганизующиеся карты Кохонена представляют собой автоматизированные методы анализа

IV

данных и выявления закономерностей в больших объемах информации. Особенность метода заключается в том, что при исследовании не требует никаких априорных предположений о распределении данных.

Предложенный алгоритм анализа формируется следующим образом:

1) Начальная инициализация плоскости ff/O) осуществляется произвольным распределением весовых векторов на гиперсфере единичного радиуса.

2) Загрузка входного вектора текста dj и вычисление меры подобия S(dj, W) для каждого i

- ого нейрона сети. Нейрон, для которого критерий Евклидова расстояния S, минимален,

считается текущим центром и для него определяется размер области соседства, который характеризуется коэффициентом h/t)

3) Коррекция весовых коэффициентов для всех нейронов, попадающих в область h/t), производится по выражению:

Wj(n + \) = Wj(п)+7](п)-h{n)■ {d, - Wj(и)) где г](п)-шаг обучения, уменьшающийся с течением времени, htj{n)- функция окрестности в победившем нейроне j.

4) Проверка условия остановки:

- ограничение количества циклов константой;

- входные вектора не переходят между кластерными элементами - отсутствие изменений в составах групп (кластеров) на протяжении нескольких итераций:

с, ={dik} = const,i = \,Nc где к - количество объектов в кластере.

- изменения весовых коэффициентов нейронной сети становятся незначительными - для заданного множества объектов х j достижение минимума функции:

В противном случае возврат к п.2 и вычисления продолжаются, до тех пор, пока не выполнены условия остановки.

Для рассматриваемой задачи анализа характерно, что один алгоритм может привести к различным вариантам разбиения данных в зависимости от настройки параметров модели. Для оценки кластеризации множества документов предложена процедура, основанная на вычислении мер оптимального функционала разбиения данных, которая реализуется поэтапно:

1) Сравнение внешних мер - сопоставление с «экспертным» заключение;

2) Сравнение внутренних мер - анализ внутренних свойств, присущих конкретному набору данных с использованием Индекса Данна (Foi)'-

min]S[Ci,Cj)\ р ___

max {A(Cj)}

где S(c,,cj)-мера расстояния между кластерами, Л(с,)-мера диаметра кластера

Оптимальным принимается разбиение, при котором значение FDj максимально. Следует отметить, что предложенная процедура создания оценки качества, хорошо согласуется с мнением эксперта.

В третьей главе описан разработанный нейросетевой подход к автоматическому анализу документов, который применяется при отсутствии предопределенного знания об исследуемых объектах, и формирует группы (кластеры) документов на основе автоматического анализа тематической близости между ними.

Выделены основные процедуры нейросетевого метода анализа текстового материала, которые представлены на рис.2.

Рис. 2. Процедурная схема алгоритма анализа текстовых документов ИАС

Последовательность решения задачи автоматического анализа текстовых документов, состоит из следующих основных этапов:

- Формирование информационных образов документов - модуль индексации;

- Формирование множества тематических групп документов, содержащего семантические связи между его элементами - модуль кластеризации;

- Построение онтологии предметной области - модуль онтологии.

Входными данными в задаче анализа являются информационные образы документов, которые представляют собой многомерные векторы в пространстве признаков документов и характеризуют смысловое содержание исходных документов. В соответствии с выбранной моделью представления документов, в качестве смысловых признаков используются одиночные слова из текстов, прошедшие морфологический анализ и оценку их значимости, основанную на частоте встречаемости слов в текстах. Процедура при-

писывания набора терминов каждому документу определена операцией индексирования и выполняется автоматически (рис. 3).

Рис. 3. Процедурная схема формирование образов документов ^ СО

В процессе анализа коллекции документов сходство вычисляется как геометрическая близость векторов этих документов в пространстве признаков. Процедуры анализа коллекции документов, проводящие к количественной систематизации исходных данных, реализуется программой выделения структуры данных на основе по парного сравнения элементов исходного массива. Принцип работы программы - нейросетевого анализатора проиллюстрирован на рис. 4.

Рис. 4. Принцип организации работы нейросетевого анализатора.

Выходными данными нейросетевого анализатора является набор тематических групп документов. Выбор алгоритма работы анализатора обусловлен требованиями близости экспертной и компьютерной оценки коллекции текстовых документов. Следуя этим представлениям, произведем сопряжение граф - образа с семантической сетью, используя процедуру, иллюстрация которой представлена на рис. 5. В таком случае граф -образ отождествляется с онтологией.

Порог выделения родственных связей Выделение значимых

между кластерами термов

Г > 1

Кластеры документов и таблица близости^ Выявление родственных связей между кластерами документов Кластеры документов и родственные связи^ Формирование вербальных Онтология предметной ^

между ними М между ними ™ описаний кластеров области %

Рис. 5. Процедура преобразования набора кластеров в онтологию. В этой процедуре тематическим группам автоматически формируется набор идентификаторов, сформированных из тезаурусу ключевых слов кластера. Количественная оценка качества извлечения знаний, формируемая на основе модели, строится на основе

анализа внешних и внутренних мер качества. Внешние меры основаны на сравнении автоматического разбиения данных с полученным от экспертов «эталонным» разбиением этих же данных. Внутренние меры основаны на оценке свойств отдаленности и компактности полученного разбиения данных.

Объединяя описанные процедуры, формируем структуру информационно-аналитической системы «КеигоТехЬ>.

Рис. 6. Структура ИАС «№игоТехЬ>

На основании введенных представлений формируется модель нейросетевого метода анализа, которая предусматривает:

- выделение информационных признаков документов коллекции;

- интерактивный режим работы эксперта по знаниям при анализе документов;

- автоматическое определение количества тематических групп — кластеров на основе внутреннего критерия оптимизации;

- определение индивидуальных и групповых количественных характеристик документов, образующих коллекцию;

- выделение семантических детерминант — термов, характеризующих тематическую подборку в кластере;

- построение онтологии текстовой коллекции;

В четвертой главе рассмотрены результаты экспериментов, выполненных с целью проверки эффективности работы модели, методов и алгоритмов, представленных в работе.

Используя интерактивное окно настройки системы ИАС «ЫеигоТехЪ), которое представлено на рис. 7, осуществлены экспериментальные исследования:

- Выбора эмпирических значений входных параметров алгоритма формирования образов полнотекстовых документов;

- Формирования оценки тематической близости документов;

- Автоматического определения предметных областей знаний на основе анализа внутренних свойств коллекции документов;

- Автоматического формирования графа - образа с семантическими идентификаторами коллекции документов;

- Сравнительной оценки экспертной кластеризации коллекции документов с результатом работы нейросетевого алгоритма.

';ч Групповой акали:

ш

&0Л

¡^Аспирантура NeuroText NeuroText

Г~1 Новая п.

QAM - СИГНАЛ КАК ИМПУЛЬСНЫ -АВТОМАТИЗИРОВАННОЕ ПРОЕК'г Й АДАПТИВНАЯ ВЫЧИСЛИТЕЛШЫ-к'! АДАПТИВНЫЕ. ИНВАРИАНТНЫЕ ; | АДАПТИВНЫЙ АЛГОРИТМ ПАРАЬ АКТУАЛЬНОСТЬ И ПЕРСПЕКТИВ! АЛГОРИТМ ВЫДЕЛЕНИЯ ДОРОГ АЛГОРИТМ РЕГУЛИРОВАНИЯ НА АЛГОРИТМЫ И ПОМЕХОУСТОЙЧ АЛГОРИТМЫ ФОРМИРОВАНИЯ Г АНАЛИЗ И ВЫБОР НАПОЛНИТЕ АНАЛИЗ И РАЗРАБОТКА MET0J АНАЛИЗ ВАРИАНТОВ ПОСТРОЕН АНАЛИЗ И ИССЛЕДОВАНИЕ РАД1 АНАЛИЗ МЕТОДОВ ОБЕСПЕЧЕН АНАЛИЗ МЕТОДОВ РЕАЛИЗАЦИИ АНАЛИЗ НЕКОТОРЫХ ВОПРОСОЕ АНАЛИЗ ПЕРЕГРУЗОК В CAMEL ¡АНАЛИЗ СПОСОБОВ ПОСТРОЕНИ АРХИТЕКТУРА ПРОЦЕССОРНОГО АСПЕКТЫ ПЕРЕХОДА К «СИСТЕМ ВЕКТОРНАЯ МОДЕЛЬ ПРЕДСТАВ ВЗАИМОДЕЙСТВИЕ BOEHO-MOPi ВЗАИМОДЕЙСТВИЕ СЕТЕЙ NGN ВЛИЯНИЕ КОНСТРУКТОРСКО-ТЕ ВЛИЯНИЕ ВНЕШНИХ ФАКТОРОВ ВЛИЯНИЕ РАЗБРОСА ВЕЛИЧИН Г ВНЕДРЕНИЕ В УЧЕБНЫЙ ПРОЦЕ -

Снять выделение Выделить все

Способ обработки слое: А»горигм работы:

Использовать алгоритм Стемминга: г* ! « (TF1DF)

Использовать стоп-лист: е \ BtwHcneme б|иэости вектсрое

Качество отбора слое:"

Мин. частота слова (единиц): г Микзнач фикции качества (в М ин. кол-во повторов в тексте: [2 Г TEST mode

I С Косинус ула ; f* Евклидово расстоя»«

Опции вывода результатов:~ ~

Зывод результатов: {¡'¡-З'^..Ol.Gv- ЛО.* Тезариус: Кластеризация: 0<5u*vw анализ-. |ArWysis_01.06.2009 ,ds &

Алгоритм кластеризации: С k-Means S0M

Скорость обучения: Кол-во итераций: Радиус обучения:

Кол-во кластеров: [2 ^

у see: ¡* Пока изменяется ошибка:

Описание кластера: ! Сброс I Отмена

Рис. 7. Интерфейс программного модуля По результатам исследования сделано заключение:

- документы, позиционируемые в Евклидовом пространстве, обладающие меньшим значением , ), являются тематически близкими, и наоборот, при больших значениях £>(>/(<3?,,^.) сходство документов уменьшается.

- модель нейросетевого метода эффективно реализует разделение коллекции документов на тематические группы.

- адекватное выделение тематической - семантической линии документа, при применении модели нейросетевого метода возможно, если отношение уникальных термов в документе к общему количеству термов не превышает порога 1=0,80.

- тематически близкие документы формируют кластеры высокой компактности, что характеризуется минимальными значениями внутрикластерного расстояния гп'т(е2).

- предпочтительными коэффициентами являются: Т(ф, Оар,(!) используемые для выделения информативных термов, при условии {Т(с1/);0ор,(1)}={2;0,040„т(1)}, где Д^ф еО(Т)

- оптимальное решение разбиения коллекции документов достигается при максимальном значении

- Полученные результаты оказались близкими с мнениями эксперта в ряде случаев не имеющих количественной оценки, что проиллюстрировано на рис. 8.

религиозн ткан

Рис. 8. Онтология предметных областей.

Заключение по результатам проведенных исследований и разработок

1. Установлена актуальность проведения исследований коллекций документов.

2. Проведено исследование существующих моделей анализа текстовых документов. Показана необходимость создания модели и методов, повышающих эффективность работы эксперта по знаниям с текстовыми документами. Для исследований и разработки выбрана нейросетевая модель анализа.

3. Разработана и исследована модель нейросетевого метода анализа коллекции текстовых документов, применимая для совокупности текстов произвольной тематики и объема в условиях отсутствия априорной информации об их содержании.

4. Разработан метод формирования - модельного позиционирования информационных образов документов, основанный на вычислении оценки тематической значимости при-

знаков документов, включающий механизм сокращения признаков информационных образов документов, позволяющий повысить качество и скорость выполнения автоматического анализа документов.

5. Установлено, что отношение близости документов в коллекции, обладающей значительным количеством информационных признаков, определяется с высокой точностью и, наоборот, в коллекции обладающей малым количеством информационных признаков, отношение близости устанавливается с высоким значением погрешности, но при этом происходит сокращении времени вычислительных процедур.

6. Разработан нейросетевой алгоритм с процедурой самокоррекции, позволяющий автоматически разбивать тексты на естественном языке на тематические группы с возможностью управления уровнем детализации позиционирования кластеров.

7. Разработана ИАС «NeuroText», реализующая предложенный метод автоматического анализа документов, а также средства визуального отображения полученных результатов для навигации по коллекции документов. Используя в ИАС «NeuroText» нейросетевую модель анализа, сформирована семантическая сеть, отражающая родственные связи между ассоциативными подграфами.

8. Экспериментально подтверждена эффективность предложенных методов и алгоритмов.

ПУБЛИКАЦИИ

1. Шеменков П.С. Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов // T-Comm Телекоммуникации и транспорт статья, выпуск №2,2009г. - С. 42-43 / (входит в перечень ВАК).

2. Шеменков П.С., Макаров Л.М. Формирование сетевой интеллектуальной базы знаний // 2-ой международный научный конгресс «Нейробиотелеком-2006» / СПбГУТ -СПб, 2006.-С. 377-380

3. Шеменков П.С., Макаров Л.М. Алгоритм обучения экспертной системы знаний на основе векторного представления полнотекстовых документов // 3-ий международный научный конгресс «Нейробиотелеком-2008» /СПбГУТ. - СПб, 2008,- С. 111-115

4. Шеменков П.С., Макаров Л.М. Интеллектуальные базы знаний // 59-я НТК / ГОУВ-ПО СПбГУТ. - СПб, 2007. - С. 59-61.

5. Шеменков П.С., Макаров Л.М. Векторная модель представления полнотекстовых документов //61-я НТК / ГОУВПО СПбГУТ. - СПб, 2009. - С. 45-47

6. Верхова Г.В., Ястребов A.C., Шеменков П.С. Модель автоматического реферирования текстовых документов // XII международная конференция "SCIENCE ONLINE: электронные информационные ресурсы для науки и образования", 2009. http://elibrarv.ru/proiects/conference/seminar 09 1 program.asp.

Подписано к печати 01.07.09г. Объем 1 печ. л. Тираж 80 экз. Тип. СПбГУТ. 191186 СПб, наб. р. Мойки, 61

Оглавление автор диссертации — кандидата технических наук Шеменков, Павел Сергеевич

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

1 МЕТОДЫ АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ.

1.1 Функциональный и прагматический анализ текстовых документов.

1.2 Информационное пространство.

1.3 Многоаспектность анализа текстовых документов.

1.4 Традиционный и формализованный методы анализ документов.

1.5 Численные методы формализованного анализа.

1.6 Нейроинформационный подход в анализе текста.

Выводы по разделу 1.

2 МОДЕЛЬ НЕЙРОСЕТЕВОГО МЕТОДА АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ.

2.1 Структура модели.

2.2 Модели позиционирования и анализа текста.

2.3 Формализация задачи.

2.4 Модели представления документа.

2.5 Морфологический анализ.

2.6 Сокращение пространства признаков.

2.7 Нейросетевая модель анализатора.

2.8 Верификация метода анализа.

Выводы по разделу 2.

3 МОДЕЛЬ И АЛГОРИТМЫ АНАЛИТИЧЕСКОГО БЛОКА.

3.1 Информационно-аналитическая система «NeuroText».

3.2 Формирование информационных образов.

3.3 Нейросетевой анализатор.

3.4 Формирование логического суждения.

3.5 Модель представления знаний.

Выводы по разделу 3.

4 ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА МОДЕЛИ НЕЙРОСЕТЕВОГО

МЕТОДА.

4.1 Исследование предлагаемой модели на основе испытаний ИАС «NeuroText».

4.2 Определение тематической близости между документами.

4.3 Определение тематической линии документа.

4.4 Формирование тематических кластеров на коллекции документов.

4.5 Формирование компактного кластера.

4.6 Определение значимых признаков документов.

4.7 Формирование образа кластеров.

4.8 Формирование онтологии предметной области.

Выводы по разделу 4.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Шеменков, Павел Сергеевич

Наиболее распространенной формой представления знаний являются естественно-языковые тексты. Текстовая форма знаний естественна для человека, такие знания легко воспринимаются, порождаются, тиражируются и модифицируются. Новые возможности позиционирования текстов, связанные с масштабным использованием компьютерной техники, а также доступность методов записи и хранения информации, привели к бурному росту количества информационных ресурсов. Необходимость изучения и осмысления все возрастающего объема неструктурированной текстовой информации на естественном языке актуализирует проблему анализа.

Теоретическое обоснование методов анализа рассмотрено в работах В.А. Ядова, Т.М. Дридзе, А.Р. Лурия, М. Шлика, Р. Карнапа, О. Нейрата. Вышеупомянутые работы, в основном, посвящены рассмотрению смежных проблем анализа текстовых документов. Основным из направлений данной диссертационной работы рассматривается проблема кластеризации и систематизации текстовых документов информационного ресурса.

Задача анализа текстовых документов ориентирована на извлечение знаний и является в настоящее время актуальной проблемой, затрагивающей различные сферы человеческой деятельности, поскольку ее решение позволит полностью автоматизировать процесс обработки, классификации и систематизации информационного ресурса. Процесс аналитической обработки текстов требует создания принципиально новых моделей, методик и систем, которые следует отнести к разряду систем искусственного интеллекта - систем обработки знаний. Задача автоматического анализа естественных текстов в определенной степени формируется при участии эксперта. Надо отметить, что для экспертной оценки нет необходимости в построении модели естественного текста, реализующей глубинный семантический анализ текста. Одной из актуальных задач, решаемых экспертами, является определение отношений между объектами, которыми являются области знаний. Наиболее адекватно отношения между объектами представляются семантическими сетями. Традиционная интерпретация семантической сети позволяет получать только представление о структуре отношений между объектами, которой недостаточно для проведения полноценного аналитического исследования. Поэтому в работе предлагается расширение семантической сети для представления информации о классификации отношений между объектами и о принадлежности объектов к классам предметной области. В основе модели знаний находится семантический граф-образ, узлы которого сопоставляются с областями знаний, а ребра соответствуют отношениям между ними.

Цели и задачи исследования. Целью диссертационной работы является разработка и исследование модели нейросетевого метода автоматического анализа текстовых документов на естественном языке для формирования семантической базы знаний и повышения эффективности работы эксперта по знаниям. Для достижения поставленной цели необходимо решить следующие основные задачи:

1) Рассмотреть известные модели и методы анализа документов;

2) Разработать модель нейросетевого метода анализа полнотекстовых документов на естественном языке в условиях отсутствия априорной информации об их содержании;

3) Разработать алгоритм формирования информационных образов электронных текстовых документов, включающий метод сокращения признаков, основанный на подходе к оценке тематической значимости признаков документов;

4) Разработать метод нейросетевого анализа коллекции текстовых документов с процедурой самокоррекции для определения оптимального функционала распределения;

5) Разработать алгоритм представления результатов анализа в виде семантического граф-образа.

6) Разработать информационно-аналитическую систему (ИАС), автоматического анализа полнотекстовых документов, реализующую предложенные методы;

7) Осуществить исследование разработанной модели и провести проверку предложенного метода анализа коллекций документов.

Объект и предмет исследования. Объектом исследования являются документы на естественном языке, как форма представления предметной области. Предметом исследования являются процессы автоматизированного выявления и формализации знаний, представленных в форме онтологии-.

Методы исследования. В диссертационной работе использованы модели и методы искусственного интеллекта, лингвистики, математической статистики, кластерного анализа, теории множеств, метод экспертных оценок, теории информации, теории баз данных и программирования.

Обработка текстов, нейросетевое моделирование процессов, а также оценка качества извлечения знаний производились автором с помощью самостоятельно разработанной НАС. При разработке ИАС применялись методы объектно-ориентированного программирования с использованием среды разработки Borland Delphi 7 Enterprise.

Научная новизна. Проведенные исследования позволили создать модель нейросетевого метода к содержательному анализу неструктурированных текстов на естественном языке для произвольных массивов документов без ограничений на тематику и объем при отсутствии априорной информации формализации их содержания.

Предложен подход к решению задачи анализа текстовых документов, который состоит в использовании единой методологии, основанной на концептуальной модели эксперта, для реализации всего цикла извлечения знаний, с возможностью интерактивного участия эксперта в процессе.

Предложен подход к оценке тематической близости документов с использованием метода сокращения пространства признаков, составляющих информационные образы, что позволило повысить качество и скорость выполнения анализа коллекции текстов.

Предложен метод кластерного анализа, включающий механизм самокоррекции в процессе построения онтологии предметной области.

Разработана структура ИАС «NeuroText», представляющая собой целостную интерактивную систему, состоящую из взаимосвязанных компонентов, позволяющих осуществлять построение онтологии коллекции документов.

Достоверность научных положений и выводов диссертационной работы подтверждена практической реализацией разработанных моделей и методов, а так же результатами проведенных экспериментов.

Практическая ценность работы. Предложенный подход к автоматическому анализу документов позволит решить проблему содержательного анализа информации, как по всей коллекции документов, так и по ее подмножествам, отразить семантические связи между областями знаний и автоматически получить описания областей знаний. Практическим результатом применения метода извлечения структурных знаний из текстов на основе нейросетевой модели является разработка ИАС «NeuroText». ИАС включает три основных компонента: информационная часть, компонент управления данными, модуль работы с искусственной нейронной сетью. Информационная часть реализует интерфейс пользователя, а также обеспечивает накопление, хранение и предоставление результатов анализа. Компонент управления данными обеспечивает импортирование данных из базы данных в модуль работы с нейронной сетью. Компонентом реализуется подготовка данных для сети. Модуль работы с ИНС обеспечивает автоматическое построение нейронной сети на основе множества входных параметров решаемой задачи, способной кластеризовать поступающую информацию. В основу работы компонента положен алгоритм самоорганизации. Результатом работы компонента является граф - образ интеллектуальной модели решаемой задачи.

Граф - образ, дополненный семантическим набором отношений элементов, позиционирует модель знаний, что позволяет перейти на более высокий уровень представления информации (естественный для мышления человека), и одновременно с этим ввести качественные и количественные категории. В модели осуществляется извлечение ассоциаций подграфа семантической сети и формируется матрица отношений, отражающая связь между элементами графа. Такой подход позволяет эксперту осуществлять сопоставление фрагмента семантической сети с естественными текстами, в которых встречается подобные отношения.

Сфера применения разработанной модели анализа текстовых документов обширна: информационно-поисковые системы, системы автоматической классификации, библиотечно-справочные системы, поисковые роботы, системы обработки информации.

Апробации результатов и публикации. Основные положения и результаты работы были доложены автором и обсуждались в период с 2006 по 2009 годы на научно-технических конференциях профессорско-преподавательского состава, научных сотрудников и аспирантов ГУТ им. проф. М. А. Бонч-Бруевича: №59 2007г., №61 2009г., 2-ом международном конгрессе «Нейробиотелеком-2006», 3-ем международном научном конгрессе «Нейробиотелеком-2008».

Реализация результатов работы. Основные теоретические и практические результаты диссертационной работы использованы в научно-исследовательской работе «Нейросемантический интерактивный анализатор информационного ресурса» /Санкт Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, 2009г., per. № 080-09-054/5/

Публикации. По теме диссертации опубликовано 6 научных работ, в том числе 1 в издании, рекомендованных ВАК науки России.

Структура и объем диссертации. Диссертация состоит из введения, 4 глав, заключения, списка литературы, включающего 120 наименований, и приложения. Работа содержит 144 страницы текста, 51 рисунок и 9 таблиц.

Заключение диссертация на тему "Разработка и исследование модели нейросетевого метода анализа текстовых документов"

Основные результаты, полученные в диссертации:

1 Предложена модель автоматического анализа электронных полнотекстовых документов в условиях отсутствия специализированной априорной информации об их содержании.

2 Предложен метод частотно-контекстной кластеризации тематики текста, позволяющий выделять тематику текста в виде множества ключевых слов с весами, характеризующими значимость данных слов в тематике.

3 Разработан нейросетевой алгоритм кластеризации, позволяющий автоматически разбивать тексты на естественном языке на тематические группы с возможностью простого управления уровня детализации этих групп

4 Предложен алгоритм вычисления степени принадлежности текста к тематической группе, позволяющий получать количественную оценку.

5 Разработана программная реализация нейросетевой модели структурного представления текстовой информации и методов ее тематического анализа, а также средства визуального отображения полученных результатов для навигации по тематическим группам. Тематические группы отражаю родственные связи между областями знаний и обладают автоматически формируемым вербальным описанием этих областей знаний.

6 Проведена экспериментальная оценка корректности и эффективности выносимых на защиту результатов.

Разработанная модель, метод и алгоритмы позволяют производить автоматический анализ массивов текстовых документов, а так же проверять адекватность экспертного заключения. Реализованная ИАС «NeuroText» является инструментом для проведения анализа сложной для эксперта коллекции документов.

ЗАКЛЮЧЕНИЕ

В работе рассмотрены теоретические и практические вопросы решения задачи тематического анализа электронных документов.

Библиография Шеменков, Павел Сергеевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа. Андреев A.M. и др.. Тез. докл. RCDL '2003. Москва, 2003.

2. Автоматное программирование: анализ задачи Электронный ресурс. 2009. Режим доступа: http://www.intuit.rU/department/se/progstyles/9/, свободный.

3. Алгоритм выделения псевдооснов Мартина Портера. Электронный ресурс. Режим доступа: http://snowball.sourceforge.net, свободный.

4. Андреев А.Б., Усачев Ю.Е. Разработка интеллектуальных средств обучения. // Материалы Всероссийской научно-методической конференции «Телематика 2002». СПб, 2002.

5. Архипенков С. Я., Голубев Д.В., Максименко О. Б. Хранилища данных. М.: Диалог-МИФИ, 2002. 528 с.

6. Атанов Г.А., Пустынникова И.Н. Обучение и искусственный интеллект или Основы современной дидактики высшей школы. Донецк: Изд-во ДОУ, 2002. 504 с.

7. Базы данных в Delphi7. Самоучитель / В. Понамарев. СПб.: Питер, 2003. 224 с.

8. Бисималиева М.К. О понятиях «текст» и «дискурс» // Филологические науки. 1999. №2. С. 78-85.

9. Бобровский С. Delphi7. Учебный курс. СПб.: Питер, 2004. 736 с.

10. Браславский П.И., СоколовЕ.А. Автоматическое извлечение терминологии с использованием поисковых машин Интернета // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007». М.: Изд-во РГГУ, 2007. 658 с.

11. Вагин В.Н. Достоверный и правдоподобный вывод в интеллектуальных системах / под ред. В. Н. Вагина, Д. А. Поспелова. М. : Физматлит, 2004. 704 с.

12. Валгина Н.С. Теория текста: Учебное пособие. М.: ЛОГОС, 2003.280с.

13. Варламов О.О. Эволюционные БД и БЗ для адаптивного синтеза интеллектуальных систем. Миварное информационное пространство. М.: Радио и связь, 2002. 286 с.

14. Величковский Б. М. Когнитивная наука. Основы психологии познания. В 2-х томах. М.: Юта, 2006.

15. Винер Н. Кибернетика или управление и связь в животном или машине. М.: Советское радио, 1968. 325 с.

16. Волкова Л.А., Решетникова Е.Р. Технология обработки текстовой информации. Часть I . Основы технологии издательских и наборных процессов. Издание второе, исправленное и дополненное: Учебное пособие. М.: Изд-во МГУП, 2002. 306 с.

17. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем: Учебное пособие для вузов. СПб.: Питер, 2000.

18. Гаврилова Т.А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992.

19. Герасимов Б.М., Тарасов В.А., Токарев И.В. Человеко-машинные системы принятия решения с элементами искусственного интеллекта. АН Украины. Институт кибернетики им. В.М. Глушкова. К.: Наук. Думка, 1993. 183 с.

20. Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. Н. Наука, 1996. С. 276.

21. Горелов И.Н. Разговор с компьютером: психолингвистический аспект проблемы. С послесловием Д.А.Поспелова. М.: Науку. Гл.ред.физ.-мат.лит., 1987. 256 с.

22. Гришина О. В. Сравнительный анализ методов описания языка // Интеллектуальные технологии и системы. М.: МГТУ им. Н.Э.Баумана, 1998.

23. Грязнов А.Ф. Аналитическая философия: избранные тексты. М., Изд-во МГУ, 1993.

24. Губин М.В. Модели и методы представления текстового документа в системах информационного поиска / Губин М.В. // Научно-техническая информация. Сер. 1. 2004. №12. С. 12-24.

25. Губин М.В. Электронная бибилиотека многоверсионных текстовых документов. / Труды RCDL-2004, 2004. С. 169-174.

26. Денинг В., Эссинг Г., Маас С. Диалоговые системы "человек-ЭВМ". Адаптация к требованиям пользователя: Пер. с англ. М: Мир, 1984. 112 с.

27. Дридзе Т.М. Язык и социальная психология. Изд.2 дополненное. М.: КД Либроком, 2009. 224 с.

28. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. №4. С. 77-83.

29. Дунин-Барковский В. J1. Нейрокибернетика, Нейроинформатика, Нейрокомпьютеры, В кн.: Нейроинформатика / А. Н. Горбань, В. JI. Дунин-Барковский, А. Н. Кирдин и др. — Новосибирск: Наука. Сибирское предприятие РАН, 1998. 296 с.

30. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии. 2002. N7.

31. Искусственный интеллект: В 3-х кн. Кн. 1. Модели и методы: Справочник / под ред. Д.А. Поспелова. М.: Радио и связь, 1990. 368 с.

32. Искусственный интеллект: В 3-х кн. Кн. 2. Модели и методы: Справочник / под ред. Д.А. Поспелова.- М.: Радио и связь, 1990. 304 с.

33. Карнап Р. Преодоление метафизики логическим анализом языка. — В кн.: Грязнов А.Ф. Аналитическая философия: становление и развитие. М., ДИК — «Прогресс-Традиция», 1998.

34. Карнап Р., Ган Г., Нейрат О. Научное миропонимание — Венский кружок // Логос, 2005, №2.

35. Карнап Р. Эмпиризм, семантика и онтология // Карнап Р. Значение и необходимость. М.: ЛКИ, 2007.

36. Кириченко К.М, Герасимов М. Б. Обзор методов кластеризации текстовой информации Электронный ресурс., 2001. Режим доступа: http://www.dialog-21 .ru/Archive/200 l/volume2/226.htm, свободный.

37. Классификация веб-страниц на основе алгоритмов машинного обучения Электронный ресурс. / П. В. Борисова [и др.]. Режим доступа: http://company.yandex.ru/grant/2005/08Petrov103106.pdf, свободный.

38. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа, 5-ое изд. М.: Наука, 1981. 544 с.

39. Колобкова О.В. Частотные исследования Словаря русского языка XI-XVII вв. // Интеллектуальные технологии и системы. Выпуск 6. М.: Изд-во ООО «Эклис+», 2004. С. 143-150.

40. Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. М.: Горячая линия — Телеком, 2001.

41. Кузин J1.T. Основы кибернетики. М.: 1979.

42. Кузнецов И.П. «Семантические представления», М.: Наука, 1986.

43. Кураленок И.Е. Метод предварительной оценки эффективности семантических методов обработки текстовой информации Электронный ресурс. 2001. Режим доступа: http://www.rcdl2001.krc.karelia.ru/papers/papers/kuralenok/kuralenokpaper.rtf, свободный.

44. Леонтьев А.Н. Деятельность. Сознание. Личность / Избранные психологические произведения. В 2-х т. Т.2. М. Педагогика. 1983.

45. Леонтьева Н.Н. К теории автоматического понимания естественных текстов. 4.2: Семантические словари: состав, структура, методика создания М.: Изд-во МГУ, 2001

46. Леонтьева Н.Н. К теории автоматического понимания естественных текстов. Ч.З: Семантический компонент. Локальный семантический анализ. М.: Изд-во МГУ, 2002

47. Лидовский В. Первичная машинная обработка текста: методика и проблематика. 1997.

48. Линдсей П. Норман Д. Переработка информации у человека. Пер. с анг. М.: Мир., 1974.

49. Лурия А. Р. Язык и сознание. / Под редакцией Е. Д. Хомской. М: Изд-во Моск. ун-та, 1979. 320 с.

50. Лурия А.Р. Основы нейропсихологии М.: МГУ, 1973. 374 с.

51. Люгер, Джордж Ф. Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е издание / Люгер, Джордж Ф. Пер. с англ. М. : Издательский дом Вильяме, 2003. 864 с.

52. Мамардашвили М.К., Пятигорский A.M. Символ и сознание. / Под общей редакцией Ю.П.Сенокосова М.: Школа "Языки русской культуры", 1997.

53. Минский М. Фреймы для представления знаний: Пер. с англ. М.: Энергия, 1979. 152 с.

54. Модели и методы автоматической классификации текстовых документов / Андреев A.M., и др. // Вестн. МГТУ. Сер. Приборостроение. М.:Изд-воМГТУ. 2003. №3.

55. Найссер У. Познание и реальность. Пер. с англ. М.: Прогресс., 1981. 232 с.

56. Некипелов Н., Шахиди А. Онтология анализа данных. Электронный ресурс. Режим доступа: http://www.basegroup.ru/library/methodology/ontology/, свободный.

57. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет СПб., 2000. 80 с.

58. Некрестьянов И.С., Добрынин В.Ю., Клюев В.В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции "Электронные библиотеки". Протвино, 2000. С. 204-210.

59. ГТескова О. В. Методы автоматической классификации электронных текстовых документов без обучения / О. В. Пескова // Научно-техническая информация. Сер. 2. 2006. №12. С. 21-32.

60. Прикладная статистика: Исследование зависимостей: Справ, изд. / Под. ред. С. А. Айвазяна. — М.: Финансы и статистика, 1985. с. 487с.

61. Прикладная статистика: Классификация и снижение размерности: Справ, изд. / Под. ред. С. А. Айвазяна. М.: Финансы и статистика, 1989. 607 с.

62. Пупков К.А., Коньков В.Г. Интеллектуальные системы. М.: Изд-во МГТУ им. Баумана, 2003. 348 с.

63. Рабинович Б.И. Аналитическая система обработки и управления структурированной информацией // Интеллектуальные технологии и система. Вып. 5. М.: ООО «Эликс+», 2003. с. 284-296.

64. Ракитов А.И. Информация и наука, технология в глобальных исторических измерениях. М.: ИНИОН РАН, 1998. 104 с.

65. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. М.: Наука, 1989.

66. Семенова С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Труды Международного семинара Диалог'96 по компьютерной лингвистике и приложениям. М., 1996. С. 227-230.

67. Сидоров Ю.В. Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров; Автореф. дисс. канд. техн. наук. Петрозаводск, 2002.

68. Солтон Дж. Динамические библиотечно-поисковые системы. М.: Мир, 1979.

69. Стариков А. Самоорганизующиеся карты. Электронный ресурс. 2000. — Режим доступа: http://www.basegroup.ru/library/analysis/clusterization/som/, свободный.

70. Страбыкин Д.А. Логический вывод в системах обработки знаний / Страбыкин Д.А.; под ред. Д. В. Пузанкова; СПбГЭТУ. СПб., 1998. 164 с.

71. Тейз А., Грибомон П., Юлен Г. и др. Логический подход к искусственному интеллекту. От модальной логики к логике баз данных: Пер.с франц. М.: Мир, 1998.

72. Тоффлер О. Третья волна. М.: ACT, 1999. 360 с.

73. Уидроу Б., Стирнз С. Адаптивная обработка сигналов. М.: Мир, 1989. 440 с.

74. Ульман Дж. Основы систем баз данных. М.: Финансы и статистика, 1987. 334 с.

75. Уэно X., Кояма Т., Окамото Т. и др. Представление и использование знаний: Пер. с япон. М.: Мир, 1989.

76. Филиппович Ю.Н. Лекции по курсу «Семиотика информационных технологий». МГТУ, 2004.

77. Филиппович Ю.Н., Прохоров А.В. Семантика информационных технологий: Опыты словарно-тезаурурусного описания. С предисловием А.И. Новикова. М.: МГУП, 2002. 306 с.

78. Цикридис Д. Модели данных. — М.: Финансы и статистика, 1987.344 с.

79. Цыганов И. Г. Нейросетевые методы автоматизированного анализа информационных потоков в масштабе реального времени // Наукоёмкие технологии и интеллектуальные системы. 2002.

80. Чери С. Логическое программирование и базы данных / С. Чери, Г. Готлоб, Л. Танка; Пер. с англ. М.: Мир, 1992. 352 с.

81. Чугреев В.Л., Моделирование систем искусственного интеллекта. // Перспективные технологии автоматизации: Тезисы докладов международной электронной научно-технической конференции. Вологда: ВоГТУ, 1999. С. 151-152.

82. Шемакин Ю.И. Начала компьютерной лингвистики. М.: Изд.-во МГОУ АО «Роснаука», 1992. 113 с.

83. Шеменков П.С. Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов // Т Comm Телекоммуникации и транспорт статья, выпуск №2, 2009г. С. 42-43 / (входит в перечень ВАК).

84. Шеменков П.С., Макаров JI.M. Алгоритм обучения экспертной системы знаний на основе векторного представления полнотекстовых документов // Третий международный научный конгресс «Нейробиотелеком-2008» / СПбГУТ СПб, 2008. С. Ill -115

85. Шеменков П.С., Макаров JI.M. Векторная модель представления полнотекстовых документов //61-я НТК / ГОУВПО СПбГУТ. СПб, 2009. С. 200-202.

86. Шеменков П.С., Макаров JT.M. Интеллектуальные базы знаний // 59-я НТК / ГОУВПО СПбГУТ. СПб, 2007. С. 59-61.

87. Шеменков П.С., Макаров JI.M. Формирование сетевой интеллектуальной базы знаний // Второй международный научный конгресс «Нейробиоте-леком-2006» / СПбГУТ СПб, 2006. С. 377-380

88. Шрамко Я. Очерк истории возникновения и развития аналитической философии // Логос. 2005. №2. С. 4-12

89. Шумский С.А., Яровой А.В., Зорин О.Л., Ассоциативный поиск текстовой информации // Нейроинформатика-99. М.: Изд-во МИФИ, 1999.

90. Щавелёв Л.В., Способы аналитической обработки данных для поддержки принятия решений, СУБД 1998.

91. Bentivogli L., Pianta Е. Extending WordNet with Syntagmatic Information // Proceedings of International Wordnet Conference (GWC 2004). - 2004. P. 47-53.

92. Bezdek J. C., Pal N. R. Some New Indexes of Cluster Validity // IEEE Transactions On Systems, Man And Cybernetics. 1998. Vol. 28, No. 3. P. 301-315.

93. Boutin F., Hascoet M. Cluster Validity Indices for Graph Partitioning // Proceedings of the Eight International Conference on Information Visualization (IV'04). IEEE 2004.

94. Dummett M. The Seas of Language. Oxford: Clarendon Press, 1993.

95. Halkidi M. On Clustering Validation Techniques / M. Halkidi, V. Batis-takis, M. Vazirgiannis // Journal of Intelligent Information Systems, Kluwer Academic Publishers. Manufactured in The Netherlands. 2001. P. 107-145.

96. Hebb, D. O. "Organisation of Behavior", pub. John Wiley & Sons, New York 1949.

97. Kohonen T. Self organization of a massive document collection // IEEE Transactions on neural networks. 2000. Vol. 11, No. 3. P. 574 585.

98. Kohonen T. Self-organized formation of topologically correct feature maps, Biological Cybernetics, Vol. 43, 1982. P. 59-69.

99. Maulik U., Bandyopadhyay S. Performance Evaluation of Some Clustering Algorithms and Validity Indices // IEEE Transactions On Pattern Analysis And Machine Intelligence. 2002. Vol. 24, No. 12. P. 1650 1654.

100. Pap A. Elements of Analytic Philosophy. N.Y., 1949.

101. Parsaye, K., and Chignell M.H.: Intelligent Database Tools and Applications. New York: John Wiley and Sons, 1993.

102. Parsaye, K., OLAP and Data Mining: Bridging the Gap. Database Programming & Design, 1997.

103. Salton G., Allan J., and Singhal A. Automatic text decomposition and structuring. Information Processing & Management, 32(2): 127-138, 1996.

104. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513-523, 1988.

105. Salton G., Fox E., and Wu H. Extended Boolean information retrieval. Communications of the ACM, Vol. 26, No. 4, December 2001, pp. 35-43.

106. Salton G., McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.

107. Salton G., Singhal A., Mitra M., and Buckley C. Automatic text decomposition and summarization. Information Processing & Management, 33(2): 193-208, 1997.

108. Stein B. On Cluster Validity and the Information Need of Users / B. Stein, S. M. zu Eissen, F. WiBbrock // 3rd IASTED Int. Conference on Artificial Intelligence and Applications: Proceedings of AIA 03. Benalmadena, 2003. P. 216-221.

109. Van Rijsbergen C. J. Information retrieval Электронный ресурс., 1979. Режим доступа: http://www.dcs.gla.ac.uk/Keitli/Preface.html, свободный.

110. Wasserman P. Neurocomputing. Theory and practice, Nostram Rein-hold, 1990. / Перевод на русский язык, Зуев Ю.А., Точенов В.А. Нейрокомпью-терная техника. М.: Мир, 1992.

111. Wentian Li. Random Texts Exhibit Zipf s-Law-Like Word Frequency Distribution / IEEE Transactions on Information Theory. Santa Fe Institute, 1660 Old Pecos Trail, Suite A, Santa Fe, NM 87501: 1992. B. 38. № 6. C. 1842-1845.

112. Yiming Yang, Xin Liu. A Re-Examination of Text Categorization Methods. Тез . докл . 22nd Annual International SIGIR . Berkley, 1999 .145