автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах

кандидата технических наук
Александров, Михаил Юрьевич
город
Москва
год
2008
специальность ВАК РФ
05.25.05
Диссертация по документальной информации на тему «Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах»

Автореферат диссертации по теме "Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах"

На правах рукописи

АЛЕКСАНДРОВ Михаил Юрьевич

МЕТОДЫ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ И СТАТИСТИЧЕСКОГО АНАЛИЗА ВХОДНОГО ПОТОКА ТЕКСТОВОЙ ИНФОРМАЦИИ В ИНФОРМАЦИОННЫХ СИСТЕМАХ

Специальность 05.25.0S - Информационные системы и процессы. Правовые аспекты информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

,. п • ~ ОППП

□□3166637

Москва - 2008

003166637

Диссертационная работа выполнена в ФГУП «Научно-исследовательский центр информатики при Министерстве иностранных дел Российской Федерации»

Научный руководитель доктор технических наук, профессор

Квасницкий Виктор Николаевич

Официальные оппоненты доктор технических наук

Братухин Павел Иванович

кандидат физико-математических наук Дулькин Вадим Наумович

Ведущая организация Всероссийский институт научной и

технической информации РАН

Защита состоится «23» _ 200 О г в час <9о мин на

заседании диссертационного совета Д 219 007 02 во Всероссийском научно-исследовательском институте проблем вычислительной техники и информатизации (ВНИИПВТИ) по адресу 115114, Москва, 2-й Кожевнический пер , д 8 , ауд 213

С диссертацией можно ознакомиться в библиотеке ВНИИПВТИ (115114, Москва, 2-й Кожевнический пер , д 8 )

Автореферат разослан « iMApTO.__200J5r

Ученый секретарь

диссертационного совета Д 219 007 02 кандидат экономических наук

П П Гвритишвили

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В процессе эксплуатации различных информационных систем возникают актуальные проблемы, связанные со сбором, классификацией и предметным анализом больших потоков текстовой информации, поступающих как из российских, так и из зарубежных источников Текстовая информация поступает на многих языках, с использованием различных стилей изложения материала Большой объем информации на различных языках невозможно анализировать вручную, требуется компьютерный поиск, тематический и статистический анализ потока информации Современные условия ставят новые требования к процессу обработки информации, ее автоматической классификации и статистическому анализу результатов обработки

С ростом объема информационного потока специалистам-аналитикам становится все труднее заниматься тематическим анализом информации и ведением аналитических задач вручную при существующих средствах автоматизации Возникает потребность в создании системы, позволяющей выполнять автоматическую классификацию информации входного потока и автоматизировать процесс ведения аналитических задач Программные разработки по автоматической классификации информационных массивов существуют, но они, как правило, лишь частично решают проблему автоматической классификации или ведения аналитических задач и, в основном, жестко привязаны к конкретному языку, конкретным классификаторам или к конкретным аналитическим задачам

Жесткая привязанность к конкретному языку позволяет осуществить более точный синтаксический, семантический и морфологический анализ для данного языка, но при этом качество обработки информации на других языках оставляет желать лучшего Средства морфологического анализа могут быть усовершенствованы только на уровне программиста, а настроить разработку на новый язык в большинстве случаев вообще не представляется возможным

В этой связи актуальной является проблема автоматической классификации входного потока текстовой информации с последующим формированием и ведением тематического анализа и аналитических задач, представляющих собой статистический анализ некоторых промежуточных результатов, полученных в процессе автоматической классификации информации Предлагается решение проблемы универсальности по отношению к языкам, к классификаторам и к аналитическим задачам и решение по переносу проблем настроек системы на различные режимы работы на пользовательский уровень Данная диссертационная работа посвящена решению проблемы автоматической классификации и статистического анализа результатов автоматической классификации входного потока текстовой информации

Степень научной разработанности проблемы автоматической классификации текстовой информации и статистического анализа автоматической классификации Важность проблемы автоматической классификации и статистического анализа определяется необходимостью обеспечения универсальности данной задачи по отношению к иностранным языкам, к классификаторам и к тематической направленности аналитических задач, решаемых во многих организациях

Многие теоретические и практические вопросы автоматической классификации текстов и статистического анализа результатов автоматической классификации получили свое решение на достаточно высоком уровне в работах российских специалистов Белоногова Г Г , Буркова В Н , Зеленкова Ю Г , Новоселова А П , Хорошилова А В , Дубинского А Г , Ермакова А В и др, а также ряда зарубежных специалистов Штейна В , Жоачимса Т и др

Несмотря на то, что проблема автоматической классификации текстовой информации представлена на достаточно высоком уровне, предлагаемые разработки не являются универсальными по отношению к иностранным языкам и к стилю изложения текстов Несмотря на высокий уровень решения задачи автоматической классификации, предлагаемые системы являются

практически закрытыми и не имеют возможности настроек на пользовательском уровне на работу с новыми иностранными языками Отсутствие предложений по методике статистического анализа, позволяющего связывать между собой классы нескольких классификаторов, по ведению многоклассификаторных аналитических задач, универсальных по тематической направленности, а также цельных предложений, связывающих между собой задачи автоматической классификации и статистического анализа, обусловили выбор темы настоящей диссертации

Основной целью настоящей , работы является разработка и программная реализация методов автоматической классификации входного потока текстовой информации и методов ведения тематического анализа и аналитических задач на основе статистического анализа результатов автоматической классификации

Объектом исследования является ведомственная информационная система

Предметом исследования являются методы автоматической классификации и статистического анализа информации в информационных системах

В настоящей диссертационной работе были поставлены и решены следующие задачи

• сформулировать системный подход к совершенствованию методов автоматического анализа текста,

• определить технические требования к системам автоматической классификации входного потока текстовой информации и к средствам статистического анализа результатов обработки текстов,

• разработать методику автоматической классификации с применением морфологического анализа, универсальную по отношению к различным иностранным языкам и стилю изложения текстов,

• разработать структуру и методику ведения словарей ключевых словосочетаний,

• разработать методы оптимизации поиска без предварительного индексирования обрабатываемого массива текстовой информации,

• разработать методику статистического анализа результатов автоматической классификации текстов и формирования статистических баз данных и аналитических задач,

• разработать методику ведения тематического анализа и аналитических задач с автоматическим определением тематик или фактов, представляющих особый интерес

Методы исследования. Исследование проводилось путем анализа логико-математических закономерностей морфологии русского языка, анализа структуры существующих словарей и поисковых запросов и логических моделей возможных запросов, математического анализа методики оценки релевантности запросов, путем создания экспериментальных баз данных и разработки экспериментальных вспомогательных программных продуктов, моделирующих научные решения по данной проблеме Для обоснования предлагаемых научных и технологических решений, для оптимизации работы системы и для решения многих вспомогательных задач широко использовались современные математические методы в области вычислительной математики, теории вероятности, алгебры логики, математической статистики и других областей

Научная новизна диссертационной работы заключается в следующем

- разработаны научные и технологические решения по созданию классификационно-аналитической системы, отличающейся от существующих аналогов универсальностью по отношению к языкам, классификаторам и к специфике задач предметного анализа текстовой информации в информационных системах,

- разработана и обоснована структура и методика ведения словарей ключевых словосочетаний с учетом оптимизации по быстродействию,

разработана методика статистического анализа результатов автоматической классификации текстов и формирования и ведения статистических баз данных, позволяющая проводить предметный анализ

текстов, опирающийся на любой набор классификаторов Отличительной особенностью данной методики является то, что она позволяет учитывать взаимоотношения классификаторов и систематизирует связи между классами различных классификаторов,

- разработана методика ведения тематического анализа и аналитических задач, позволяющая идентифицировать объекты аналитического учета (действия, события и пр ) по результатам статистических расчетов

Теоретическая значимость. Предложенная комплексная методика автоматической классификации и статистического анализа является совершенствованием существующих подходов и в дальнейшем может быть расширена и дополнена функциями автоматического и автоматизированного тематического анализа потоков текстовой информации Структура статистических баз данных, формируемых с помощью предложенной технологии позволяет ставить и решать большой спектр статистических и математических расчетных задач и задач, связанных с принятием решений, имеющих место в информационных системах Развитие данной разработки может осуществляться путем дополнения ее новыми решениями в области морфологического, синтаксического и семантического анализа языков, для усовершенствования методов морфологического анализа, разработки методов семантического и синтаксического анализа языков, с последующим предложением решения о принципах ввода правил семантического и синтаксического анализа на пользовательском уровне

Практическая значимость. Данная разработка может иметь широкий спектр применения для различных предметных областей Предложенная разработка позволяет формировать текстово-фактографические базы данных, содержащие классифицированную информацию, в автоматическом режиме На основании результатов классификации имеется возможность формировать аналитические задачи и статистические базы данных по результатам обработки текстов, автоматизировать работу специалистов-аналитиков, осуществляющих тематический анализ текстовой информации и ведение аналитических задач в различных предметных областях, что может послужить

функциональным дополнением и развитием информационных систем различных организаций

Самостоятельное практическое значение имеют

- методика обработки текстов на различных иностранных языках,

- методика статистического анализа результатов автоматической классификации

Внедрение и апробация результатов исследования.

Программа автоматической классификации текстовой информации «Автоклассификация» и программа статистического учета данных автоматической классификации, разработанные на основе диссертационного исследования, прошли испытания и успешно внедрены в подсистеме «Центр-МИД» в рамках опытно-конструкторской работы «Центр» Федеральной целевой программы

Основные результаты работы докладывались на IX Международной научно-практической конференции «Документация в информационном обществе административная реформа и управление документацией» (Москва, 2004) и на заседании научно-технического совета ФГУП «НИЦИ при МИД России»

Публикации. Основные положения диссертационного исследования отражены в четырех публикациях автора общим объемом 3,5 печатных листа, в том числе две - в журнале, рекомендуемом ВАК России

Структура и объем диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы и трех приложений Общий объем диссертационной работы 203 страницы, содержащих машинописный текст, 8 рисунков и 34 таблицы

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи исследования, изложены научно-теоретическая и практическая значимость результатов выполненной работы

В первой главе «Общая характеристика проблемы автоматической обработки входного потока текстовой информации и статистического анализа полученных результатов» анализируется проблема проведения предметного анализа и основные требования, которые должны быть предъявлены к предлагаемым решениям проблемы

Многие крупные организации, государственные структуры и их подразделения имеют перед собой задачи по обработке неформализованной текстовой информации, поступающей как в виде отдельных документов, так и в виде целого потока текстовой информации Под потоком понимается непрерывное поступление информации от различных источников

Разные организации, министерства и ведомства решают свои задачи по обработке потока входной информации Практически все задачи по обработке входного потока информации и по предметному анализу содержимого имеют общие проблемы, связанные с формированием баз данных с отобранной информацией и с поиском в содержимом входного потока определенных ситуаций Анализ производится по событиям, по ситуациям, по действиям определенных персон Для осуществления предметного анализа содержимого входного потока и для формирования баз данных с отобранной информацией возникает задача классификации и предметного анализа данных

Предметом анализа входного потока текстовой информации в различных структурах могут быть различные ситуации Например, в органах внутренних дел предметом анализа могут быть преступления или персоны, на которые может заводиться картотека, в налоговых органах - налогоплательщики или налоги, в Министерстве культуры - культурные события и т д При анализе входного потока текстовой информации, тексты с определенным содержанием могут подвергаться обработке, состоящей из формализации, классификации и формированию баз данных С бурным ростом объемов и интенсивности потоков текстовой информации, требующей определенного предметного анализа, возникает проблема автоматизации процесса анализа содержания текстовой информации, поступающей на обработку Проблема автоматизации процесса проведения анализа состоит из автоматизации процесса

формализации и классификации информации входного потока и автоматизации процесса статистического анализа содержания поступающей информации, вплоть до автоматизированного или автоматического выявления ситуации, регистрации события или пополнения картотеки персон или организаций, в зависимости от предмета анализа

Для решения задач автоматизации процесса работы с текстовой информацией в различных ведомствах разработаны и эксплуатируются ведомственные информационные системы Системы представляют собой сложную структуру, состоящую из процессов приема, обработки, хранения и передачи информации и многочисленных баз данных различной тематической направленности, как общеминистерского пользования, так и локального предназначения для отдельных подразделений ведомства Алгоритм морфологического анализа, используемый в информационных системах, долгое время оставался примитивным на уровне усеченного поиска В последнее время, несмотря на доработки алгоритма морфологического анализа и использование при отборе информации возможности поисковых средств Яндекса, в системе обработки текстовой информации до настоящего времени остается проблематичным классификация по новым классификаторам, а набор языков, на которых могут обрабатываться тексты, остается строго постоянным Добавление нового классификатора или нового языка является достаточно сложной задачей, решаемой на уровне программистов

Самыми главными требованиями к средствам автоматической классификации и статистического анализа следует считать универсальность, модульность и устойчивость Общие требования, предъявляемые к системам, такие, как быстродействие, качество работы и результатов, отказоустойчивость, простота в обращении, следует также учитывать при разработке системы С учетом общих требований, универсальность и модульность позволят значительно расширить область применения предлагаемых разработок

Для систем автоматической классификации и статистического анализа текстовой информации в качестве параметров или критериев универсальности выступают следующие показатели

- язык текста (русский, английский и др ),

- набор классификаторов или тематическая направленность,

- тип обрабатываемой информации или стиль изложения материала в текстах,

- способ набивки текста,

- кодировка символов текста,

- способ принятия решения или методика расчета различных параметров,

- формат входных и выходных данных,

- источники информации

Под модульностью системы понимается построение системы из предлагаемого набора компонентов, возможность как полного, так и частичного использования функций системы путем отсоединения отдельных компонентов, возможность получения на выходе промежуточных результатов работы системы и возможность разработки и добавления компонентов к системе для расширения ее функциональных возможностей

Устойчивость системы подобно универсальности имеет рад критериев, по отношению к которым считается данная величина Один из критериев устойчивости — это устойчивость к изменению требований к небольшим изменениям в постановке задачи Определение устойчивости системы по данному критерию аналогично определению предела функции по Коши, используемого в высшей математике для любого е > 0 существует 5 = 8(е), такая, что если постановка задачи изменяется на 5, то трудоемкость доработки системы не превышает е Смысл определения заключается в том, что малые изменения в требованиях к системе или в постановке задачи не должны приводить к значительным трудозатратам по доработке системы или к повторной разработке большей части ее компонентов В качестве других критериев устойчивости следует отметить ошибки или дефекты в структуре

входных данных, противоречивые параметры настроек, переполнение данных или перегрузка ресурсов вычислительной техники, сбои в работе технических средств, некорректные действия пользователя или администратора

Во второй главе «Методика автоматической классификации входного потока текстовой информации с применением конструктивных решений СПО «Автоклассификация» разработана и предложена методика автоматической классификации заданного массива текстовой информации и разработана прикладная программа, работающая в соответствии с предложенной методикой - специального программного обеспечения (СПО) «Автоклассификация»

Предложенный в настоящей работе принцип автоматической классификации состоит из трех основных частей, каждой из которой посвящен соответствующий раздел данной главы Первый раздел содержит подробное описание структуры таблиц морфологического анализа для различных языков на примере русского языка. Во втором разделе рассматривается методика ведения классификаторов и словарей ключевых словосочетаний, структура ключевых словосочетаний и принцип построения индексных файлов для оптимизации работы со словарями В третьем разделе описана методика принятия решения о присвоении обрабатываемому тексту классов из заданного классификатора

Для работы с различными языками автором разработаны и предложены специальные таблицы морфологического анализа Таблицы морфологического анализа представляют собой упорядоченную форму представления параметров настроек программы автоматической классификации для работы с текстами, представленными на различных иностранных языках Для настройки программы на различные языки предлагается задание четырех таблиц морфологии и таблицы нормализации азбуки языка Вынесение данных морфологического анализа за пределы программы дает возможность задавать на пользовательском уровне правила морфологического анализа языков, что обеспечивает универсальность предлагаемого решения по отношению ко многим иностранным языкам В работе представлены таблицы для русского

языка таблица классов слов, таблица окончаний, таблица особых условий и таблица последних букв основ

Таблица классов слов содержит определения классов слов Под классом слов следует понимать слова, которые при склонении для одного и того же числа и падежа имеют одинаковые окончания Класс определяется частью речи слов, родом, набором окончаний, возможными последними буквами основ и возможными изменениями основ слов при склонении вследствие беглых гласных или чередований отдельных букв Каждая строка таблицы классов слов соответствует определенному классу Каждый столбец таблицы соответствуют словоформе число-падеж для слов Для русского языка выделено 35 классов слов и 12 словоформ для каждого класса На основании таблицы классов слов создаются формализованные таблицы окончаний, особых условий и последних букв основ

Таблица окончаний содержит двоичные коды для каждого окончания, встретившегося в таблице классов слов Коды содержат информацию об отношении каждого окончания к соответствующим классам слов, к частям речи, к родам, числам и падежам Таблица особых условий содержит двоичные коды, отражающие отношения классов слов и особых условий В качестве особых условий рассматриваются часть речи, роды и особые правила языка, такие, как беглые гласные и чередования букв при склонении Коды особых условий используются для определения признаков возможного изменения основы слова при склонении и при проверке комбинаций слов «прилагательное + существительное» на предмет согласованности по роду, числу и падежу Таблица последних букв основ содержит двоичные коды для каждой буквы азбуки соответствующего языка Коды выражают отношение каждой буквы к классам слов, в которых данная буква может быть последней буквой основы

Таблицы морфологического анализа используются при сравнении слов в процессе поиска ключевых словосочетаний в обрабатываемом тексте и для анализа комбинаций слов «прилагательное + существительное» на предмет согласованности по роду, числу и падежу

Предложенная методика морфологического анализа позволяет сравнивать слова даже с изменяющимися основами слов при склонении

- чередование суффиксов («теленок - телята», «мать - матери»),

- разносклоняемые существительные («время - времена»),

- беглые гласные («Египет - Египта»),

- чередование букв в основе слова («клок - клочья», «заяц - зайцы»)

Алгоритм сравнения слов состоит из двух частей полного анализа

первого слова, выполняемого при индексировании словаря ключевых словосочетаний и анализа слова из текста, в процессе которого сопоставляются данные анализа с результатами анализа слова словаря для принятия решения о равенстве или неравенстве слов

Второй раздел второй главы посвящен работе со словарями ключевых словосочетаний, их структуре и принципу индексирования словарей для оптимизации работы с ними при выполнении автоматической классификации текстовой информации Под ключевым словосочетанием понимается элементарная запись словаря Под словосочетанием понимается произвольный набор слов, состоящий как минимум из одного слова Ключевое словосочетание состоит из трех частей основная часть, дополнительная часть и стоп-часть Основная часть ключевого словосочетания состоит из одного словосочетания Дополнительная часть состоит из произвольного количества словосочетаний, включая их отсутствие Стоп-часть также может состоять из произвольного количества словосочетаний, включая их отсутствие Ключевое словосочетание входит в предложение обрабатываемого текста, если в предложение входит основная часть, входит хотя бы одно словосочетание дополнительной части, если она не пустая, и не входит ни одного словосочетания стоп-части при ее наличии

Если формально изложить структуру ключевых словосочетаний, получим следующее Пусть А - основная часть,

в={в, },/ = 1, ,т - дополнительная часть, В, - словосочетание дополнительной части,

С = {с,}, 1 = 1, ,п - стоп-часть, С, - словосочетание дополнительной части, £=/Швис - ключевое словосочетание

Ц5)={0,1}- логическая функция, отображающая результат вхождения словосочетания .V в предложение /,(Л') = 1 - положительный результат, /.(.У) = о- отрицательный результат соответственно

Условие вхождения ключевого словосочетания в обрабатываемое предложение можно записать в виде

Э/ = 1, ,т,V/ =1, ,п ¿(5) = Ф)л[ОД)у(й = 0)]л[^(С^(С = 0)], где 0 - пустое множество

Предложенная структура ключевых словосочетаний позволяет работать как с простыми словарями, используя только основную часть, так и представлять логически сложные поисковые запросы в виде предложенного формата В диссертационной работе доказана теорема о том, что любой поисковый запрос, состоящий из словосочетаний и логических действий между ними (любой сложности) можно представить в эквивалентном виде в предлагаемом формате словарей

Пусть х,,1 = \, ,п - логические переменные, обозначающие, что ;-е словосочетание, введенное в поисковый запрос должно входить в обрабатываемый текст, где и- общее количество словосочетаний в поисковом запросе Логические переменные могут принимать два значения 1 -словосочетание входит в обрабатываемый текст, 0- не входит соответственно Тогда поисковый запрос является логической функцией ^(л,,*,, ,х„), которая принимает значения 0 - запрос не входит в текст, 1 - запрос входит в текст При обработке текста выполняется анализ вхождения словосочетаний в текст и вычисляется значение логической функции ,.х„)для конкретных

значений ее аргументов

Любое логическое выражение, в том числе Е(хх,хг, ,х„)можно

представить в виде дизъюнктивной нормальной формы (ДНФ)

к

Р(хх,х2, ,х„)=\/К ¡=1 7

где К; - элементарные конъюнкты ДНФ или логические слагаемые Для каждого конъюнкта дизъюнктивной нормальной формы логической функции поискового запроса вводится в словарь отдельное ключевое словосочетание Каждый конъюнкт ДНФ запроса имеет вид х) хк При xJ =1 и хк=0, логическая функция Г(х},х1, ,х„) = 1 Конъюнкт можно представить в виде ключевого словосочетания, в котором основная часть представляет собой объединение словосочетаний х1, дополнительная часть остается пустой, а стоп-часть состоит из словосочетаний хк Дополнительная часть может использоваться при наличии нескольких конъюнктов, в которых частично совпадает набор переменных, вошедших без отрицания и полностью совпадает (или отсутствует) набор переменных, вошедших с отрицанием Например,

^^ — (.^2 ^^ ) В этом случае основная часть ключевого словосочетания состоит из словосочетания дополнительная часть состоит из двух словосочетаний х2 и х3, а стоп-часть - из словосочетания *4 Например Кокосовые острова для класса «Австралия» можно ввести в словарь в виде основная часть -«острова», дополнительная часть - «Киллинг, Кокосовые, Норфолк, Рождества» - перечисление всех синонимов в виде четырех словосочетаний Таким образом обосновано наличие в ключевых словосочетаниях словаря дополнительной части и стоп-части, которые могут как оставаться пустыми, так и включать в себя более одного словосочетания

Данная структура ключевых словосочетаний предполагает специальное индексирование словарей для оптимизации поиска ключевых словосочетаний в предложения обрабатываемого текста При индексировании выполняется морфологический анализ всех слов словаря Структура индексных файлов разработана с учетом оптимизации по быстродействию при выполнении анализа обрабатываемых текстов Для каждого словаря создается шесть специальных индексных таблиц

Для целей быстрого поиска по индексу словаря реализованы специальные методы поиска и сравнения слова словаря со словом текста Алгоритм анализа вхождения ключевого словосочетания в предложение текста приведен на рис 1

В процессе анализа вхождения ключевого словосочетания в рассматриваемое предложение текста вычисляются вспомогательные параметры веса вхождения и номеров предложения текста, в которые входят ключевые словосочетания Вес отношения каждого класса к обрабатываемому тексту определяется по совокупности весов вхождения ключевых словосочетаний, соответствующих данному классу в предложения обрабатываемого текста

Третий раздел второй главы описывает методику принятия решения о присвоении обрабатываемому тексту классов на основе расчетного значения весов При расчете весов учитываются значения некоторых параметров настроек, которые вводятся в программу для оптимизации принятия решений о присвоении классов обрабатываемому тексту, в зависимости от стиля изложения материала в тексте и от классификатора Основными параметрами настроек являются наибольшее количество классов, весовой коэффициент заголовка, минимальный вес класса и параметр регрессивности начисления веса класса, сопоставляемого тексту

Параметр регрессивности начисления веса определяет вариант регрессивности при расчете веса класса линейная регрессивность с параметром к, экспоненциальная регрессивность с параметром к и полная регрессивность с параметром к соответственно

ЖЧ4/70

Екодят ли слова основной час/т?

Все ли комбинации основной части соотзетстзукпР

веется ли >

дополнительная часпъ?

И&ется ли стоп-часпъ?

Начало цикла по словосочеггвниям дополнительной части

Начало цикла по словосочетаниям стоп- части

Входят ли слово словосочетания доп. часпи?

Входят ли слова словосочетания стоп- часг

Имеются ли комбинации, расположетье частично в стоп- часпи, частично в доп. части?

Все ли комбинации соотзетстзукт?

Все ли комбинации соотзетжукт?

Конец цикла по словосочеггвниям дополнительной части

Все ли комбинации соответствуют!?

Конец цикла по словосочетаниям стоп-часпи

НЕБХСДИГ

Рис. 1. Алгоритм проверки вхождения ключевого словосочетания в

предложение

При линейной регрессивности вес вхождения ключевого словосочетания в предложение текста линейно зависит от позиции первого символа текущего предложения текста и изменяется от 1 в начале текста до к в конце и задается формулой

где / - длина текста в символах, х — позиция начала предложения в тексте

При экспоненциальной регрессивности вес вхождения ключевого словосочетания в предложение текста, имеющее номер п, задается формулой

к

где Я = 1п— - декремент убывания Параметр регрессивности к численно к

равен отношению веса вхождения ключевого словосочетания в последующее предложение к весу вхождения в предыдущее предложение

/'(» + !) _ Р{п)

Полная регрессивность заключается в построении упорядоченного списка классов, присвоенных обрабатываемому тексту по принципу чем раньше встретилось в тексте ключевое словосочетание, тем раньше соответствующий класс занесен в упорядоченный список Вес класса, имеющего в списке номер п определяется по формуле

Рп = г-1

Данный параметр, наряду с весовым коэффициентом заголовка, является основным параметром для настройки программы на стиль изложения текста и на тип классификатора

Веса классов, сопоставленных текстам и номера предложений, в которых зарегистрированы вхождения ключевых словосочетаний являются предварительными параметрами статистического анализа обработанного текстового массива и сохраняются, помимо классов, как результат

автоматической классификации для дальнейшего выполнения статистического анализа

В третьей главе «Методика статистического анализа, формирования и ведения аналитических задач с применением конструктивных решений СПО «Судак» разработана и предложена методика ведения статистического анализа результатов автоматической классификации потока текстовой информации Глава состоит из двух разделов В первом разделе главы описывается сама постановка задачи и процесс подготовки исходных данных для проведения статистического анализа Во втором разделе описывается построение статистического анализа, структура и постановка аналитических задач, структура статистической базы данных аналитической задачи

В работе специалистов по проведению тематического анализа полученной информации возникают различные задачи требующие поиска, или реферирования информации, соответствующей определенным критериям Как правило, наиболее простые задачи аналитиков можно разделить на два типа тип «тематика - география» и «действующее лицо - действие» Перед аналитиками могут быть поставлены и более сложные задачи тематического анализа текстов, для определения которых требуется более двух классификаторов Например, анализ кризисных ситуаций, природных или техногенных катастроф и другие

Под аналитической задачей следует понимать определенную предметную область исследования текстовой информации, заданную набором определенных классификаторов и отношений между ними Отношение между двумя классификаторами — это определение роли классификатора в качестве основного классификатора, классы которого являются основными объектами исследования, или в качестве дополнительного классификаторами, классы которого связаны по интересу с классами основного классификатора Таким образом, аналитическая задача считается поставленной, если задано множество классификаторов и отношений между ними

Каждая аналитическая задача ведется путем занесения элементарных статистических записей в статистическую базу данных Элементарная

статистическая запись вводится на основании результатов автоматической классификации документа и имеет следующие атрибуты

- дата записи, совпадает с датой проводимого документа,

- номер записи, уникальный ключ для системных целей,

- код класса основного классификатора,

- код класса дополнительного классификатора,

- вес связи, получается расчетным путем на основании данных, выгружаемых СПО «Автоклассификация» для обработанного документа,

- ссылка на уникальный регистрационный код документа, являющегося основанием для записи

Вес связи рассчитывается по следующей формуле

Р(В,)

W4 = кА =

2 т)'

к=1

где 4,1 = 1 ,«„ - множество классов основного классификатора, поставленных в соответствие некоторому документу с весами Р(А,), па* о — количество классов, Bjyj = \, ,пь — множество классов дополнительного классификатора, поставленных в соответствие документу с весами Р(В,), пьф 0 - количество классов

Р - Р(А ) ПВ'>

ij ' nh _ предварительный вес статистической записи -

к= 1

доля веса класса А,, приходящаяся на корреспондирующий класс Bt

Если номера предложений, в которых зафиксированы вхождения ключевых словосочетаний для корреспондирующих классов А1 и BJ совпали или отличаются на единицу, то для корректировки веса статистической записи можно задать поправочные коэффициенты А, и к2 соответственно кц = kt , если имеется совпадение номера предложения, кч = к2, если номера предложений отличаются на единицу,

кч= 1 - в остальных случаях

Для многокласснфикаторных аналитических задач множество классов BJ представляет собой объединение классов всех классификаторов, которые при постановке аналитической задачи являются дополнительными по отношению к классификатору А и поставлены в соответствие рассматриваемому документу Таким образом, значимость документа IVили степень интереса к документу в рамках конкретной аналитической задачи определяется по следующей формуле

Основные формы представления статистических расчетов и связь между ними изображены на рис 2

Основной формой служит таблица значимости классов Таблицы распределения значимости класса по датам и по корреспондирующим классам имеют отношения к конкретному классу Для классов, в журналах которых вес статистической записи может иметь как положительный знак (класс основного классификатора), так и отрицательный знак (класс дополнительного классификатора), значимость за заданный интервал дат представляется в виде двух компонентов положительного и отрицательного

Таблица значимости классов рассчитывается за определенный интервал дат, в которой для каждого класса отражаются оба компонента его значимости Данные значения отражают важность класса, его активность в обработанном массиве текстов или численно выраженную степень интереса к классу в рамках текущей аналитической задачи

/

\

/

Рис 2 Схема взаимосвязи представлений статистики по журнально-ордерной

форме

Таблица распределения значимости класса по датам может послужить отправной точкой для составления уведомления пользователю о повышенном интересе к соответствующему классу Резкий «скачок» значений значимости может указать на объект повышенного внимания для аналитиков Если речь идет о событии, то оно, скорее всего, произошло, если речь идет о стране, то в данной стране, возможно, что-то случилось Таблица распределения

значимости класса по корреспондирующим классам наглядно иллюстрируется диаграммой, а таблица распределения значимости класса по датам - графиком От записей данных таблиц можно перейти к перечню статистических записей, веса которых повлияли на значимость рассматриваемого класса и, наконец, к текстам самих документов, на основании которых проведены по статистике соответствующие статистические записи

Для привлечения внимания специалистов - аналитиков разработана форма представления проведенных по статистике документов, упорядоченных по убыванию их веса Документы, представляющие наибольший интерес, располагаются в верхней части списка Таким образом, специалист может изучить наиболее интересную информацию, не выполняя никаких поисковых запросов

В заключении дан анализ и обобщение результатов проделанной диссертационной работы и определяются направления развития исследований по поставленной в настоящей диссертации задаче

• Сформулирован системный подход к совершенствованию методов автоматического анализа текстов

• Определены и систематизированы актуальные требования к системам автоматической классификации входного потока текстовой информации и к средствам статистического анализа результатов обработки текстов

• Разработана методика автоматической классификации с применением морфологического анализа, универсальная по отношению к различным иностранным языкам и стилю изложения текстов

• Разработана структура и методика ведения словарей ключевых словосочетаний

• Разработаны методы оптимизации поиска без предварительного индексирования обрабатываемого массива текстовой информации

• Разработана методика статистического анализа результатов автоматической классификации текстов и формирования статистических баз данных и аналитических задач

• Разработана методика ведения тематического анализа и аналитических задач с автоматическим определением тематик или фактов, представляющих особый интерес

По теме диссертационной работы опубликованы следующие работы в журнале, рекомендованном ВАК России:

1 Александров М Ю, Певцов В Н Применение теории нечетких множеств при автоматической классификации входного потока текстовой информации // Нейрокомпьютеры, разработка, применение, 2008 -№1-2 -0,9/0,5 пл

2 Александров М Ю Рекомендуемая структура ключевых словосочетаний для автоматической классификации текстов // Нейрокомпьютеры, разработка, применение, 2008 -№ 1-2 -0,9пл

В других научных изданиях:

3 Александров М Ю Постановка аналитических задач и ведение статистических баз данных для автоматизации задач предметного анализа текстовой информации Научная статья -М Стандартинформ, 2007 -1,0п л

4 Александров М Ю Организация статистического учета результатов классификации текстовой информации с применением методики ведения бухгалтерского учета Научная статья - М Стандартинформ, 2007 - 0,7 п л

Подписано в печать 17 03 08 Формат 60x84 1/16 Бум офсетная Печ л 1,0 Тираж 100 экз Заказ 96

Издательство «Московский печатник» 123995, Москва, Гранатный пер , д 4, ФГУП «Стандартинформ»

Оглавление автор диссертации — кандидата технических наук Александров, Михаил Юрьевич

ВВЕДЕНИЕ

ГЛАВА 1. Общая характеристика проблемы автоматической обработки входного потока текстовой информации и статистического анализа полученных результатов

1.1. Проблема автоматической классификации и статистического анализа

1.2. Развитие технологий обработки текстовой информации в МИД России

1.3. Общие требования к средствам автоматической классификации и статистического анализа входного потока текстовой информации

1.4. Показатели'универсальности системы и основные требования к их реализации

1.5. Общая характеристика предлагаемой методики решения задачи автоматической классификации и статистического анализа входного потока текстовой информации

ГЛАВА 2. Методика автоматической классификации входного потока текстовой информации с применением конструктивных решений СПО «Автоклассификация»

Раздел 2.1. Принцип построения морфологического анализа в программе «Автоклассификация»

2.1.1. Программа «Автоклассификация». Основные понятия и допущения

2.1.2. Таблица классов слов

2.1.3. Таблица окончаний

2.1.4. Таблица особых условий

2.1.5. Таблица последних букв основ слов

2.1.6. Основные действия с кодами

2.1.7. Предварительный анализ слова словаря. Разбивка на основу и окончание

2.1.8. Определение возможной беглой гласной

2.1.9. Чередование согласных

2.1.10. Изменение буквы «Е» на «Ь» при склонении слов

2.1.11. Чередование смягчающей гласной - «И»

2.1.12. Проверка падежного согласования комбинаций

2.1.13. Полное сравнение слов

Раздел 2.2. Структура ключевых словосочетаний словарей. Принцип индексирования словарей

2.2.1. Основные понятия

2.2.2. Структура ключевых словосочетаний

2.2.3. Сведение поисковых запросов других поисковых систем к формату ключевых словосочетаний СПО «Автоклассификация». Дизъюнкивная нормальная форма запросов. Объяснение структуры ключевых словосочетаний СПО «Автоклассификация»

2.2.4. Комбинации «прилагательное + существительное»

2.2.5. Реестр комбинаций

2.2.6. Корректировка результата вхождения ключевого словосочетания в предложение при наличии комбинаций «прилагательное + существительное»

2.2.7. Алгоритм принятия решения о вхождении ключевого словосочетание в обрабатываемое предложение текста

2.2.8. Синтаксические правила ввода словосочетаний в СПО «Автоклассификация»

2.2.9. Построение и структура индексных файлов словаря

2.2.10. Поля, используемые в индексных файлах словаря

2.2.11. Некоторые особенности программы «Автоклассификация» по работе с классификаторами и словарями

Раздел 2.3. Обработка текстов и принятие решений о присвоении классов в СПО «Автоклассификация»

2.3.1. Основные понятия

2.3.2. Формат исходных данных и результатов обработки

2.3.3. Особенности построения текстовых файлов и параметры настроек

2.3.4. Обработка предложений

2.3.5. Определение численной характеристики (веса) вхождения ключевого словосочетания в текст

2.3.6. Основные параметры настроек, связанные с принятием решения

2.3.7. Общие и частные параметры настроек

2.3.8. Результаты автоматической обработки текстов

2.3.9. Перспективы использования программы «Автоклассификация»

ГЛАВА 3. Методика статистического анализа, формирования и ведения аналитических задач с применением конструктивных решений СПО «Судак»

Раздел 3.1. Постановка аналитической задачи, проведение предварительных расчетов статистических данных в процессе выполнения автоматической классификации СПО «Автоклассификация»

3.1.1. СПО «Судак». Основные функции и предназначение

3.1.2. Понятие аналитической задачи

3.1.3. Методика определения предварительных численных характеристик

3.1.4. Основные параметры настроек, связанные с определением веса класса

3.1.5. Использование предварительных результатов статистики для формирования статистических баз данных

Раздел 3.2. Формирование и ведение аналитических задач с применением конструктивных решений СПО «Судак»

3.2.1. Статистическая запись в базу. Принцип двойной записи

3.2.2. Построение статистической базы данных аналитической задачи

3.2.3. Учетная политика. Принцип ввода данных в статистическую базу данных

3.2.4. Физический смысл итоговых значений весов статистических записей по всем классам и по отдельно взятому классу

3.2.5. Таблица значимости классов

3.2.6. Форма представления данных статистического анализа

3.2.7. Анализ документов по их значимости

3.2.8. Методы автоматической идентификации событий

3.2.9. Абсолютные и относительные величины значимости классов

3.2.10. Уточнение результатов идентификации событий путем разбиения входной информации на потоки

3.2.11. Построение аналитических задач по трем определяющим классификаторам. Работа с промежуточным классификатором

3.2.12. Многоклассификаторные аналитические задачи

Введение 2008 год, диссертация по документальной информации, Александров, Михаил Юрьевич

Актуальность работы. В процессе эксплуатации различных информационных систем возникают актуальные проблемы, связанные со сбором, классификацией и предметным анализом больших потоков текстовой информации, поступающих как из российских, так и из зарубежных источников. Текстовая информация поступает на многих языках, с использованием различных стилей изложения материала. Большой объем информации на различных языках невозможно анализировать вручную, требуется компьютерный поиск, тематический и статистический анализ потока информации. Современные условия ставят новые требования к процессу обработки информации, ее автоматической классификации и статистическому анализу результатов обработки.

С ростом объема информационного потока специалистам-аналитикам становится все труднее заниматься тематическим анализом информации и ведением аналитических задач вручную при существующих средствах автоматизации. Возникает потребность в создании системы, позволяющей выполнять автоматическую классификацию информации входного потока и автоматизировать процесс ведения аналитических задач. Программные разработки по автоматической классификации информационных массивов существуют, но они, как правило, лишь частично решают проблему автоматической классификации или ведения аналитических задач и, в основном, жестко привязаны к конкретному языку, конкретным классификаторам или к конкретным аналитическим задачам.

Жесткая привязанность к конкретному языку позволяет осуществить более точный синтаксический, семантический и морфологический анализ для данного языка, но при этом качество обработки информации на других языках оставляет желать лучшего. Средства морфологического анализа могут быть усовершенствованы только на уровне программиста, а настроить разработку на новый язык в большинстве случаев вообще не представляется возможным.

В этой связи актуальной является проблема автоматической классификации входного потока текстовой информации с последующим формированием и ведением тематического анализа и аналитических задач, представляющих собой статистический анализ некоторых промежуточных результатов, полученных в процессе автоматической классификации информации. Предлагается решение проблемы универсальности по отношению к языкам, к классификаторам и к аналитическим задачам и решение по переносу проблем настроек системы на различные режимы работы на пользовательский уровень. Данная диссертационная работа посвящена решению проблемы автоматической классификации и статистического анализа результатов автоматической классификации входного потока текстовой информации.

Степень научной разработанности проблемы автоматической классификации текстовой информации и статистического анализа автоматической классификации. Важность проблемы автоматической классификации и статистического анализа определяется необходимостью обеспечения универсальности данной задачи по отношению к иностранным языкам, к классификаторам и к тематической направленности аналитических задач, решаемых во многих организациях.

Многие теоретические и практические вопросы автоматической классификации текстов и статистического анализа результатов автоматической классификации получили свое решение на достаточно высоком уровне в работах российских специалистов: Белоногова Г.Г., Буркова В.Н., Зеленкова Ю.Г., Новоселова А.П., Хорошилова А.В., Дубинского А.Г., Ермакова А.В. и др., а также ряда зарубежных специалистов: Штейна В., Жоачимса Т. и др.

Несмотря на то, что проблема автоматической классификации текстовой информации представлена на достаточно высоком уровне, предлагаемые разработки не являются универсальными по отношению к иностранным языкам и к стилю изложения текстов. Несмотря на высокий уровень решения задачи автоматической классификации, предлагаемые системы являются практически закрытыми и не имеют возможности настроек на пользовательском уровне на работу с новыми иностранными языками. Отсутствие предложений по методике статистического анализа, позволяющего связывать между собой классы нескольких классификаторов, по ведению многоклассификаторных аналитических задач, универсальных по тематической направленности, а также цельных предложений, связывающих между собой задачи автоматической классификации и статистического анализа, обусловили выбор темы настоящей диссертации.

Основной целью настоящей работы является разработка и программная реализация методов автоматической классификации входного потока текстовой информации и методов ведения тематического анализа и аналитических задач на основе статистического анализа результатов автоматической классификации.

Объектом исследования является ведомственная информационная система.

Предметом исследования являются методы автоматической классификации и статистического анализа информации в информационных системах.

В настоящей диссертационной работе были поставлены и решены следующие задачи:

• сформулировать системный подход к совершенствованию методов автоматического анализа текста;

• определить технические требования к системам автоматической классификации входного потока текстовой информации и к средствам статистического анализа результатов обработки текстов;

• разработать методику автоматической классификации с применением морфологического анализа, универсальную по отношению к различным иностранным языкам и стилю изложения текстов;

• разработать структуру и методику ведения словарей ключевых словосочетаний;

• разработать методы оптимизации поиска без предварительного индексирования обрабатываемого массива текстовой информации;

• разработать методику статистического анализа результатов автоматической классификации текстов и формирования статистических баз данных и аналитических задач;

• разработать методику ведения тематического анализа и аналитических задач с автоматическим определением тематик или фактов, представляющих особый интерес.

Методы исследования. Исследование проводилось путем анализа логико-математических закономерностей морфологии русского языка, анализа структуры существующих словарей и поисковых запросов и логических моделей возможных запросов, математического анализа методики оценки релевантности запросов, путем создания экспериментальных баз данных и разработки экспериментальных вспомогательных программных продуктов, моделирующих научные решения по данной проблеме. Для обоснования предлагаемых научных и технологических решений, для оптимизации работы системы и для решения многих вспомогательных задач широко использовались современные математические методы в области вычислительной математики, теории вероятности, алгебры логики, математической статистики и других областей.

Научная новизна диссертационной работы заключается в следующем:

- разработаны научные и технологические решения по созданию классификационно-аналитической системы, отличающейся от существующих аналогов универсальностью по отношению к языкам, классификаторам и к специфике задач предметного анализа текстовой информации в информационных системах;

- разработана и обоснована структура и методика ведения словарей ключевых словосочетаний с учетом оптимизации по быстродействию; разработана методика статистического анализа результатов автоматической классификации текстов и формирования и ведения статистических баз данных, позволяющая проводить предметный анализ текстов, опирающийся на любой набор классификаторов. Отличительной особенностью данной методики является то, что она позволяет учитывать взаимоотношения классификаторов и систематизирует связи между классами различных классификаторов; разработана методика ведения тематического анализа и аналитических задач, позволяющая идентифицировать объекты аналитического учета (действия, события и пр.) по результатам статистических расчетов.

Теоретическая значимость. Предложенная комплексная методика автоматической классификации и статистического анализа является совершенствованием существующих подходов и в дальнейшем может быть расширена и дополнена функциями автоматического и автоматизированного тематического анализа потоков текстовой информации. Структура статистических баз данных, формируемых с помощью предложенной технологии, позволяет ставить и решать большой спектр статистических и математических расчетных задач и задач, связанных с принятием решений, имеющих место в информационных системах. Развитие данной разработки может осуществляться путем дополнения ее новыми решениями в области морфологического, синтаксического и семантического анализа языков, для усовершенствования методов морфологического анализа, разработки методов семантического и синтаксического анализа языков, с последующим предложением решения о принципах ввода правил семантического и синтаксического анализа на пользовательском уровне.

Практическая значимость. Данная разработка может иметь широкий спектр применения для различных предметных областей. Предложенная разработка позволяет формировать текстово-фактографические базы данных, содержащие классифицированную информацию, в автоматическом режиме. На основании результатов классификации имеется возможность формировать аналитические задачи и статистические базы данных по результатам обработки текстов, автоматизировать работу специалистов-аналитиков, осуществляющих тематический анализ текстовой информации и ведение аналитических задач в различных предметных областях, что может послужить функциональным дополнением и развитием информационных систем различных организаций.

Самостоятельное практическое значение имеют:

- методика обработки текстов на различных иностранных языках;

- методика статистического анализа результатов автоматической классификации.

Внедрение и апробация результатов исследования.

Программа автоматической классификации текстовой информации «Автоклассификация» и программа статистического учета данных автоматической классификации, разработанные на основе диссертационного исследования, прошли испытания и успешно внедрены в подсистеме «Центр-МИД» в рамках опытно-конструкторской работы «Центр» Федеральной целевой программы.

Основные результаты работы докладывались на IX Международной научно-практической конференции «Документация в информационном обществе: административная реформа и управление документацией» (Москва, 2004) и на заседании научно-технического совета ФГУП «НИЦИ при МИД России».

Публикации. Основные положения диссертационного исследования отражены в четырех публикациях автора общим объемом 3,5 печатных листа, в том числе две - в журнале, рекомендуемом ВАК России.

Структура и объем диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы и трех приложений. Список литературы включает 99 наименований. Общий объем диссертационной работы 203 страницы, содержащих машинописный текст, 8 рисунков и 34 таблицы.

Заключение диссертация на тему "Методы автоматической классификации и статистического анализа входного потока текстовой информации в информационных системах"

ЗАКЛЮЧЕНИЕ

В результате диссертационных исследований разработана комплексная методика и ее техническая реализация по решению задачи автоматической классификации и статистического анализа входного потока текстовых сообщений. Задачи автоматической классификации и статистического анализа являются основными составными компонентами обработки текстов. Предлагаемые научные и технические решения обеспечивают как полноту, так и универсальность по отношению ко многим иностранным языкам и по отношению к классификаторам. Модульный принцип построения системы допускает как частичное использование возможностей предлагаемых программных продуктов, так и их доработку и модернизацию, путем замены отдельных блоков на более совершенные разработки.

Предлагаемое решение задачи автоматической классификации имеет три составляющих: морфологический анализ, ведение и индексирование словарей ключевых словосочетаний и критерии принятия решения о присвоении текстам „ соответствующих классов.

Реализован морфологический анализ текстов, основанный на использовании таблиц морфологического анализа, что позволяет на уровне продвинутого пользователя настраивать систему без вмешательства разработчиков на новые иностранные языки. Основными действиями анализа являются побитовые конъюнкции - действия низкого уровня, которые выполняются вычислительными машинами гораздо быстрее, чем обычные арифметические действия, что значительно ускоряет процесс обработки текстов.

Предлагаемая методика ведения и индексирования словарей ключевых словосочетаний позволила вводить данные, эквивалентные контекстным поисковым запросам любой логической сложности, что доказано в настоящей работе. В работе приведено математическое обоснование предлагаемой структуры ключевых словосочетаний. Предлагаемая структура ключевых словосочетаний поддерживает также и обычные простые запросы.

Индексирование словарей выполнено с использованием методов оптимизации поиска с учетом того, что обработка текстовой информации выполняется с неиндексированными текстовыми массивами. В индексных файлах содержатся данные предварительного морфологического анализа ключевых слов словосочетаний, что сокращает количество операций при выполнении анализа текстов. Структура и взаимосвязь шести индексных файлов позволяют сократить до минимума количество операций сравнения слов при обработке текстов, что также значительно повышает быстродействие программы.

При принятии решения о присвоении > обрабатываемого текста соответствующего класса рассчитываются предварительные данные статистического анализа. Это позволяет в процессе однократного прочтения обрабатываемого текста собрать все необходимые данные об этом- тексте. Параметры настроек, вынесенные на пользовательский уровень, позволяют настраивать программу на обработку текстов разного стиля изложения, с использованием различных классификаторов, что обеспечивает универсальность предлагаемого решения по отношению к классификаторам и к стилю изложения материала в обрабатываемых текстах.

При формировании статистических баз данных, аналогия элементарной статистической записи, связывающей два класса, дату и обрабатываемый документ, и бухгалтерской проводки послужила основанием к использованию веками отработанной методики бухгалтерского учета для статистического анализа. За основу структуры взаимосвязи статистических отчетов взята журнально-ордерная форма ведения бухгалтерского учета. За основу структуры статистической базы данных взята мемориально-ордерная форма бухгалтерского учета, по аналогии с самыми популярными программными продуктами по ведению бухгалтерского учета «1С - бухгалтерия» и «Инфо -Бухгалтер». Предложенная структура статистической базы данных оптимизирована для проведения статистических расчетов. В настоящей работе предложен вариант адаптации методики бухгалтерского учета к постановке и ведению аналитических задач, строящихся на любом количестве классификаторов, начиная с двух. Предложенный анализ документов по их значимости позволяет специалистам аналитикам получать наиболее интересные материалы для целей текущей аналитической задачи без предварительного поиска. Методика построения представлений статистики наглядно указывает специалистам, на какие объекты учета и материалы следует обратить внимание, что снижает влияние различных человеческих факторов.

Предложенная методика автоматической классификации и статистического анализа может быть использована для различных задач предметного анализа потока текстовой информации. В Министерстве иностранных дел опробована методика для анализа сообщений средств массовой информации на предмет кризисных ситуаций, террористических акций и антитеррористических мероприятий. Несмотря на сложную постановку аналитической задачи и на использование значительного количества классификаторов, были получены результаты, позволяющие отслеживать ситуацию в различных странах мира. Универсальность предлагаемого решения по отношению к классификаторам и аналитическим задачам позволяют рассмотреть возможность об использовании описанных в настоящей работе программных продуктов для задачи анализа проблем мирового океана и других аналитических задач, решаемых в Министерстве иностранных дел Российской Федерации.

188

Библиография Александров, Михаил Юрьевич, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.

2. Алексенцев А.И. Автоматизация делопроизводства. М.: ЗАО Бизнес-школа «Интел-синтез», 2004.

3. Андреев A.M., Березкин Д.В., Сюзев В.В., Шабанов В.И. Модели и методы автоматической классификации текстовых документов // Вестник МГТУ. Сер. Приборостроение. М.: Изд-во МГТУ, 2003.- №3.

4. Андронов A.M., Копытов Е.А., Гринглаз Л.Я. Теория вероятностей и* мат. • статистика. — С-Пб.: Питер, 2004. ^

5. Артемьева Е. Правила русского языка. Справочник. М.: Мартин, 2007.

6. Астапов Ю.М., Медведев B.C. Статистическая теория систем автоматического регулирования и управления. М.: Наука, ГРФМЛ, 1982.

7. Ахметов И. Поиск подстрок с помощью конечных автоматов : Курсовая 1 работа.- С-Пб. Государственный университет информационных технологий, механики и оптики.

8. Ахо А. Структура данных и алгоритмы. М.: Издательский дом «Вильяме», 2000.

9. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. Т.1. Синтаксический анализ. М: Мир, 1978.

10. Баглей С.Г., Антонов Л.В., Мешков B.C., Суханов Л.В. Кластеризация документов с использованием метаинформации // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006». М.,2006.

11. Бакина С.И., Злобина Л.В., Исаева И.А., Исаев С.П. Самоучитель по бухучету. — М.: Бератор, 2004.

12. Баркалов С.А., Бурков В.Н., Воропаев В.И. Математические основы управления проектами. -М.: Высшая школа, 2005.

13. Белоногов Г.Г., Гиляревский Р.С., Козачук М.В., Новоселов А.П., Хорошилов А.А. Автоматическая классификация текстов // Сборник «Научно-техническая информация». Сер.2, М.: ВИНИТИ, 2001.-№ 1.

14. Белоногов Г.Г., Зеленков Ю.Г. Еще раз о принципе аналогии в морфологии //НТИ. Сер. 2., 1995, №3.

15. Белоногов Г.Г., Зеленков Ю.Г., Новоселов А.П., Хорошилов А.В. Автоматизация обработки текста. // Научно-технический сборник. Сер. 2, выпуск 1. М.: ВИНИТИ, 2000.

16. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. — М.: Наука, 1983.

17. Белоногов Г.Г. Об использовании принципа аналогии при автоматической обработке текстовой информации // Проблемы кибернетики, 1974, № 28.

18. Белоусов А. Дискретная математика. М.: Издательство МГТУ им. Н.Э. Баумана, 2001.

19. Брайан К. Практика программирования.- С-Пб.:,Невский диалект, 2001.

20. Браславский П.И., Вовк Е.А., Маслов М.Ю. Фасетная организация интернет-каталога и автоматическая жанровая классификация документов. -М.: Наука, 2002.

21. Бурков В.Н., Заложнев А.Ю., Новиков Д.А.Теория графов в управлении организационными системами. -М.: Синтег, 2001.

22. J Ветров Д.П., Кропотов Д.А. Алгоритмы выбора моделей и построения коллективных решений' в задачах классификации, основанные на принципе устойчивости. -М.: КомКнига, 2006.

23. Вирт Н. Алгоритмы и структуры данных.- М.: Мир, 1989.

24. Гаврилова Т.А. Базы знаний интеллектуальных систем. С-Пб.: Питер,200 Г.

25. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. М.: Гелиос АРВ, 2002.

26. Галеев Э.М. Оптимизация. Теория, примеры, задачи (2 изд). М.: КомКнига, 2006.

27. Голанов И.Г. Морфология современного русского языка. М.: Академия, 2007.

28. Грешилов А.А. Математические методы принятия решений. М.: Издательство МГТУ им. Н.Э. Баумана, 2006.

29. Григорьев С.В. Автоматизация документооборота. / Под ред. В.А. Федоовой и др. М.: Технология, 2004.

30. Джонс Т.М. Программирование искусственного интеллекта в приложениях. М.: ДМК-Пресс, 2006.

31. Добров Б.В., Лукашевич Н.В., Автоматическая рубрикация полнотекстовых документов по классификаторам сложной структуры // Восьмая национальная конференция по искусственному интеллекту. Коломна; 20021

32. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001, №4.

33. Дягилева А.В., Киселев С.Л., Сомин Н.В. Статистическая модель1, рубрикации текстов на примере сообщений СМИ. "Дистанционное образование" 1998, №7 , с. 16-21

34. Емельянова Н.З., Партыка Т.Л., Попов. И.И. Основы , построения информационных систем. М.: Инфра-М, 2007.

35. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации. // Информационные технологии. 2000. - N 12.

36. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии. 2002, №7.

37. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. -2000, №5.

38. Ермаков А.Е. Проблемы полнотекстового поиска и их решение. // Мир ПК. -2001, №5.

39. Ермаков А.Е., Плешко В.В. Тематическая навигация в полнотекстовых базах данных. // Мир ПК. 2001, № 8.

40. Загорулько Ю.А., Кононенко И.С., Сидорова Е.А., КостовЮ.В. Подход к интеллектуализации документооборота // "Информационные технологии", 2004, №11.

41. Зарецкий Д-А. Дистрибутивно-статистический метод установления парадигматических отношений между понятиями // Вопросы информационной теории и практики. — 1989, № 58.

42. Журавлев Ю.И., Рязанов В.В., Сенько О.В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006.

43. Клини С.К. Математическая логика (3 изд). М.: Едиториал-УРСС, 2005.

44. Когаловский М.Р. Перспективные технологии информационных систем. — М.: ДМК Пресс, 2003.

45. Когаловский М.Р. Энциклопедия технологий баз данных. М.: Финансы и статистика, 2002.

46. Костюкова Н.И. Графы и их применение. Комбинаторные алгоритмы для программистов. М.: Бином, 2007.

47. Кормен Т. Алгоритмы: построение и анализ / Т. Кормен, Ч. Лейзерсон, Р. Ривест М.: МЦНМО, 2002.

48. Котляров В.П., Коликова Т.В. Основы тестирования программного обеспечения. -М.: Бином, 2006.

49. Кузнецов С.В., Титов В.В. "Классификация: системно-морфологический подход", М., РНЦ "Курчатовский институт", препринт ИАЭ-6075/1, 1998.

50. Кузнецов С.Д. Основы баз данных. Курс лекций. М.: Интернет-университет информационных технологий, 2005.

51. Лаптев В., Митченко И., Щербакова М. Практическая работа в 1С бухгалтерии 7.7. М.: 1С-Паблишинг, 2007.

52. Левин М.Д. Методы поиска информации в Интернет. М.: Солон-Пресс, 2003.

53. Леоньтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. М.: Издательский центр "Академия", 2006.

54. Лукас В.А. Теория автоматического управления. М.: «Недра», 1990.

55. Люгер Д.Ф. Искусственный интеллект. Стратегии и методы решения сложных проблем. -М.: Издательский дом «Вильяме», 2005.

56. Макальская М.Л., Денисов А.Ю. Самоучитель по бухгалтерскому учету. — М.: АО «ДИС», 1996.

57. Малыхина М.П. Базы данных. Основы, проектирование, использование (2 изд). С-Пб.: БХВ-Петербург, 2004.

58. Мартин Дж. Организация баз данных в вычислительных системах. М.: Мир, 2000.

59. Месарович М., Мако Д., Такахара И. Теория иерархических многоуровневых систем. М.: Мир, 1973.

60. Михайлов А.И., Черный А.И., Гиляревский Р.Э. Основы информатики. М.: Наука, 1978.

61. Могилев А.В. Информация и информационные процессы. Социальная информатика. С-Пб.: БХВ-Петербург, 2006.

62. Модин А.А. Основы разработки и развития АСУ. М.: Наука. 1981.

63. Мышкис А.Д. Элементы теории мат. моделей (3 изд). М.: КомКнига, 2006.

64. Наголкин А.Н. Алгебра логики в золотом сечении. М.: Макс Пресс, 2006

65. Новоселов А.П., Хорошилов А.А.-Алгоритм автоматической/нормализации слов // Вопросы информационной теории и практики. 1985, № 53.

66. Оре О. Графы и их применение (3 изд). М.: КомКнига, 2006.

67. Панин В.В. Основы теории информации. М.: Бином, 2007.

68. Перепелкин Е.А. Модель баланса ориентированного графа // Информационные технологии. — 2004, № 10, с. 19-24.

69. План счетов бух.учета фин.-хоз. деятельности организации и Инструкции по его применению (2 изд) / Под ред. Бакаева А.С. Mi: Юрайт-Издат, 2004.

70. Половко A.M., Бутусов П.Н. Интерполяция. Методы и компьютерные технологии их реализации. С-Пб.: БХВ-Петербург, 2006.

71. Половко A.M. Основы теории надежности М.: Наука, 1964.

72. Попов И.И. Информационные ресурсы и системы: реализация, моделирование, управление: Монография. М.: ТПК Альянс, 1996.

73. Просцевичюс В.Э. Все правила современного русского языка. Ростов-на-Дону: Баро-пресс, 2007.

74. Протасов К.В. Статистический анализ экспериментальных данных.- М.: Мир, 2005.

75. Раскин Д. Интерфейс. Новые направления в проектировании компьютерных систем. С-Пб.: Символ-Плюс, 2005.

76. Роб П., Коронел К. Системы баз данных. Проектирование, реализация и управление. С-Пб.: БХВ-Петербург, 2004.

77. Росин М.Ф., Булыгин B.C. Статистическая- динамика и теория эффективности систем управления. М.: Машиностроение, 1981.

78. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. -М.: Наука, 1989.

79. Рыжиков Ю.И. Вычислительные методы. С-Пб.: БХВ-Петербург, 2004.

80. Сегалович И., Маслов М. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре форм. Казань: ООО «Хэтер», 1998.

81. Советов Б.Я., Цехановский В.В., Чертовский В.Д. Базы данных. Теория и практика (2 изд). М.: Высшая школа, 2005.

82. Стассман Поль А. Информация в век электроники: (Проблемы управления): Пер. с англ. с сокр. / науч. ред. и авт. предисл. Б.З. Мильнер. М.: Экономика, 1987.

83. Сулицкий В.Н. Методы статистического анализа в управлении. М.: Дело, 2002.

84. Тейз А., Грибомон П., Юлен Г. и др. Логический подход к искусственному интеллекту. От модальной логики к логике баз данных: Пер.с франц. М.: Мир, 1998.

85. Теслер Г.С. Интенсификация процесса вычислений // Математические машины и системы.- 1999, №2.

86. Теслер Г.С. Новая кибернетика.- Киев: Логос, 2004.

87. Торрес Р. Дж. Практическое руководство по проектированию и разработке пользовательского интерфейса. Пер. с англ. — С-Пб.: Вильяме, 2002.

88. Федоров А.Г. Базы данных. М.: КомпьютерПресс, 2001.

89. Хапаева Т. Автоматическая классификация документов // Софтерра. — 2002, №2

90. Харламов А.А. Ассоциативный процессор на основе нейроподобных элементов для структурной обработки информации. // Информационные технологии. 1997, № 8

91. Харрингтон Джен JI. Проектирование реляционных баз данных. М.: Лори, 2006.

92. Шайкевич А.Я. Дистрибутивно-статистический анализ в семантике. Принципы и методы семан тических исследований. —М.: Наука, 1976.

93. Шень А. Программирование: теоремы и задачи. М.: Московский центр непрерывного математического образования, 1995.

94. Ширяев В.И. Исследование операций и численные методы оптимизации (2 изд). М.: КомКнига, 2006.

95. Якубайтис Э.А. Информатика-электроника-сети. М.: Финансы и статистика, 1989.

96. Joachims Т., Learning to Classify Text using Support Vector Machines, Kluwer/Springer, 2002.

97. Joachims Т., Making Large-scale support vector machines learning practical // Advances in Kernel Methods: Support Vector Machines / B.Scholkopf. C.Burges, A.Smola (eds.) MIT Press: Cambrige, MA - 1998.

98. Kurtz St. Fundamental Algorithms For A Declarative Pattern Matching System. -Bielefeld:. Universitat Bielefeld, 1995.

99. Stein В., Meyer zu Eissen S. Document Categorization with MajorClust // Proceedings of the 12th<Workshop on Information Technology and Systems (WITS-02). Barcelona, Spain: 2002.

100. Stein В., Niggemann O. On the Nature of Structure and its Identification // P. Widmayer, G. Neyer, S. Eidenbenz (eds.). Graph-Theoretic Concepts in Computer Science. LNCS 1665. Springer-Verlag, 1999.

101. Примерная схема процесса обработки входного потока текстов

102. Таблицы морфологического анализа