автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов

доктора технических наук
Толчеев, Владимир Олегович
город
Москва
год
2009
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов»

Автореферат диссертации по теме "Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов"

На правах рукописи

Толчеев Владимир Олегович

СИСТЕМАТИЗАЦИЯ, РАЗРАБОТКА МЕТОДОВ И КОЛЛЕКТИВОВ РЕШАЮЩИХ ПРАВИЛ КЛАССИФИКАЦИИ БИБЛИОГРАФИЧЕСКИХ ТЕКСТОВЫХ ДОКУМЕНТОВ

Специальность 05.13.01 - системный анализ, управление и обработка информации (энергетика, приборостроение, информатика, производственные

процессы)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора технических наук

Москва - 2009

Работа выполнена на кафедре Управления и информатики Московского энергетического института (технического университета).

Официальные оппоненты: доктор технических наук, профессор

Орлов Александр Иванович

доктор технических наук, профессор Фомичев Владимир Александрович

доктор технических наук, профессор Фролов Александр Борисович

Ведущая организация: Институт проблем управления

им. В.А. Трапезникова РАН

Защита состоится 8 октября 2009 г. в 16 часов в Малом актовом зале МЭИ (ТУ) на заседании диссертационного совета Д.212.157.08 при Московском энергетическом институ те (техническом университете) по адресу г. Москва, ул. Красноказарменная, д. 14, МЭИ.

Отзывы в количестве двух экземпляров, заверенные и скрепленные печатью учреждения, просим присылать по адресу: 111250, г. Москва, ул. Красноказарменная, д. 14, Ученый Совет МЭИ.

С диссертацией можно ознакомиться в библиотеке МЭИ.

Автореферат разослан "__"_2009 г.

Ученый секретарь диссертационного совета кандидат технических наук, доцент

Д.Н. Анисимов

Общая характеристика работы Актуальность темы. Для современного этапа развития общества характерна информатизация всех сфер деятельности, в результате которой текстовые данные в электронном виде превратились в ресурс, во многом определяющий научно-технический и экономический потенциал государства. По оценкам экспертов, в настоящее время около 70% накопленной и используемой обществом цифровой информации находится в неструктурированной (текстовой) форме.

В сложившейся ситуации особую актуальность приобретают работы по созданию систем обработки текстовой информации (СОТИ). В последнее десятилетие в России и чя рубежом было разработано и внедрено значительное число коммерческих СОТИ. ориентированных, прежде всего, на массового потребителя. При этом значительно меньше внимания было уделено созданию инструментальных средств для удовлетворения информационных потребностей пользователей (специалистов-предметников), занятых научно-исследовательской деятельностью. К числу основных информационных потребностей данной категории пользователей следует отнести: мониторинг публикуемых научных материалов и отслеживание тенденций, происходящих в области профессиональных интересов; выявление и получение из имеющегося документального потока значимых научных статей, необходимых для проведения НИОКР и подготовки современных учебных курсов, диссертационных работ.

Общеизвестно, что в Интернет, корпоративных хранилищах информации в некоммерческом доступе обычно находятся библиографические документы. Если СОТИ ориентирована на работу с такими документами, то появляется возможность на основе их анализа проводить отбор и адресный заказ небольшого числа платных полнотекстовых статей, необходимых для успешного проведения научных исследований. Данный подход к обработке информации обеспечивает снижение материальных затрат на подписку и закупку периодических изданий и материалов конференций, что особенно важно для малых научных коллективов (кафедра, лаборатория, отдел) и специалистов-предметников, самостоятельно проводящих исследования.

Чаще всего информационная потребность специалиста-предметника состоит не только в выделении релевантных документов из общего документального потока, но также в разнесении этого текстового массива на тематические группы, соответствующие более узким вопросам (подтемам). Поэтому практически все современные СОТИ содер-

жат модуль классификации документальной информации в качестве одного из основных компонентов системы.

Методы классификации давно находятся в центре внимания многих коллективов разработчиков. Вместе с тем до сих пор не создано универсального решающего правила, обладающего большой обобщающей способностью и показывающего устойчиво высокую точность на различных выборках. Более того, в условиях изначально непредсказуемой структуры текстовой выборки многие достаточно точные методы классификации показывают противоречивые результаты и их точность от выборки к выборке варьируется в значительных пределах. В большинстве практических задач использование только одного метода не может гарантировать желаемых результатов.

Обзор и анализ публикаций в области обработки данных показывает, что один из наиболее эффективных подходов к увеличению точности и устойчивости классификации основан на синтезе коллективов решающих правил (КРП, комитетов классификаторов). В КРП для принятия решения о классификации документа используется не один, а т методов, каждый из которых самостоятельно присваивает метку класса, после чего формируется общий результат классификации, например, с помощью простого голосования членов комитета.

К числу важных достоинств КРП необходимо отнести следующие свойства.

1) Групповые решения обладают значительно большей устойчивостью и независимостью от структуры и размера выборок. В КРП компенсируются неточности и ошибки, возникающие из-за ограниченного размера обучающей выборки, наличия в ней нерелевантных шумовых элементов, несовершенства методов, используемых на стадии предварительной обработки данных. В условиях практически полного отсутствия априорной информации о структуре документального массива комитеты классификаторов позволяют получать наиболее точное из возможных решений за счет использования дополняющих друг друга решающих правил и специальных стратегий обучения.

2) Существует возможность наращивания сложности решающего правила путем увеличения числа членов КРП до той степени, которая отвечает требованиям решаемой задачи классификации, обеспечивая заданную точность.

3) Групповые решения легко интерпретируются, что особенно важно при применении КРП на практике.

Основным недостатком данного подхода является низкое быстродействие и высокая ресурсозатратность {вычислительная сложность) при обучении. В связи с этим особую актуальность приобретают работы по синтезу высокоточных, быстродействующих и малозатратных КРП для обработай и анализа библиографических текстовых документов. Как показывают специально проведенные автором исследования, для решения данной задачи требуется разработка новых (или усовершенствование уже имеющихся) индивидуальных методов классификации.

Объектом исследований в данной работе являются системы обработки текстовой информации, позволяющие автоматизировать процесс анализа документов и обеспечивающие своевременное получение и распределение информации по классам согласно профессиональным потребностям пользователя.

Предметом исследований в диссертации являются индивидуальные и коллективные методы классификации библиографической текстовой информации.

Цель работы заключается в разработке новых методов классификации и синтезе коллективов решающих правил, обеспечивающих высокую точность, быстродействие и небольшую ресурсозатратность решения задачи классификации библиографических текстовых документов.

Методы исследования. Полученные в диссертации результаты основываются на применении аппарата системного анализа, теории вероятностей, математической статистики, линейной алгебры, теории множеств, вычислительной геометрии, теории алгоритмов, систем искусственного интеллекта, численных методов, имитационного моделирования.

Научная новизна.

1. На основе системного анализа процесса обработки библиографических текстовых документов предложен критерий, учитывающий требования к процедурам выявления информативных терминов, обучения и классификации по точности, быстродействию, ресурсозатратам; построена модель процесса, имеющая модульную структуру, что позволяет оценить влияние различных этапов обработки и анализа библиографических данных на значение целевого критерия.

2. Проведена систематизация процедур выявления информативных терминов и методов классификации текстовых данных, сформулированы рекомендации по их использованию. Построена классификационная матрица, которая позволяет осущест-

влять обоснованный выбор процедур выявления информативных терминов и методов классификации, исходя из требований к точности, быстродействию и ресурсозатратам.

3. Разработано три новых метода классификации библиографических текстовых документов (модифицированный метод ближайшего соседа, обобщенный метод ближайшего соседа и метод М1- профилей). Адаптированы метод профилей и метод ¡2 ■ профилей для решения задач классификации библиографических текстовых документов. Даны рекомендации по выбору настраиваемых параметров в предложенных алгоритмах.

4. Получены оценки вычислительной сложности для разработанных и адаптированных методов на стадиях обучения и классификации. Показано, что при классификации текстовых документов предложенные методы обеспечивают более высокое быстродействие по сравнению с известными процедурами.

5. Сформулированы требования к простым классификаторам. Разработана и обоснована процедура синтеза высокоточных, быстродействующих и малозатратных КРП на основе простых классификаторов для обработки и анализа библиографических текстовых документов.

6. На основе предложенной процедуры проведен синтез двух новых коллективов решающих правил, состоящих из простых классификаторов. Синтезированные КРП состоят как из известных процедур, так и из методов классификации, разработанных в ходе выполнения диссертации. Экспериментально показано, что сформированные КРП имеют меньшую ошибку по сравнению с известными индивидуальными классификаторами.

7. Рассчитаны оценки вычислительной сложности синтезированных КРП. Показано, что их быстродействие существенно превышает быстродействие метода к-ближайших соседей.

8. Разработана оригинальная процедура выявления тематических журналов по заданным пользователем предметным областям, Данная процедура позволяет организовать автоматизированный мониторинг информационных ресурсов и получение релевантных научных публикаций, соответствующих потребностям пользователя.

Практическая ценность результатов.

1. Разработан программный комплекс (ПК) "СКАТ" ("Система Классификации и Анализа Текста"), реализующий полный цикл обработки и анализа библиографической текстовой информации. ПК "СКАТ" ориентирован на использование широким кругом пользователей, не имеющих специальных знаний в области теории классификации и программирования.

2. Разработанный ПК "СКАТ" позволяет пользователям получать и обрабатывать в автоматизированном режиме текстовые документы из библиографических баз данных и с Интернет-сайтов. Показано, что предложенные в диссертации методы, алгоритмически и программно реализованные в ПК, эффективны при обработке больших массивов библиографических текстовых данных, обладают высокой точностью, быстродействием, не требуют существенных затрат на стадии обучения. Подтверждено, что точность классификации может быть повышена при формировании КРП с учетом обоснованных в работе рекомендаций.

3. Теоретические результаты и опыт применения ПК "СКАТ" в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библжирафических документов из научных журналов, получаемых из сети Интернет.

4. Разработан, апробирован и внедрен в учебный процесс учебно-исследовательский программный комплекс, предназначенный для подготовки специалистов в области обработки и анализа текстовых данных. Продемонстрированы его возможности по проведению самостоятельных комплексных исследований методов обработки и анализа текстовой информации. Алгоритмическую основу программного комплекса составляют разработанные автором методы классификации и синтезируемые из них КРП.

5. Показано, что функциональные возможности ПК "СКАТ" и учебно-исследовательского программного комплекса позволяют эффективно решать широкий круг реальных задач обработки и анализа библиографических текстовых документов (автоматизированный мониторинг информационных ресурсов, фильтрация-классификация научных публикаций по заданным тематикам, наукометрический анализ библиографических баз данных, исследование и сравнительный анализ методов обработки и анализа документальной информации).

Реализация результатов. Разработанный ПК "СКАТ" внедрен в эксплуатацию в Федеральном государственном учреждении Научно-исследовательском институте "Республиканский исследовательский научно-консультационный центр экспертизы" (ФГУ НИИ РИНКЦЭ). ПК "СКАТ" был использован для автоматизированного получения с сайтов электронных издательств англоязычных публикаций по заданным научно-техническим тематикам и фильтрации-классификации документального массива. Практическое применение разработанного программно-алгоритмического и методического обеспечения подтверждается актом о внедрении.

Разработанные в диссертации инструментальные средства были успешно использованы для обработки и анализа базы данных научных публикаций в области химии, в частности для определения основных тематик исследований, построения профилей научных групп, отслеживания изменения тематик работ с течением времени. По результатам применения разработанных инструментальных средств в Институте проблем химической физики РАН (г.Черноголовка) автором был получен акт о внедрении.

Процедура выявления тематических журналов, разработанные индивидуальные и коллективные решающие правила были использованы в издательстве «Новые технологии» для обработки и анализа англоязычных дою/ментальных потоков в области информатики, Эффективность применения на практике предложенных теоретических подходов подтверждается актом о внедрении.

Разработанный учебно-исследовательский программный комплекс внедрен в учебный процесс для проведения лабораторного практикума по курсу «Интеллектуальные информационные системы», курсового и дипломного проектирования на кафедре Управления и информатики МЭИ, что подтверждается актом о внедрении.

Апробация работы. Материалы диссертации докладывались на одиннадцати международных конференциях "Информационные средства и технологии" (1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008 гг. Москва, МЭИ), на восьми Научных сессиях МИФИ (2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009 гг. Москва, МИФИ), на семи научно-технических семинарах "Современные технологии в задачах управления, автоматики и обработки информации" (2002, 2003, 2004, 2005, 2006, 2007, 2008 гг. Алушта, МАИ).

Публикации. Автором опубликовано 55 работ по теме диссертации, в том числе 14 статей в журналах, рекомендованных ВАК по направлению управление, вычислительная техника и информатика, монография и учебное пособие.

Структура и объем работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы, содержащего 284 наименований, б приложений. Основной текст диссертации излагается на 335 машинописных страницах, содержит 27 рисунков и 25 таблиц.

Во введении обоснована актуальность, цель и задачи проводимого исследования, приведен обзор известных публикаций, указаны возможные области использования результатов работы.

В первой главе рассматривается специфика обработки библиирафических текстовых документов, сопоставляются различные модели представления документальной информации, проводится сравнительный анализ способов оценки точности классификации.

В диссертации для представления текстовых документов используются векторная и матричная модели. В векторной модели любой документ описывается в виде точки в М-мерном пространстве, где М- количество признаков (размер словаря терминов);

ХГ

-(1) г(0 ЛМ)

(1)

Здесь х^ - вес термина / в документе] {]=!,..N - количество документов в выборке, /=/,...,М).

Выборка текстовых документов может быть представлена в виде матрицы "документ - термин ", строки которой представляют собой документы, а столбцы - термины, содержащиеся в этих документах. Для определения весов терминов в документах используются специальные методы взвешивания (например, //с-взвешивание, см. формулу (3)).

В первой главе также обосновывается применение методологии системного анализа для решения поставленных в диссертации задач. На основе методологии системного анализа формируется целевой критерий {ЦК) "точность-быстродействие-ресурсозатратность". которому должны удовлетворять разрабатываемые в диссертации инструментальные средства. Такой критерий может быть записан в виде:

tt\ -у--— , КА- s -¿допуст-Л (2)

где /»(precision) - точность системы обработки текстовых данных, г - быстродействие системы, Д- ошибка системы, Z- затраты на этапе обучения, 2&ищст.- допустимые

затраты ресурсов на этапе обучения.

При этом точность оценивается по экзаменационной (тестовой) выборке как отношение количества правильно проклассифицированных документов к общему размеру экзаменационной выборки. Под быстродействием понимается время, которое затрачивается алгоритмом для классификации нового документа (присвоения документу метки класса). 11од затратами понимаются временные и материальные ресурсы, необходимые для формирования обучающих и экзаменационных выборок, организации и проведения настройки параметров процедур обработки и анализа текстовых данных.

Обычно при настройке параметров различных методов классификации используются одни и те же выборки и алгоритмы предварительной обработки данных, поэтому эти затраты одинаковы для большинства методов классификации и их можно зафиксировать, относя к "неизбежным" потерям, всегда возникающим при проведении классификации текстовых документов. В этом случае главным фактором, определяющим показатель ресурсозатратности, становятся затраты на стадии обучения, возникающие при настройке параметров решающих правил на обучающих и экзаменационных выборках.

В диссертационной работе оценивание быстродействия классификации и затрат на стадии обучения проводится с использованием инструментария теории алгоритмов на основе расчета вычислительной сложности. Математический аппарат теории алгоритмов позволяет получать оценки вычислительной сложности алгоритма вне зависимости от производительности компьютерной техники с помощью оценки количества необходимых элементарных вычислительных операций. Таким образом, вычислительная сложность в работе будет рассчитываться с помощью О-оценок, которые зависят от размера входных данных алгоритма.

В первой главе в рамках методологии системного анализа строится модель процесса обработки библиографической текстовой информации. В модель включены следующие модули: "Сбор информации и формирование выборок"; "Предварительная обработка данных", которая объединяет процедуры удаления разметки и стоп-слов, выде-

ления основ слов {stemming), индексирования и выявления информативных признаков представления текстового массива в виде матрицы "документ-термин"; "Выбор методоЕ классификации"; "Обучение классификаторов"; "Оценка точности, быстродействия и затрат".

Предложенная модель позволяет выделить наиболее важные модули с точки зрения ЦК. К таким модулям относятся:

1) предварительная обработка текстовой информации, прежде всего, выбор процедуры выявления информативных признаков;

2) выбор классификаторов и их обучение; объединение классификаторов в высокоточные, быстродействующие и малозатратные КРЛ.

В рамках сформулированной цели работы наиболее логичным и естественным шагом является анализ существующих методов классификации и выявление из них таких решающих правил, на основе которых можно сформировать высокоточные, быстродействующие и малозатратные комитеты. Однако, учитывая многоаспектность и разнохарактерность исследований, проводившихся в области теории классификации, такая задача представляется нетривиальной. Для ее решения в данной работе используется методология системного анализа. С позиций системного анализа осуществляется систематизация процедур, выполняемых на наиболее ответственных этапах обработки и анализа текстовых данных, и оценивается их взаимосочетаемость. Причем предлагаемая систематизация строится на общих принципах как для процедур выявления информативных признаков, так и для методов классификации.

Для проведения объективной систематизации процедур выявления информативных признаков и методов классификации были проанализированы практически все доступные (на момент подготовки работы) материалы по данной проблематике. Эти материалы состояли из известных публикаций, экспертных суждений и собственных экспериментальных исследований.

В качестве основного результата систематизации процедур выявления информативных признаков, следует отметить выделение алгоритмов взвешивания, которые наиболее полно удовлетворяют сформулированному ЦК. Наилучшие результаты в данной работе были получены для (/¿-взвешивания, которое рассчитывается по формуле;

где /у - частота слова; в документе у, Лг- число документов в выборке, М- число слов в выборке после удаления служебных слов и выделения корней слов, Л/)- - общее количество документов, содержащих слово /.

Главный итог систематизации методов классификации заключается в том, что выявлено крайне незначительное число известных классификаторов, которые обладают приемлемыми показателями по быстродействию, точности и затратам на стадии обучения (к таким классификаторам можно отнести метод центроидов и наивный байесовский метод). В связи с этим важным направлением исследований в области теории классификации является разработка новых (или модификация известных) методов, которые должны обладать высокой точностью и высоким быстродействием, а также быть приемлемыми с точки зрения требуемых ресурсозатрат. Кроме того, проведенная систематизация позволяет отнести синтез КРП к перспективному и актуальному направлению исследований. При этом особый интерес вызывает решение проблемы построения высокоточных, быстродействующих, малозатратных комитетов.

Проведенная систематизация процедур выявления информативных признаков и методов классификации позволяет сформировать единую классификационную таблицу, которая существенно облегчает исследователю выбор средств для решения той или иной практической задачи обработки библиографической текстовой информации. Фактически такая таблица является аналогом номограммы, которая в зависимости от требований к точности, быстродействию и допустимым затратам позволяет рекомендовать наиболее подходящие алгоритмы выявления информативных признаков и классификации.

Во второй главе проводится обзор основных направлений исследований в области разработки коллективов решающих правил. Под коллективом решающих правил в работе понимается совокупность методов классификации {У,,...,7и}, объединенных для выработки общего решения. Сравнительный анализ различных стратегий голосования в КРП позволяет сделать вывод, что если комитет составляется из разнородных класси-

1.2

фикаторов, обладающих приблизительно одинаковой индивидуальной (достаточно высокой) точностью, то предпочтительно использовать простое голосование. В таких неоднородных КРП каждый классификатор имеет равный вес при принятии решения и новое наблюдение Хм+х относится к тому классу, за который проголосовало большинство членов КРП.

Отметим, что простое голосование не увеличивает совокупной сложности синтезируемых КРП и не приводит к росту затрат на стадии обучения. Кроме того, для простого голосования можно теоретически рассчитать верхнюю точностную границу, к которой будут стремиться комитетные решения. Для расчета необходимо сделать следующие предположения: все методы, используемые в КРП, независимы; точность членов комитета известна и все решающие правила являются равноточными; КРП состоит из нечетного количества классификаторов (3 <, т < 9).

Определим верхнюю точностную границу комитета, который может состоять соответственно из трех, пяти, семи или девяти методов классификации, при этом индивидуальная точность р членов КРП меняется от 0,6 до 0,9. Результаты расчета приведены в таблице 1. Анализ полученных результатов показывает, что применение КРП на основе простого голосования гарантирует увеличение точности по сравнению с точностью отдельных классификаторов, членов комитета, если они являются независимыми и их индивидуальная точность р> 0,5.

Таблица 1

р т т = 3 т-5 т = 7 т = 9

р = 0,б 0,648 0,682 0,710 0,733

сГ 1! а. 0.784 0,837 0,874 0,901

р = 0,8 0,896 0,942 0,966 0,980

р ~ 0,9 0,972 0.991 0,997 0,999

Принципы проведения селекции методов для их включения в неоднородные КРП остаются одним из наименее формализованных и разработанных вопросов в теории

классификации. В данной работе для отбора классификаторов в КРП используются меры разнородности. Проведенный автором сравнительный анализ мер разнородности позволил выделить -статистику в качестве наиболее подходящей меры разнородности при синтезе неоднородных КРП на основе простого голосования.

2 -статистика показывает связь между ошибками, которые допускаются двумя решающими правилами и ,1 р из коллектива. Парная ¡2-статистика рассчитывается по следующей формуле:

ай - Ьс ас1 -!- Ьс

Т-Т-- №

Здесь а - число раз, когда оба решающие правила и 3 сделали правильную классификацию; Ъ~ число раз, когда решающее правило .]! сделало правильную классификацию, 3р - неправильную; с - число раз, когда решающее правило 3 р сделало правильную классификацию, 35 - неправильную; с/ - число раз, когда оба решающие правила 35 и сделали неправильную классификацию.

На основе специально проведенного имитационного моделирования и экспериментальных исследований в работе выявлен наиболее информативный диапазон изменения меры разнородности: О б [0;0,85]. Данный диапазон используется при отборе методов для их включения в КРП.

Несмотря на активизацию исследований по разработке комитетов классификаторов для группировки фактографической информации и распознавания образов, к настоящему моменту существует весьма небольшое количество работ по синтезу неоднородных КРП для классификации текстовых документов. На большинстве выборок неоднородные КРП, сформированные в известных публикациях, улучшали точность классификации на 3-5 процентов. Необходимо особо отметить, что все КРП в качестве одного из членов включали метод ближайшего соседа (или метод к-ближайших соседей).

В данной работе проводится синтез высокоточных быстродействующих и малозатратных КРП на основе простых классификаторов. К сожалению, имеющиеся на настоящий момент интуитивно понятные определения простого классификатора мало

конструктивны и вряд ли могут использованы для синтеза КРП, эффективных с вычислительной точки зрения. Незначительное внимание к данной проблеме в отечественной и зарубежной литературе, противоречивые подходы и определения не позволили ранее получить значимый выигрыш в быстродействии при формировании комитетных решений, используя идею комбинирования достаточно точных, быстрых, малозатратных методов.

В работе уточняется понятие простого классификатора. Для этого вводятся принципы, которым должны удовлетворять простые классификаторы.

Первый приниип непосредственно связан с требованием простоты модели. В простом классификаторе количество настраиваемых на этапе обучения параметров не должно превосходить трех - ,в2,в2}.

Второй приниип направлен на сокращение ресурсозатрат, необходимых на стадии обучения, т.е. простые классификаторы должны иметь приемлемое время настройки параметров в1,в2>@з- Для этого фиксируется способ обучения. В работе показано, что наиболее рационально использовать метод обучшощих-тестовых выборок, который обеспечивает высокое качество настройки параметров, не требует дополнительных затрат на формирование большого числа выборок и организацию многоступенчатой процедуры обучения.

Третий принцип заключается в том, что простые классификаторы должны обеспечивать высокое быстродействие. Так как в данной работе для оценки быстродействия используется вычислительная сложность алгоритма, то представляется возможным сформулировать более строгие требования к быстродействию простых классификаторов. Будем считать, что на стадии классификации простой классификатор должен иметь быстродействие не менее, чем в 10 раз большее быстродействия, которое обеспечивает метод к-ближайших соседей (метод к-БС):

0л.ЛМ)<10к..£С(М). (5)

Здесь 0„К (М) - количество вычислительных операций, необходимых для классификации документа с помощью простого классификатора, Ок_БС{М) - количество вычислительных операций, необходимых для классификации документа методом к-БС.

Так, если быстродействие простого классификатора в десять раз выше быстродействия метода к-БС, то в случае объединения независимых равноточных (р = 0,7) простых классификаторов в комитет размером т = 9 теоретически возможно достичь 90% точности при более высоком быстродействии КРП, чем у метода к-БС.

Сформулированные выше принципы отвечают на вопрос, какие из классификаторов можно рассматривать в качестве кандидатов в члены КРП, однако они не дают возможности из имеющихся простых классификаторов отобрать наилучшие с целью их объединения в комитет. Для решения этой задачи необходимо совместно анализировать точностные свойства простых классификаторов и оценивать их взаимодополняемость (i.e. cuocuuHocib компенсировать ошибки друг друга).

В данной работе к кандидатам в члены КРП предъявляются следующие требования:

1) средняя точность простого классификатора на различных выборках должна быть не ниже 70 % (средняя точность находится в интервале р е [0,7;0,8]), при этом точность всех методов-претендентов на участие в комитете, соизмерима и не отличается более чем на 5 процентов;

2) средняя разнородность метода-претендента на место в комитете (по отношению к другим членам КРП), измеренная с помощью Q -статистики, должна удовлетворять неравенству \QcpedHm\<G,S5.

В' ряде известных работ по синтезу КРП для сопоставления коллективных и индивидуальных решений вводится базовый классификатор, в качестве которого обычно выбирается метод классификации с хорошо изученными свойствами. В данной работе базовым классификатором является метод к-ближайших соседей.

Сформулированные критерии включения простых классификаторов в комитет должны обеспечить следующие свойства синтезируемых КРП.

1.Точность. Средняя ошибка КРП на различных выборках должна быть не менее, чем на 4 процента ниже средней ошибки базового классификатора (метода к-БС.). Средняя ошибка КРП также должна быть меньше средней ошибки наиболее точного решающего правила, входящего в комитет (по результатам экспериментов таким решающим правилом оказался метод центроидов).

2. Быстродействие. Быстродействие синтезируемых КРП должно быть выше быстродействия базового классификатора (метода к-БС).

3, Затраты. Уровень затрат при синтезе КРП фиксируется за счет выбора наиболее эффективной с точки зрения ЦК процедуры обучения (метод обучающих-тестовых выборок), снижения числа настраиваемых параметров классификаторов на стадии обучения (не более трех), ограничения размера комитета (не более семи), обеспечения вычислительной эффективности алгоритма (числа вычислительных операций на стадии обучения).

Обобщим приведенные выше результаты и сформулируем процедуру синтеза высокоточных, быстродействующих, малозатратных КРП на основе простых классификаторов.

Шаг 1. Все методы, кандидаты для включения в КРП, последовательно обучаются и тестируются с использованием процедуры обучающей-тестовой выборки, проводится экспериментальный анализ точности, быстродействия и необходимых затрат на стадии обучения. Из имеющихся методов в качестве кандидатов отбираются те, которые являются простыми классификаторами и имеют точнос ть в интервале р е [0,7;0,8].

Шаг 2. Для отобранных методов вычисляется мера разнородности с помощью <2-статистики. Выбираются методы, обладающие наилучшими показателями "точность-разнородность", и из них формируется КРП, максимальный размер которого не превосходит семи.

Шаг 3. Проводится анализ точности, быстродействия и ресурсозатратности полученного комитета. Если средняя ошибка коллективного решения не уменьшается на 4% по сравнению со средней ошибкой метода к-БС, то необходимо вернуться на предыдущий шаг и увеличить размер КРП или сформировать комитет из другой комбинации разнородных методов или расширить число простых классификаторов, являющихся кандидатами для включения в комитет.

Третья глава посвящена разработке новых методов классификации текстовых документов, сочетающих малое время классификации, небольшие затраты на стадии обучения и высокую точность обобщения, сопоставимую с точностью известных методов.

В работе предлагается новый модифицированный метод ближайшего соседа (ММБС), разработанный и исследованный автором. Данный алгоритм предусматривает наличие стадии обучения и модифицирует метод ближайшего соседа (МБС) так, чтобы существенным образом сократить количество вычислительных операций, необходимых для проведения классификации, и тем самым увеличить быстродействие.

Целью алгоритма является определение области в М-мерном пространстве, в которую попадает новое наблюдение Хк+], и использование для классификации только тех Х{ (/ = 1,..., N1, « ЛО, которые принадлежат выявленной области.

Эвристика, позволяющая осуществить поставленную цель, заключается во введении опорных точек {ОТ) Ри...,Р5. Такие ОТ должны быть расположены на достаточном расстоянии друг от друга, например, являться центроидами различных классов.

Алгоритм обучения ММБС. Входными данными алгоритма являются: обучающая выборка документов, представленная в виде матрицы "документ-термин"; количество и расположение опорных точек (далее предполагается, что ОТ- центроиды всех классов, общее число ОТ 5 = С?). Выходные данные алгоритма представляются в виде упорядоченных матриц Оп {п = Ь....^^' = <3; £?- количество классов). Для обучения ММБС необходимо выполнить следующие шаги.

1. Вычисление расстояний от всех документов обучающей выборки Х;{1 = 1,...,ЛГ) до опорных точек, получение Л-мерных векторов расстояний:

Ц(!Г [Ч0Г Г41}] 42)

; = ;...; <1$ — (б)

¿(ю - х

2. Проведение сортировки внутри векторов так, чтобы элементы

располагались по возрастанию расстояния до опорных точек (от самых близких к самым дальним) и расширение векторов с/),с/■яо матриц ¿>1,£>2.....А? размерностью [Л'хЗ]. Первый добавленный столбец содержит целочис-

ленные значения, соответствующие исходному (до сортировки) номеру элемента; второй - метки классов, к которым относятся элементы.

\4У Г с!и) ип Оа

с1(2) "п г в?

ип => вп = "и / (?)

-ап _ ип т <к.

где п - порядковый номер опорной точки (п = 1,..., 5;5 = й);у,г/,т,1 - порядковые номера наблюдений в исходной выборке размера УУ, а, у, - метки классов (а,р,у,4 = 1.....С7).

Алгоритм классификации ММБС. Входными данными алгоритма являются: новое наблюдение , заданное вектором весов терминов (или экзаменационная выборка документов, представленная в виде матрицы "документ-термин"); упорядоченные матрицы Вп (п = 1,..., = 0), полученные на стадии обучения.

Выходные данные алгоритма представляют собой метку класса, к которому отнесен новый документ Хдц.,.

1. Расчет расстояний от нового наблюдения до опорных точек

,. Поиск таких расстояний <1$ (1=1,..Л п=1,..., Б) из первого столбца упорядоченных матриц Д,!^—> А?> которые были бы наиболее близки к

Определение расстояний которые расположены в

З'порядоченных матрицах Х)„ в следующей позиции за элементами а!^, т.е. справедливо: ¿[Р <, <, ¿гР^. Вычисление радиусов и приращений радиусов проводится по формулам:

л„=4/}; м»=с1а+1)-4р. (8)

2. Определение номеров точек из второго столбца упорядоченных матриц £>1,1)2,...,-Dy, соответствующих найденным на предыдущем шаге расстояниям djf\ Поиск общих точек, которые находятся в Q-области пересечения гиперколец с центрами в опорных точках. Для этого анализируются точки, соответствующие d^- и d[i+l\

d? и ¿fи diM\

3. В случае, если на предыдущем шаге обнаружить общие точки не удалось, увеличиваются приращения радиусов ARn (àR„ = d-d,P).

Теперь поиск общих точек производится среди расширенного числа многомерных наблюдений.

Увеличение M„ проводится аналогичным образом до тех пор, пока не обнаружатся общие точки.

4. На основании правила ближайшего соседа (или правила к-БС) принимается решение об отнесении нового наблюдения А'дГ+1 к одному из классов, при этом в голосовании участвуют только те наблюдения, которые попали в общую многомерную область Q. пересечения гиперколец.

Важная особенность ММБС заключается в том, что имеется возможность на стадии обучения за счет увеличения ОТ снижать ошибку классификации. В работе излагается специальный алгоритм определения числа ОТ для обеспечения заданной точности. В этом алгоритме первоначально в качестве опорных точек используются центроиды всех классов. Затем, при необходимости, из выборки случайным образом извлекаются дополнительные наблюдения. Если они успешно проходят проверки на удаленность от уже имеющихся ОТ и на принадлежность к населенной области признакового пространства, то эти наблюдения становятся новыми опорными точками.

Главной целью разработки ММБС являлось повышение быстродействия прототипа - МБС (или метода к-БС) при классификации новых наблюдений. В этой связи необходимо оценить количество операций, исполняемых в ММБС на стадии классификации нового наблюдения Рассчитаем вычислительную сложность алгоритма ММБС

на основе использования О-оценок.

Количество операций для расчета расстояний от нового наблюдения jfv+1 до 5 опорных точек: = S ■ 0(М), где О(М) - вычислительная сложность операции

расчета евклидова расстояния.

Количество операций по определению расстояний в упорядоченных матрицах Dn (n = l,...,S):

°wal7u<j>.~S -OQ.ogN), где 0(logN)- вычислительная сложность операции двоичного поиска.

Таким образом, па этапе классификации число необходимых операций вычисляется следующим образом:

= + °™Тиф. - S • + 5 • N) ■ (9)

На стадии обучения общая вычислительная сложность алгоритма ММБС включает расчет расстояний до ОТ (вычислительная сложность S'O(NM)) и проведение сортировки (вычислительная сложность 5 • 0(N log N)):

o0^BCio6rleHW)=S-0{NM) + S-0(N\ogN), (10)

Известно, что количество операций, необходимое для классификации нового наблюдения в методе ближайшего соседа, равно ОмБС(классиф) (NM) = N • 0(М). Тогда

0МШС{.кшссгф.)<0МБс1классиф.)' Т£1К КаК в Ф°РМУЛе (9) S«N и

<9(Iog7V)« 0(NM).

В диссертации детально исследуются характеристики разработанного ММБС. В частности, анализируется механизм принятия решений. Отмечается, что если в методе к-БС областью принятия решений является гиперсфера, то в ММБС такой областью является гипермногогранник, получаемый в результате пересечения гиперколец около классифицируемого наблюдения. В связи с этим область принятия решений в ММБС будет включать не только ближайших соседей (БС), содержащихся в гиперсфере, но и дополнительные точки, лежащие ближе к вершинам гипермногогранника.

Таким образом, решение в ММБС не всегда принимается исходя из анализа ближайших соседей. Используя понятие, введенное в литературе по непараметрическим методам классификации, можно назвать точки, лежащие внутри гипермногогранника, но не принадлежащие гииерсфере, аппроксимированными ближайшими соседями. Наблюдение Хапр является аппроксимированным соседом для X , если справедливо неравенство:

й{Х\ 1ЛЧ1) < й{Хапр, Х„+1) = (1 + Е>/(1*, Хы+х). (11)

Здесь X* - ближайший сосед для Х^^, 6 - положительная малая величина.

Алгоритм ММБС предоставляет потенциальную возможность для дальнейшего улучшения точности метода без существенного снижения быстродействия. Для этого в данной работе предлагается новая процедура классификации, получившая название обобщенного метода ближайшего соседа (ОМБС). Основная идея метода заключается в том, чтобы проводить взвешивание аппроксимированных БС, участвующих в принятии решений в ММБС. Это должно снизить ошибку за счет уменьшения влияния наиболее удаленных из аппроксимированных БС, которые получают меньший вес при определении метки класса.

Возможность появления среди аппроксимированных соседей точек, достаточно удаленных от классифицируемого наблюдения, обусловлена тем, что в ряде случаев гипермногогранник может быть вытянут (из-за структуры выборки) в одном (или нескольких) направлениях М-мерного признакового пространства.

В данной работе для проведения взвешивания соседей используется специально разработанная уточненная формула взвешивания:

<°1

(1 + Р){с1к-^) 1 . (12)

1 ,dj■=d\

В уточненной формуле взвешивания к-й сосед имеет вес, который определяется значением коэффициента взвешивания р:

* (1 + Р)

Экспериментальная настройка коэффициента взвешивания р в процессе обучения позволяет корректировать веса различных соседей. Согласно проведенным автором исследованиям уточненная формула взвешивания обеспечивает более высокую точность классификации по сравнению с известными формулами линейного взвешивания.

Вышеизложенный алгоритм ММБС оперирует расстояниями от новой точки

до опорных, взвешивание которых нецелесообразно. В связи с этим расчет весов проводится для соседей, попавших в общую область О. Алгоритмы обучения ММБС и выбора опорных точек в полной мере применимы для ОМБС. На стадии классификации первые три шага алгоритма ОМБС также аналогичны алгоритму классификации ММБС, После чего выполняется дополнительные шаги.

Дополнительные шаги для алгоритма классификации ОМБС.

4. Для выявленных на предыдущем шаге точек, попавших в общую область О., рассчитываются расстояния до классифицируемого наблюдения . Найденные расстояния ,..., ¿Бкс сортируются по возрастанию. С целью определения весов для попавших в общую область точек применяется уточненная формула линейного взвешивания (см. формулу (12)).

5. Осуществляется взвешенное голосование среди точек, попавших в общую область. Новое наблюдение Хдг.,4 относится к классу, получившему наибольший вес при голосовании к-взвешенных соседей из области £2.

В диссертационной работе приводится также алгоритм экспериментальной настройки коэффициента взвешивания р.

В ОШС увеличивается время классификации нового наблюдения по сравнению с ММБС, однако быстродействие ОМБС остается значительно более высоким, чем у МБС или метода к-БС.

Так, в ОМБС добавляется по сравнению с ММБС дополнительный третий этап, включающий расчет расстояний от к точек, попавших в общую область й, их сортировку и последующее взвешивание:

°мас7иф. = * • + 1оВ «У+ *' (30~ (2)+ 20* (2)+ 20+ (2) + 0** (2)) • (14)

Здесь 0(2) - вычислительная сложность элементарных операций (сложение, умножение, сравнение и т.п.), которые не зависят от размера входных данных.

Таким образом, количество вычислительных операций, которые осуществляются в ОМБС на этапе классификации, определяется следующим соотношением:

Qобщее _ Q]этан , п2этст , /рЗэman __

ОМБС^классиф.) классиф. классиф. классиф.

= S ■ 0(М) + 5 ■ O(logA0 + к ■ 0(М) + 0(к log«) + + к ■ (30- (2) + 20* (2) + 20+ (2) + О** (2)) » (S + к) ■ 0(М). (15)

В (15) учтено, что 0(\ogN) « 0(М), 0(к\о%к) « 0(М) и 0(2) « 0(М).

Наряду с методом ближайшего соседа, позволяющим вводить новые эвристики, особый интерес при разработке простых классификаторов представляют профильные методы, основанные на вычислении некоторого формального объекта - профиля класса. Наиболее известным профильным методом является метод центроидов (МЦ). Вместе с тем при использовании МЦ возникает ряд сложностей, главная из которых состоит в том, что многие термины с большим весом входят в профили сразу нескольких классов.

Для преодоления этой проблемы в диссертационной работе применяется подход, заключающийся в построения профилей классов на основе анализа двумерной таблицы сопряженности размера 2x2. Отличие данного подхода от центроидного заключается в том, что в профиль включаются термины, не только часто встречающиеся в данном классе, но и редко встречающиеся в других классах.

В диссертации рассматриваются принципы построения профилей классов на основе использования трех подходов: х2~ статистики; Q- статистики; улучшенного критерия взаимной информации, который был предложен автором.

Разработанные процедуры получили названия метода х2-профилей, метода Q-профилей и метода Aff-профилей (MI сокращение от Mutual Information - взаимная информация). В этих алгоритмах на этапе обучения проводится выявление наиболее информативных терминов для каждого класса на основе применения х2- статистики, Q-статистики или улучшенного критерия взаимной информации. Затем полученный х2-

профиль (¡2~ профиль или М/-профиль) используется для проведения классификации новых наблюдений.

В методах непараметрического оценивания х2 -статистика для данных, представленных таблицей сопряженности размера 2x2, рассчитывается по формуле:

А ^ (А + В)(С + П)(А + С)(В + В) и ;

В формуле (16) использованы следующие обозначения: А - число раз, когда термин х^ и класс ¡2^ встречаются вместе; В - число раз, когда х^'- встречается без ;

С - число раз, когда {2г встречается без х[,); В - число раз, когда и х^' не встречаются; Ы- общее количество документов в выборке.

Величина ()- статистики во введенных выше обозначениях может быть рассчи-ЛЛ л ч АЛ-ВС

тана по формуле: ', <2 ) = —-—— . (17)

* АО + ВС

В данной работе предлагается улучшенный критерий взаимной информации. В предлагаемом критерии параметр А в числителе формулы известного в литературе критерия взаимной информации возводится в степень г:

{

Мг (*(0,б„) = 1о82

^ " 08)

(Л + ЯХЛ + С);

Возведение в степень параметра А позволяет существенно увеличить значение взаимной информации для высокочастотных терминов и скомпенсировать основной недостаток классического алгоритма по заниженному взвешиванию наиболее информативных терминов.

В предложенных процедурах на этапе обучения проводится выявление информативных терминов и составление профилей для каждого класса на основе расчета весов

терминов с помощью х2-статистики, <2~ статистики или улучшенного критерия взаимной информации. После чего составляется матрица профилей классов - Р. Столбцы матрицы сортируются в порядке убывания значений весов. Единственным управляющим параметром для всех трех методов является пороговое значение Т, которое олре-

деляет длину профиля классов Мg (предполагается, что все классы имеют одинаковую длину профиля Мf =М2 =,...,=Ма).

На этапе классификации рассчитываются значения весов классов со^, которые

представляют собой "информационные суммы", соответствующие каждому классу. Расчет весов классов проводится по формуле:

Mg

<og=Ztfi-y(xO),Qg), (19)

где у(x(0,Qg) рассчитывается по одной из формул (16)-(18), tf: - частота встречаемости i-ro термина в классифицируемом документе, М g - количество наиболее информативных терминов, включенных в профиль g- го класса.

Решающее правило в методе х '-профилей, методе Q- профилей и методе М1-профилей одинаково и имеет вид: классифицируемый документ XN+1 относится к тому классу, которому соответствует наибольшая сумма весов (X е Qg, если mg = max, для Vg,g = l,...,G).

В диссертационной работе приводится детальное onncainie алгоритмов обучения профильных методов и определения длины профиля.

Вычислительная сложность профильных методов. В рассмотренных выше профильных методах на этапе классификации рассчитываются значения весов классов по формуле (19). Для этого требуется следующее количество вычислительных операций:

¡-¡общее _ ¡-¡общее _ ^общее _

Хг-прафипъ{класеиф.) ~ й~профипь(классиф.) ~ М1-профиль{кяассиф.) ~ ^

= Ot + 02 = [G ■ Mg ■ (О * (2) + 0+ (2))] + [(G ~ 1) ■ 0(2)]. где 0} - количество операций, необходимых для определения весов классов Ш| , О2 - количество операций сравнений, необходимых для определения наи-

большего веса класса.

Сравнение вычислительной сложности профильных методов с вычислительной сложностью наивного байесовского метода и метода центроидов показывает, что методы %г -профилей, Q - профилей и М-профилей имеют практически такое же быст-

родействие, как наивный байесовский метод, который является одним из наиболее скоростных среди известных классификаторов. При этом быстродействие методов %2-профилей, £>- профилей и М-профилей выше быстродействия МЦ.

Проведенная в данной главе разработка новых методов позволила существенно расширить число простых классификаторов, которые могут рассматриваться в качестве кандидатов для включения в высокоточные, быстродействующие и малозатратные КРП.

Глава 4 посвящена организации экспериментов и исследованию разработанных методов классификации и коллективов решающих правил на различных выборках библиографических текстовых документов, сопоставлению характеристик новых методов с характеристиками известных процедур. Особое внимание в главе уделяется оценке точности, разнородности, быстродействия, ресурсозатратности методов классификации, выработке рекомендаций но настройке их параметров, выбору решающих правил для их объединения в КРП согласно приведенной выше процедуре синтеза комитетов на основе простых классификаторов.

Логика изложения, многоаспектность проведенных исследований потребовали разделения результатов на две большие достаточно самостоятельные группы.

В первой груше приводятся результаты формирования выборок для проведения исследований; сравнительного анализа процедур выбора информативных признаков и мер близости; организации процесса обучения и тестирования решающих правил; разработки новых малозатратных методов классификации, обеспечивающих высокую точность и быстродействие; настройки их параметров: исследования временных и точностных характеристик, сопоставления с уже известными процедурами; выявления зависимости точности и быстродействия методов классификации от структуры выборки текстовых документов.

Вторая группа состоит из результатов, непосредственно связанных с синтезом высокоточных, быстродействующих и малозатратных КРП. В ней содержатся итоги исследований по отбору простых классификаторов для их включения в комитет; расчету мер разнородности для кандидатов в члены КРП; формированию КРП с заданными свойствами из числа отобранных простых классификаторов; сопоставлению точности и быстродействия коллективных и индивидуальных методов; выявлению зависимости

точности и быстродействия КРП от количества членов комитета, размера и структуры выборки.

В данной работе использовались коллекции текстовых документов из библиографической базы данных (БД) Compendex (COMPuterized ENgineering inDEX), цифровой библиотеки (ЦБ) Researchlndex и цифровой библиотеки ACM (Association for Computing Machinery - Ассоциация по вычислительной технике). Все вышеназванные ЦБ и БД имеют встроенный экспертно составленный рубрикатор, что позволяет избежать субъективизма и предвзятости при формировании обучающих и экзаменационных выборок.

Основные эксперименты проводились па девяти выборках одинаковой структуры (по три выборки из БД Compendex, ЦБ Researchlndex, ЦБ ACM). Каждая обучающая выборка состояла из 700 библиографических документов, распределенных по семи классам, в классах содержалось одинаковое число текстов. Каждая экзаменационная выборка содержала по 140 документов (по двадцать документов в классе). Сформированные обучающие и экзаменационные выборки, использованные автором при проведении исследований, доступны на сайте кафедры Управления и информатики МЭИ (http://uii.mpei.ru).

При проведении предварительной обработки текстовых данных использовался словарь стоп-слов и осуществлялось выделение основ слов. Проведенные эксперименты позволили зафиксировать размер словаря равным 125 информативным терминам, выбрать евклидову метрику для определения близости между документами и tfc-взвешивание в качестве наиболее эффективного способа определения веса слова, а также рекомендовать метод обучающих-тестовых выборок, как наиболее подходящий для задач, решаемых в диссертации.

В результате проведенных исследований были определены следующие настройки параметров для методов, используемых в работе: для метода к-БС количество ближайших соседей к - 29; для ММБС: к=23, количество опорных точек равно количеству центроидов классов 5=7; для ОМБС: к=23, S--7, коэффициент взвешивания ,0=0,21; для метода х" -профилей пороговое значение Т^О, для метода £>-профилей и метода Ml-профилей Т= 75 (г=3), Метод центроидов и наивный байесовский метод не имеют настраиваемых параметров.

После настройки параметров методов был проведен сравнительный анализ их ошибок и быстродействия. Быстродействие оценивалось путем расчета процессорного времени выполнения операций {CPU-time). CPU-time измеряется в милисекундах и является специфической характеристикой конкретного компьютера, используемого для проведения расчетов. В данной работе измерения проводились на процессоре Pentium 4 (3.0 Ггц и 1Г6 03У).

Таблица 2

Среднее быстродействие (мсек) j

................... 1,94............!

'......^ 0,96 ............. 1

..................15,23.............................."1

22,85 0,91

.........0,91

.""' Г...' ...... 0,875 "";

'....... ..... 147,17 ;

Полученные экспериментальные результаты хорошо согласуются с теоретическими оценками вычислительной сложности и подтверждают, что все методы, разработанные в работе для классификации текстовых документов обладают высоким быстродействием, которое в разы превосходит быстродействие метода к-БС (при этом быстродействие разработанных профильных методов выше быстродействия высокоскоростного метода центроидов). В то же время предложенные методы обладают достаточно высокой точностью, соизмеримой с точностью "классических" классификаторов (метода к-БС и МЦ).

Таблица 2 содержит средние значения ошибок и быстродействия, рассчитанные по девяти выборкам. В работе также приводятся ошибки методов на каждой из выборок, оценивается устойчивость классификации и анализируется влияние структуры документальных массивов на результирующую точность.

Благодаря разработке новых методов, проведенной при выполнении данной работы, увеличилось число простых классификаторов, которые могут быть использованы для формирования комитета, Это позволило на практике синтезировать КРП, удовле-

i Метод \ Характеристики Средняя ошибка

Г МЦ.......................!!............0,212............

" ~ ^^

: ММБС ........................0,259

ОМБС....... !..........0,248

Г' .....Mi-проф. .....Г"" 0,252

.................Q-проф. i 0,256

" ' Хи-проф~......:! 0,226

Г Метод к-БС " J 0,255

творяющие сформулированным в диссертации требованиям по точности, быстродействию и допустимым затратам на стадии обучения.

На основе вышеизложенной процедуры синтеза КРП на основе простых классификаторов было синтезировано два новых комитета классификаторов: КРП -1. состоящий из метода ^-профилей, МЦ и ОМБС; КРП-2, состоящий из метода / 2-профилей, МЦ, метода Л/7нпрофилей, ММБС, ОМБС.

Сравнительный анализ характеристик синтезированных КРП и известных индивидуальных классификаторов также проводился на девяти выборках. В таблице 3 приведены полученные на выборках ошибки, рассчитана средняя ошибка (Д) и размах (в). В качестве базовых классификаторов для сопоставления использовались МЦ и метод к-БС,

Таблица 3

; Выборка \ Ошибка' | ' ш ] Мстод,,.йс ' КРП~} I...........крп_2 ?

метода • .;

, • __ ___________________ ... . ..........._ ¿:

.1.....'ЙГ'"""...... ;" 0,192 "Г ' 0,271 .......Г.....0,114.......' ' 0,114 .....У

В2..........' 0,214 ' 0,293 - 0,207 .............0,185 У'У

У вз" : о.з..... .......0,3 ;......0,214.....0,2

........................В4......... 'Г.....0,064 у 0,135' 0,1 ; о,1........

У В5..... ' " •' 0,121 ...........0,15......<1.....0,107 У;; 0,Г ..... ;

;Г У В6 0,121 ..... 0,171 .........0,114 ........... 0,114 ;

: В7 ..........I; 0,3.....Г" 0,335 ...... 0,278 Г".......... 0,25 .....У".

;У УУ" В8 : 0,307' " ' 0,343 ..... УУ 0,293 0,278

Г....................В9 " I: 0,293 Г""".....0,3 ' 0,278' 0,264

I Средняя ошибка :! Лад = 0,2121; ДК.£С = 0,255 'Лкрпа =0,189:: Ъ.крп-2 =0,178 :! ! . и размах е = 0,243 I в = 0,208 | £• = 0,193 ¡; £ = 0,178 г

Приведенные в таблице.3 результаты свидетельствуют о том, что синтезированные КРП обеспечивают более высокую точность и устойчивость к выборочным изменениям в сопоставлении с базовыми классификаторами. При этом сформированные комитеты обладают большим быстродействием, чем метод к-БС.

Необходимость многократных экспериментов для настройки параметров решающих правил ведет к тому, что тестовые выборки фактически становятся частью процесса обучения. Тем самым ослабляется их роль как независимого критерия точности классификации. В данной диссертации были использованы три дополнительные вы-

борки из БД С-отрепёех, на которых были подтверждены точностные и временные характеристики разработанных коллективных и индивидуальных методов.

Важным результатом экспериментальных исследований процедур анализа текстовых данных должен стать ответ на вопрос: насколько значимо улучшается точность классификации при использовании коллективов решающих правил по сравнению с индивидуальными методами. Для определения того, насколько существенно отличаются ошибки синтезированного комитета (КРП-1) и индивидуальных базовых классификаторов в работе применялся непарамстрический критерий Вилкоксона (критерий знаковых рангов для связанных выборок). Согласно критерию имеются статистически значимые различия между ошибками, пол ученными при использовании КРП-1 и .метода центроидов . Это позволяет сделать вывод о том, что снижение ошибки при коллективной классификации по сравнению с ошибками метода центроидов носит систематический неслучайный характер.

В главе 5 дается обоснование необходимости проведения разработки собственного программного обеспечения, приводится структура и функциональные возможности двух разработанных программных комплексов, предназначенных для обработки и анализа библиографических текстовых документов.

ПК "СКАТ" ("Система Классификации и Аначиза Текста") ориентирован, прежде всего, на автоматизированный мониторинг тематических ресурсов Интернет и проведение фильтрации-классификации получаемой информации в соответствии с профессиональными потребностями пользователя. Кроме того, он предоставляет возможность построения моделей предметных областей, проведения наукометрического анализа и выявления из документального потока фрагментов значимой для специалиста-предметника информации.

УИПК ("Учебно-исследовательский программный комплекс") позволяет решать две взаимосвязанные проблемы. Во-первых, УИПК является важной составляющей учебного процесса на кафедре Управления к информатики МЭИ и на его основе реализован лабораторный практикум по курсу «Интеллектуальные информационные системы». Во-вторых, он позволяет студентам (магистрам, аспирантам, инженерам, преподавателям кафедры) осуществлять самостоятельные полномасштабные исследования процедур обработки и анализа библиографических текстовых документов в рамках курсового проектирования, квалификационных и научно-исследовательских работ, а также

проводить разработку дополнительных модулей, расширяющих функциональные возможности УИПК. Алгоритмическую основу УИПК составляют разработанные автором методы классификации и синтезируемые из них КРП.

Основное внимание в главе 5 уделяется организации автоматизированного мониторинга научно-технических информационных ресурсов. Для выбора наиболее авторитетных в области специализации пользователя научных изданий в работе предлагается процедура выявления тематических журналов гю заданным предметным областям. При этом основная задача данной процедуры заключается в увеличении точности поиска релевантной информации и обеспечении пользователя наиболее ценными публикациями.

В ходе разработки процедуры обосновывается использование импакт-факторов журналов для выявления наиболее рейтинговых и авторитетных изданий; определяется необходимое значение импакт-фаетора для изданий, специализирующихся в области Информатики; формализуются действия пользователя по окончательному выбору количества и номенклатуры отслеживаемых изданий; рассматриваются способы уточнения сформированного списка журналов в ходе практической эксплуатации.

Разработанная процедура была использована для автоматизации системы информационного обеспечения научно-технической деятельности в ряде организаций: Республиканском исследовательском научно-консультационном центре экспертизы (РИНКЦЭ), кафедре Микросистемной техники МИРЭА, кафедре Управления и информатики МЭИ. Мониторинг тематических изданий и фильтрация-классификация публикаций были проведены с помощью ПК "СКАТ". На основе анализа результатов эксплуатации и экспертных оценок специалистов, представляющих организации-заказчики, был сделан вывод об эффективности практического использования разработанных в работе индивидуальных и коллективных методов для обработки и анализа массивов научных библиографических документов.

Разработанные в диссертации инструментальные средства были использованы для обработки и анализа базы данных научных публикаций Института проблем химической физики РАН (ИГ1ХФ РАН, г.Черноголовка). Анализ включал проведение следующих исследований: выделение из массива научных публикаций наиболее активных ученых и формирующихся вокруг них групп соавторов; установление связи между продуктивностью и соавторством; определение основных тематик исследований (профилей научных групп); отслеживание изменения тематик работ с течением времени. Результаты

проведенных исследований, предоставленные для экспертного анализа, получили высокую оценку специалистов ИПХФ РАН, а выявленные закономерности нашли практическое применение при организации процесса планирования и управления НИОКР.

В ходе выполнения диссертации па базе разработанного алгоритмического, программного и методического обеспечения был построен терминологический портрет журнала «Информационные технологии», определена область специализации журнала и выявлены наиболее близкие тематические издания. В работе показано, что для решения задач данного класса целесообразно использовать профильные методы, разработанные в диссертации.

В пятой главе также приводятся результаты использования УИПК в учебных и исследовательских целях, указывается, что разработанный программный комплекс существенно отличается от имеющихся программных средств в рассматриваемой предметной области, реализуя, наряду с классическими методами, оригинальные эффективные процедуры индивидуальной и коллективной классификации, предложенные и апробированные в ходе выполнения данной работы.

В заключении подведены итоги проведенных исследований и кратко изложены основные выводы и результаты.

Основные результаты работы

1. Показано принципиальное отличие задачи обработки и анализа текстовых данных от обработки и анализа фактографических наблюдений или распознавания образов. Предложен целевой критерий синтеза системы обработки библиографической текстовой информации, учитывающий требования к точности, быстродействию и ресурсозатратам. На основе предложенного целевого критерия методом системного анализа построена модель, имеющая модульную структуру, что позволяет оценить влияние различных стадий обработки данных на значение целевого критерия.

2. С единых позиций проанализированы алгоритмы предварительной обработки и классификации библиографических текстовых данных, проведена их систематизация. Построена классификационная матрица, которая позволяет осуществлять обоснованный выбор процедур выявления информативных признаков и методов классификации, исходя из требований к точности, быстродействию и ресурсозатратам.

3. Для организации экспериментальных исследований предложена методика формирования выборок, состоящих из библиографических текстовых документов. Обосновано использование метода обучающих-тестовых выборок для обучения и тестирования при проведении экспериментов.

4. Показано, что использование индивидуальных классификаторов не всегда способно обеспечить малую ошибку группировки текстовых документов, их оценки не являются устойчивыми, сильно изменяясь от выборки к выборке. Это связано с нарушением на практике ряда стандартных допущений (о независимости признаков, компактности выборки, сферичности (линейной разделимости) классов и т.п.), необходимых для эффективного функционирования конкретного решающего правила.

Для достижения более высокой точности в специализированной литературе предложено использовать дополнительные процедуры, приводящие чаще всего к синтезу коллективных решений. Однако существующие способы построения КРП не позволяют в полной мере формировать комитеты с заданными свойствами по точности, быстродействию, ресурсозатратности, уделяя завышенное внимание вопросам снижения ошибки классификации.

5. В работе с позиций предложенного ЦК рассмотрены имеющиеся комитеты классификаторов, проведен сравнительный анализ стратегий принятия решений в КРП. Показано, что комитеты на основе простого голосования способны улучшить точность классификации по сравнению с точностью индивидуальных классификаторов. Методом имитационного моделирования исследована взаимосвязь между точностью методов и их разнородностью. Результаты моделирования наряду с проведенными экспериментальными исследованиями позволили зыявить информативные диапазоны изменения данных характеристик.

6. В целях синтеза высокоточных, быстродействующих, малозатратных комитетов в работе уточняется понятие простого классификатора и вводятся требования, которым должны удовлетворять такие классификаторы. Предложена процедура синтеза КРП с заданными свойствами на основе простых классификаторов. Проведенный теоретический анализ вычислительной сложности алгоритмов классификации позволил выделить среди известных методов те, которые соответствуют требованиям к простым классификаторам.

7. Исходя из требований, которым должны удовлетворять простые классификаторы разработан и исследован ряд новых методов классификации: модифицированный метод ближайшего соседа, обобщенный метод ближайшего соседа, метод М/-профилей, а также для проведения группировки библиографических текстовых документов адаптированы метод %2 -профилей и метод <2-профилей. Показаны принципиальные отличия разработанных процедур от уже известных. Даны рекомендации по выбору значений внутренних параметров в предложенных алгоритмах.

Разработанные в диссертации методы предназначены как для самостоятельного применения при классификации библиографических текстовых документов, так и для использования в качестве простых классификаторов при формировании высокоточных, быстродействующих и малозатратных КРП.

8. Получены оценки количества вычислительных операций, необходимых для классификации текстовых документов с помощью разработанных методов (ММБС и ОМБС) и показано, что они требуют меньшего количества вычислительных операций по сравнению с прототипом (методом к-ближайших соседей). Также показано, что быстродействие метода АЯ-профилей, метода -профилей и метода -профилей значительно выше, чем у известных эвристических процедур (в частности метода центроидов и метода к-ближайших соседей).

9. На основе предложенной автором процедуры синтезированы и исследованы высокоточные, быстродействующие и малозатратные КРП. сформированные из простых классификаторов и состоящие из трех и пяти членов. Обосновано включение в комитеты методов, ряд из которых разработан лично автором. Впервые получены КРП-1, состоящий из метода х2 -профилей, метода центроидов, обобщенного метода ближайшего соседа, и КРП-2, включающий метод %г -профилей, метод центроидов, метод М1-профилей, модифицированный метод ближайшего соседа и обобщенный метод ближайшего соседа. На выборках из библиографических текстовых документов показано, что синтезированные КРП обеспечивают более высокую точность и устойчивость по сравнению с методом к-БС и методом центроидов, а также обладают более высоким быстродействием в сопоставлении с методом к-БС.

10. Разработанные методы и ряд известных классификаторов реализованы в программных комплексах, созданных в ходе выполнения диссертационной работы. Опыт

эксплуатации этих программных средств подтверждает эффективность полученных теоретических и научно-методических результатов. Практическое использование разработанных ПК позволяет решать важные прикладные задачи по отслеживанию научных публикаций в заданных предметных областях, выявлению содержательных фрагментов из неструктурированной информации и построению моделей (профилей) предметных областей, сопровождению учебного процесса. Разработанное программное обеспечение может быть адаптировано к различным предметным областям и требованиям пользователей, при необходимости оно может дополняться новыми модулями.

11. В рамках созданной в работе автоматизированной системы информационного обеспечения научно-технической деятельности предложена комплексная процедура выявления групп тематических журналов в информационных ресурсах Интернет. Использование данной процедуры позволило решить задачу своевременного обеспечения тематическими публикациями ряда научно-исследовательских и образовательных организаций, повысив эффективность научной деятельности заказчиков.

12. Разработан, апробирован и внедрен в учебный процесс учебно-исследовательский программный комплекс, предназначенный для подготовки специалистов в области обработки и анализа текстовых данных. Продемонстрированы возможности УИПК по проведению комплексных исследований методов обработки и анализа текстовой информации. Алгоритмическую основу УИПК составляют разработанные автором методы классификации и синтезируемые из них КРП.

Основные публикации по теме работы

1. Толчеев В.О. Разработка и исследование новых модификаций метода ближайшего соседа. Приложение к журналу «Информационные технологии», №3,2005, с. 1-32.

2. Толчеев В.О. Современные методы обработки и анализа текстовой информации. Учебное пособие. М.: Изд-во МЭИ, 2006 - 75с.

3. Толчеев В.О. Синтез коллективов решающих правил для проведения классификации текстовых документов. Информационные технологии, №10, 2007, с. -3238.

4. Толчеев В.О. Комплексный подход к классификации текстовых документов. Автоматизация и современные технологии, №8,2005, с. 39-45.

5. Толчеев В.О. Анализ точностных характеристик модифицированного метода ближайшего соседа. Информационные технологии, №4,2006, с. 52-58.

6. Толчеев В.О. Модели и методы классификации текстовой информации. Информационные технологии, №5,2004, с. 6-14.

7. Толчеев В.О. Методы выявления информативных признаков в задаче классификации текстовых документов. Информационные технологии, №8,2005, с. 14-21.

8. Толчеев В.О. Взвешенные и редуцированные методы ближайшего соседа. Вестник МЭИ, №5,2005, с. 84-90.

9. Толчеев В.О. Обзор методов классификации текстовых документов. Автомати-

lanuo U mnn№MOUULI0 ТйУИППЛГН» МлШ 1ЛПС л

Ю.Некрасов И.В., Толчеев В.О. Модифицированный метод ближайшего соседа с использованием опорных точек для классификации текстовых документов. Вестник МЭИ, №1,2004, стр. 76-81.

Н.Мальцев П.П., Стяжкин В.Б., Толчеев В.О. Об опыте использования методики выявления тематических журналов. Информационные технологии, №7, 2007, с. 65-71.

12. Некрасов И.В., Толчеев В.О. Построение модели представления библиографического документа. Информационные технологии, №11,2005, с. 57-63.

13. Некрасов И.В., Толчеев В.О. Современные средства поиска, обработки и анализа текстовой информации. Вестник МЭИ, №1,2002, стр. 52-55.

14. Толчеев В.О. Функциональные возможности и области применения интеллектуальных агентов и многоагентных систем. Микросистемная техника, №4, 2002, с. 10-15.

15. Толчеев В.О. О новых подходах к разработке сложных интеллектуальных систем. Микросистемная техника, №2,2002, с. 24-28.

16. Колосов О.С., Анисимов Д.Н., Толчеев В.О., Ягодкина Т.В., Гришин В.И., Спиридонов Д.К. Итоги работ в области идентификации на кафедре управления и информатики МЭИ. Приборы и системы, №8,2001, с. 22-29.

17. Толчеев В.О. Методика синтеза коллективов решающих правил на основе "простых" классификаторов. Международная конференция Информационные средства и технологии. Том 2. МЭИ. Изд-во «Станкин». 2006, стр. 150-154.

18.Толчеев В.О. Формирование быстродействующих коллективов решающих правил. Международная конференция "Современные технологии в задачах управления, автоматики и обработки информации". Алушта. Изд-во МИФИ, 2006, с. 338.

¡9.Толчеев В.О. Расчет верхней точностной границы для коллективов решающих правил, использующих простое голосование. Международная конференция "Современные технологии в задачах управления, автоматики и обработки информации". Алушта. Изд-во Тульского государственного университета, 2007, с. 282-283.

20.Толчсев В.О. Исследование зависимости между точностью и разнородностью в коллективах решающих правил с помощью имитационного моделирования. Международная конференция "Информационные средства и технологии" том 2. МЭИ. Изд-во «Станкин», 2007, с. 91-93.

21.Толчеев В.О. Обобщенный метод ближайшего соседа. Международная конференция "Информационные средства и технологии" том 2. МЭИ. Изд-во «Станкин», 2005, стр. 183-185.

22. Кокорев П.В., Толчеев В.О. Улучшенный критерий взаимной информации для классификации текстовых документов. Международная конференция "Современные технологии в задачах управления, автоматики и обработки информации". Алушта. Изд-во СГАУ, 2005, с. 293.

23.Кокорев П.В., Толчеев В.О. Разработка метода -профилей для классификации текстовых документов. Международная конференция "Современные технологии в задачах управления, автоматики и обработки информации". Алушта. Изд-во МИФИ, 2006, с. 309.

24. Толчеев В.О. Профильные методы классификации библиографических документов. Международная конференция "Современные технологии в задачах управления, автоматики и обработки информации". Алушта. Изд-во СПб. ГУ АЛ, 2008, с,264-265.

25. Толчеев В.О. Методика выявления периодических гаданий, наиболее значимых для специалистов. Международная конференция "Информационные средства и технологии" том 1. МЭИ. Изд-во «Станкин», 1999, с. 187-190.

26. Толчеев В.О. О проведении классификации текстовых документов по их заголовкам. Международная конференция "Современные технологии в задачах управления, автоматики и обработки информации". Алушта. Изд-во МГАПИ, 2002, с. S8-89.

27.Бородкин A.A., Толчеев В.О. Исследование влияния структуры выборки и процедур предварительной обработки на точность классификации текстовой информации. Международная конференция "Информационные средства и технологии". Том 2, МЭИ. Изд-во Станкин, 2007, с. 33-34.

28.Бородкин A.A., Толчеев В.О. Об оценке точностных и временных характеристик методов кчассифика11ии библиографических текстовых документов. Научная сессия МИФИ2008. Том U.M. МИФИ, 2008, стр. 152-153.

29.Некрасов И.В., Толчеев В.О. Разработка программного комплекса для классификации текстовых документов. Международная конференция "Информационные средства и технологии" том 2. МЭИ. Изд-во «Станкин», 2002, с. 160-163.

30. Бородкин A.A., Толчеев В.О. Структура и функциональные возможности учебно-исследовательского программного комплекса. Международная конференция "Информационные средства и технологии" том 3. МЭИ. Изд-во «Станкин», 2008, с. 8587.

31. Кульга Д.В., Толчеев В.О., Филимонов Н.Б. Построение и анализ терминологического портрета журнала «Информационные технологии». Международная конференция "Информационные средства и технологии" том 3. МЭИ. Изд-во «Станкин», 2008, с. 104-105.

32.Некрасов И.В., Толчеев В.О. Экспериментальные исследования методов классификации текстовых документов. Научная сессия МИФИ 2005. М. МИФИ, 2005, стр. 152-153.

ЗЗ.Зенкина Ю.И., Толчеев В.О. Разработка программного комплекса для отбора тематических изданий и публикаций в области информатики. Алушта. Изд-во Тульского государственного университета, 2007, с. 256-257.

34.Некрасов И.В., Толчеев В.О. Информационно-поисковая система для обработки научно-технической информации. Международная конференция "Информационные средства и технологии" том 1. МЭИ. Изд-во «Станкин», 2001, с. 114-117.

Подписано в печать № 09 Зак Щ ,#•) Полиграфический центр МЭИ(ТУ) Красноказарменная ул.,д. 13

2008168734

Оглавление автор диссертации — доктора технических наук Толчеев, Владимир Олегович

ВВЕДЕНИЕ

ГЛАВА 1. СИСТЕМНЫЙ АНАЛИЗ ПРОЦЕССА ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХ И СИСТЕМАТИЗАЦИЯ МЕТОДОВ

1.1. Библиографические текстовые документы

1.2. Области применения методов обработки и аналнза библиографических текстовых данных

1.3. Системный анализ процесса обработки текстовой информации

1.3.1. Этапы системного анализа

1.3.2. Формулирование цели для систем обработки текстовой информации, определение критериев достижения цели и ограничений

1.4. Построение модели процесса обработки текстовой информации

1.4.1. Формализация понятия затрат

1.4.2. Способы оценки быстродействия и затрат

1.5. Формирование выборок, модели представления текстовых документов, оценка точности классификации

1.5.1. Сбор данных и формирование выборок

1.5.2. Способы представления текстовой информации

1.5.3. Оценка эффективности функционирования системы обработки текстовой информации

1.6. Предварительная обработка текстовых данных и систематизация процедур выявления информативных признаков

1.6.1. Предварительная обработка текстовых данных

1.6.2. О проблеме выявления информативных признаков

1.6.3. Критерии систематизации методов обработки и анализа текстовой информации

1.6.4. Систематизация процедур выявления информативных признаков

1.7. Систематизация методов классификации текстовой информации

1.8. Обобщение результатов систематизации методов выявления информативных признаков и методов классификации

1.9. Анализ результатов систематизации и определение новых направлений для исследований

Выводы по главе

ГЛАВА 2. ПОСТРОЕНИЕ ВЫСОКОТОЧНЫХ, БЫСТРОДЕЙСТВУЮЩИХ И МАЛОЗАТРАТНЫХ КОЛЛЕКТИВОВ РЕШАЮЩИХ ПРАВИЛ ДЛЯ КЛАССИФИКАЦИИ БИБЛИОГРАФИЧЕСКИХ ТЕКСТОВЫХ ДОКУМЕНТОВ.

2.1. Основные характеристики КРП

2.1.1. Виды коллективов решающих правил

2.1.2. Сравнительный анализ стратегий принятия решений в КРП

2.1.3. Расчет верхней точностной границы для коллективов решающих правил

2.2. Систематизация направлений работ по синтезу КРП

2.2.1. Способы отбора классификаторов для их объединения в комитеты

2.2.2. Меры разнородности

2.2.3. Выявление взаимозависимости между точностью и разнородностью классификаторов

2.3. Неоднородные КРП для решения задачи классификации текстовой информации

2.3.1. Обзор известных КРП, предназначенных для обработки и анализа текстовой информации

2.3.2. О понятии простой классификатор

2.3.3. Требования к простым классификаторам

2.3.4. Условия включения простого классификатора в КРП

2.3.5. Требования к синтезируемым КРП

2.3.6. Процедура синтеза коллективов решающих правил на основе простых классификаторов

2.4. Оценка быстродействия методов классификации

2.4.1. Понятие элементарной операции

2.4.2. Теоретический анализ быстродействия простых классификаторов

2.5. Выявление простых классификаторов среди известных процедур

Выводы по главе

ГЛАВА 3. РАЗРАБОТКА БЫСТРОДЕЙСТВУЮЩИХ МОДИФИКАЦИЙ

МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ

3.1 Анализ метода ближайшего соседа

3.2. Обзор известных модификаций метода ближайшего соседа.

3.3. Разработка нового модифицированного метода ближайшего соседа —ММБС

3.3.1. Алгоритм ММБС

3.3.2. Влияние структуры выборки на качество классификации

3.3.3. О различиях решающих правил, используемых в ММБС и методе к—Б С

3.3.4. Асимптотические свойства алгоритма ММБС

3.3.5. Анализ быстродействия ММБС

3.4. Обобщенный метод ближайшего соседа

3.4.1. Уточненная формула взвешивания

3.4.2. Алгоритм ОМБС

3.5. Процедуры редукции обучающих выборок

3.5.1. Обзор методов редукции

3.5.2. Разработка процедуры редукции обучающей выборки

3.6. Профильные методы для классификации текстовых документов

3.6.1. Статистический и теоретико-информационный подходы для выявления информативных признаков

3.6.2. Улучшенный критерий взаимной информации.

3.6.3. Методы %2-профилей, О-профилей и М1-профилей

3.7. Обобщение результатов главы

Выводы по главе

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ИНДИВИДУАЛЬНЫХ МЕТОДОВ КЛАССИФИКАЦИИ И КОЛЛЕКТИВОВ РЕШАЮЩИХ ПРАВИЛ, ПОСТРОЕННЫХ НА ОСНОВЕ ПРОСТЫХ КЛАССИФИКАТОРОВ

4.1. Организация экспериментальных исследований

4.1.1 Исходные предположения для проведения экспериментальных исследований

4.2. Формирование выборок для исследований, предварительная обработка текстовых документов и настройка параметров методов классификации

4.2.1. Источники текстовых данных для формирования выборок

4.2.2. Общие требования к формированию выборок

4.2.3. Методика формирования выборок

4.3. Исследование индивидуальных методов классификации

4.3.1. Анализ основных внешних факторов, влияющих на ошибку классификации

4.3.2. Настройка параметров методов классификации

4.4. Синтез неоднородных КРП на основе простых классификаторов и их экспериментальное исследование

4.4.1. Применение процедуры синтеза КРП на основе простых классификаторов

4.4.2. Условия включения редуцированных методов в КРП

4.5. Сравнительный анализ коллективных и индивидуальных решений по точности и быстродействию

4.5.1 Расчет среднего выигрыша в точности и быстродействии для синтезированных КРП

4.5.2. Оценка точности коллективных и индивидуальных классификаторов на новых выборках

4.5.3. Проверка статистической гипотезы о равенстве ошибок КРП-1 и базового классификатора (метод центроидов)

4.6. Введение в КРП операции "Отказ от классификации"

Выводы по главе

ГЛАВА 5. ОПЫТ ИСПОЛЬЗОВАНИЯ РАЗРАБОТАННЫХ ПРОГРАММНЫХ СРЕДСТВ ДЛЯ РЕШЕНИЯ ЗАДАЧ ОБРАБОТКИ И АНАЛИЗА БИБЛИОГРАФИЧЕСКИХ

ТЕКСТОВЫХ ДОКУМЕНТОВ

5.1. Разработка программных комплексов для автоматизированной обработки и анализа текстовой информации

5.1.1. Обоснование целесообразности разработки собственных программных комплексов

5.1.2. Структура и функциональные возможности разрабатываемых программных средств

5.2. Процедура выявления тематических журналов на порталах издательств

5.2.1. Требования, предъявляемые к источникам информации, и характеристики предметных областей

5.2.2. Специфика задачи выявления группы тематических журналов, доступных в электронном виде

5.2.3. Стратегии выбора электронных журналов по заданным тематикам

5.2.4. Основные этапы выявления группы тематических журналов на порталах издательств

5.2.5. Применение предложенной методики для отслеживания научных публикаций в заданных предметных областях

5.2.6. Обсуждение предложенной методики

5.3. Автоматизация процесса получения, обработки и анализа библиографических описаний журнальных статей с помощью

ПК «СКАТ»

5.3.1. Результаты фильтрации-классификации библиографического массива журнальных публикаций

5.3.2. Дополнительные возможности ПК "СКАТ"

5.3.3. Построение и анализ семантического образа журнала «Информационные технологии»

5.4. Учебно-исследовательский программный комплекс для обработки и анализа текстовой информации

5.5. Общие замечания

Выводы по главе

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Толчеев, Владимир Олегович

Для современного этапа развития общества характерна информатизация всех сфер деятельности, в результате которой текстовые данные в электронном виде превратились в ресурс, во многом определяющий научно-технический и экономический потенциал государства. По оценкам экспертов, в настоящее время около 70% накопленной и используемой обществом цифровой информации находится в неструктурированной (текстовой) форме и лишь 30% составляют другие виды данных (фактографические, мультимедийные и др.) [1,2].

Информационный бум, порожденный стремительным ростом сети Интернет, экспоненциальное увеличение количества неструктурированных данных привели по существу к коллапсу традиционной системы получения и распределения текстовой {документальной) информации, превратили рутинную операцию поиска и анализа необходимых сведений в трудоемкий и малоэффективный процесс, вызывающий информационную перегрузку пользователей (потребителей информации). В этой ситуации особую актуальность приобретают работы по созданию систем обработки текстовой информации (СОТИ), так как даже высококвалифицированные эксперты испытывают затруднения при организации поиска документов и распределении полученных текстовых данных по тематикам (рубрикам). Как указывается в специализированной литературе, результаты определения предметной области документа "вручную", т.е. путем экспертного отнесения к имеющейся рубрике, обычно не превышают 80%) [3,4].

До середины 90-х годов прошлого века большая часть работ по автоматизации процесса классификации массивов документальной информации не учитывала специфики обработки документов, получаемых из Интернет, и проводилась в направлении, заданном Дж. Солтоном (G. Salton) и его программой SMART для поиска и анализа текстовых документов в цифровых библиотеках [4].

В последнее десятилетие в России и за рубежом было разработано и внедрено значительное число коммерческого программного обеспечения, ориентированного, прежде всего, на массового потребителя и включающего функции фильтрации электронной почты, поиска и мониторинга новостной (социально-политической, финансово-экономической, спортивной) информации, построения профиля пользователя, поиска товаров в виртуальных магазинах и т.п. При этом значительно меньше внимания было уделено созданию программных средств для удовлетворения информационных потребностей профессиональных пользователей (специалистов-предметников). Такие программы, автоматизирующие процесс обработки и анализа научных публикаций, должны своевременно обеспечивать необходимыми сведениями разработчиков высокотехнологичной продукции (руководителей проектов, ученых, исследователей, инженеров), преподавателей и аспирантов вузов, проводящих НИОКР или подготавливающих новые курсы (монографии, диссертации и т.п.).

Эффективное управление процессом научной деятельности в современных условиях предусматривает полномасштабное использование всей доступной научной, патентной, обзорно-аналитической информации при выборе тематик НИОКР (для предотвращения финансирования дублирующих и неперспективных разработок), сопоставление полученных результатов с лучшими зарубежными аналогами, учет потребностей рынка в разрабатываемом изделии. В настоящее время российская система обеспечения научных исследований, в первую очередь на уровне "производителей" знаний (конкретных ученых, лабораторий, кафедр, коллективов разработчиков), остро нуждается в создании СОТИ, способных отслеживать новые научные публикации за рубежом и организовывать к ним доступ для заинтересованных отечественных специалистов. Своевременное получение информации, точно соответствующей специфическим научным потребностям пользователя, позволяет ему быть в курсе текущих событий, выявлять зарождающиеся тенденции (путем формирования и анализа тематических коллекций в области своей компетенции), выбирать перспективные направления для исследований (в ряде случаев анализ уже имеющихся данных может значительно сократить время на проведение собственных экспериментов), минимизировать затраты на закупку зарубежных журналов, книг, трудов конференций, мобильно подготавливать актуальные учебные курсы.

Таким образом, разработка и внедрение в практику автоматизированных систем обработки научно-технической информации является фундаментальной предпосылкой успешного проведения НИОКР, повышения производительности труда специалистов-предметников, сокращения временных и финансовых затрат на организацию научных исследований. Это позволяет отнести данную проблему к числу важных народно-хозяйственных задач, решение которой, в конечном итоге, будет способствовать повышению качества и эффективности проводимых научных исследований и разработок, ускорению процесса создания и коммерциализации инноваций.

Необходимо отметить, что одной из особенностей специализированных электронных ресурсов в области науки и техники является то, что в свободном (некоммерческом) доступе обычно находятся не полные тексты статей, докладов, отчетов, а только их краткие описания (рефераты). Такие документы называются библиографическими (реферативными). Под библиографическим текстовым документом принято понимать конечное множество слов (терминов), объединенных лексическими, грамматическими, смысловыми, частотными отношениями и образующих информативное сообщение. Как правило, такие документы состоят из названия, фамилий авторов, краткого описания (аннотации) и ключевых слов. При этом библиографическое описание представляет сжатое изложение полнотекстового документа (журнальной статьи, доклада на конференции, отчета по НИР, монографии, диссертации), его квинтэссенцию. Анализ таких коротких текстов, с одной стороны, позволяет экономить время специалиста-предметника на просмотр и оценку, с другой стороны, предоставляет возможность получить полные сведения о тематике работы, методах исследования, использовании результатов на практике. В данной диссертационной работе рассматриваются методы обработки и анализа применительно к библиографическим текстовым документам.

При построении современных СОТИ с целью удовлетворения информационных потребностей профессиональных пользователей особую актуальность приобретают работы по синтезу новых оригинальных методов обработки и анализа неструктурированных текстовых данных, усовершенствованию уже имеющихся подходов, объединению разработанных алгоритмов в специализированные программные комплексы, применение которых создает пользователю комфортные условия для продуктивной работы. Одним из основных эффективных средств анализа данных является классификация.

Классификация (группировка, категоризация, рубрикация) научных текстовых документов заключается в разбиении выборки на непересекающиеся группы (классы, рубрики) с целью обеспечения максимальной "близости" между документами одной группы, соответствующих определенной тематике, и максимального различия между группами. В качестве меры "близости" обычно используются метрики (например, евклидова метрика).

Рубрикация является мощным средством анализа текстовых документов, так как пользователям свойственно упорядочивать документы аналогичным образом. Методы классификации (решающие правила, классификаторы) позволяют минимизировать, а в ряде случаев исключить влияние пользовательской предвзятости и субъективности на процесс группировки данных. С середины прошлого века отмечается широкий общемировой исследовательский интерес к теории классификации. Существенный вклад в ее развитие внесли отечественные ученые: М.А. Айзерман, М.М. Бонгард, Э.Н. Бравер-ман, В.Н. Вапник, Ю.И. Журавлев, Н.Г. Загоруйко, В.Д. Мазуров, Г.С. Лбов,

Jl.А. Растригин, В.К. Финн, а также иностранные исследователи: Л. Брейман (Breiman), Д. Вилсон (Wilson), Т. Кавер (Cover), Т. Кохонен (Kohonen), Р. Ку-инлэн (Quinlan), Э. Патрик (Patrik), Дж. Солтон (Salton), Д. Фридман (Friedman), У. Френд (Freund), П. Харт (Hart), Р. Шапиро (Schapire), Б. Эфрон (Efron) и др.

В настоящее время в России и за рубежом наблюдается значительный интерес к исследованиям в области Data & Text Mining (интеллектуальный анализ фактографических и текстовых данных), причем количество НИОКР, ориентированных на создание СОТИ и удовлетворение информационных потребностей пользователей, растет опережающими темпами. К числу ведущих российских научных центров, специализирующихся в разработке теоретических основ и инструментальных средств в области обработки и анализа документальной информации, следует отнести: Вычислительный центр им. А.А. Дородницына РАН, ВИНИТИ, Институт проблем информатики РАН, Институт проблем управления им. В.А. Трапезникова РАН, Институт программных систем РАН, Институт системного программирования РАН, Научно-исследовательский вычислительный центр МГУ им. М.В. Ломоносова, ГПНТБ, ГНИИ информационных технологий и телекоммуникаций "Инфор-мика", Санкт-Петербургский государственный университет.

Несмотря на то, что проблемы классификации документов находятся в центре внимания целого ряда научных коллективов, по многим вопросам до сих пор не найдено удовлетворительных ответов. Так, не разработано универсального подхода, способного обеспечивать наилучшую точность на различных выборках полнотекстовых и библиографических документов, т.е. не создано эффективного метода "на любой случай" (под точностью в данной работе понимается отношение правильно классифицированных документов к общему числу документов (экзаменационной) выборки, под ошибкой — количество неправильно классифицированных документов к общему числу документов (экзаменационной) выборки). Точность различных методов существенно зависит от выполнения априорных предположений и допущений, структуры текстовых данных (количества классов (тематик), размеров и однородности классов, вида "пограничной" области между классами и т п.).

При обработке документальной информации возникают дополнительные трудности. Во-первых, количество информативных признаков (терминов) обычно существенно превосходит размер выборки, затрудняя обучение методов и определение наилучших оценок параметров. Во-вторых, объем вычислительных операций при обработке и анализе текстовых документов чрезвычайно велик, что делает процесс классификации дорогостоящим и крайне трудоемким. В-третьих, получаемая матрица "документ-термин" оказывается сильно разреженной, так как большое число терминов встречается только в одном или нескольких документах. В-четвертых, в отличие от структурированной информации, которая обычно содержит фактические сведения в виде чисел, неструктурированная информация не имеет единого текстового формата и общепринятых правил представления, что делает обработку и анализ документов практически невозможным без разработки комплексной модели процесса обработки текстовой информации.

Сложность и неформализованность процедуры рубрикации текстовой информации приводит к тому, что в ряде случаев разные методы дают противоречивые, существенно отличающиеся друг от друга решения. В связи с этим использование только одного метода не может гарантировать желаемых результатов. Изначально непредсказуемая структура массива текстовых документов требует применения особо чувствительных и точных методов. С целью снижения ошибки при определении класса документов предложено несколько специальных подходов.

Первый подход связан с существенным увеличением размера обучающей выборки (или числа обучающих выборок, которые используются для настройки параметров методов). Однако такой способ улучшения точности классификации приводит к существенному росту затрат, что затрудняет его широкое использование на практике. Второй подход предполагает разработку онтологий (тезаурусов, рубрикаторов), содержащих формализованные экспертные знания, и применение этих знаний в процессе классификации. Трудоемкость и высокая стоимость составления онтологий сдерживает их полномасштабное внедрение в процесс обработки и анализа текстовой информации. Третий подход заключается в разработке специальных процедур для увеличения точности классификации. Обычно эти процедуры направлены на более тщательный отбор информативных признаков, поиск наилучших значений настраиваемых параметров методов, создание улучшенных модификаций решающих правил. Снижение ошибки классификации в рамках третьего подхода достигается за счет усложнения процедуры обучения, которая позволяет извлечь дополнительную информацию из исходной выборки.

Несмотря на возможность уменьшения ошибки методов классификации с помощью указанных подходов, тем не менее необходимо отметить наличие принципиального точностного барьера у индивидуальных решающих правил, что заставляет разработчиков СОТИ искать принципиально новые способы увеличения точности классификации.

Так, в рамках четвертого подхода для принятия решения о классификации документа предлагается использовать не один, a m методов, которые объединяются в коллектив решающих правил (КРП) или комитет (ансамбль) классификаторов. Принятие решений в таком КРП во многом аналогично процедуре согласования мнений нескольких специалистов в экспертных системах. К числу существенных преимуществ применения комитетов классификаторов относят, прежде всего, возможность увеличения точности разнесения документов по классам в сравнении с использованием индивидуального классификатора, хорошую интерпретируемость результатов, меньшую зависимость от структуры выборки и присутствия в ней нерелевантных шумовых документов (документов, не принадлежащих ни одному из классов, представленных в выборке). Механизм принятия решения в КРП обеспечивает большую устойчивость результатов классификации. Под устойчивостью в контексте проводимых исследований понимается несущественная зависимость точности классификации от наличия в выборке нерелевантных документов и документов, находящихся на границе классов.

Общим недостатком для всех описанных выше подходов является низкое быстродействие. Под быстродействием в данной работе понимается процессорное время, которое затрачивается алгоритмом для классификации нового документа (присвоения документу метки класса). Решение данной проблемы принципиально, поскольку лежит в основе требований практики к обработке текстовых сообщений в реальном масштабе времени, что означает необходимость сокращения вычислительных операций и уменьшения времени классификации поступающих документов. Причем в большинстве прикладных задач практическая ценность метода зависит как от точности классификации, так и быстродействия. Даже высокоточные методы, которые требуют длительных "раздумий" при принятии решения, редко используются пользователями, предпочитающими оперативно получать и анализировать результаты.

В настоящее время в специализированной литературе по распознаванию образов, обработке и анализу документальных, фактографических данных в качестве наиболее эффективного пути повышения точности классификации широко обсуждается именно четвертый подход [5,6,7,8,9,10]. Действительно, путем формирования КРП возможно осуществлять синтез высокоточных алгоритмов, способных удовлетворять все возрастающим требованиям практики к результатам классификации. Однако их применение приводит к значительному росту вычислительной сложности процедуры распределения документов по классам и, как следствие, резкому увеличению времени группировки документов. При этом возрастают также затраты, необходимые для обучения и реализации методов — членов комитета. Под затратами (ре-сурсозатратностью) в данной работе понимаются прежде всего ресурсы, которые должны быть затрачены на стадии обучения. К ним относятся: ресурсы, необходимые для формирования обучающих выборок (данная проблема критична, так как количество имеющихся в распоряжении исследователя рубрицированных документов, для которых известна метка класса, обычно ограничено и получение дополнительных текстов связано с трудоемким поиском и дорогостоящим экспертным отбором подходящих библиографических описаний); ресурсы, затрачиваемые на выявление и взвешивание информативных терминов; ресурсы, требуемые для обучения методов (т.е. настройки их параметров). При этом предполагается, что затраты, необходимые на программную реализацию и отладку методов, используемых в данной работе, значительно меньше затрат на формирование обучающих выборок, выявление информативных терминов и обучение методов.

Невысокое быстродействие и ресурсозатратность стандартных коми-тетных конструкций существенно сужает круг реальных проблем, которые могут быть решены с использованием таких КРП. Важным достоинством КРП, синтезируемых в данной работе, является то, что увеличение точности классификации достигается не путем усложнения механизма принятия решений (введением дополнительных настраиваемых методов) или процедуры обучения, а за счет объединения нескольких достаточно "простых" разнородных методов, ряд из которых был разработан лично автором. Использование таких комитетов позволяет изменить существующее положение вещей, когда более высокая точность, обеспечиваемая тем или иным КРП, всегда связана со значительными затратами на этапе обучения и обычно приводит к снижению быстродействия коллективных методов на этапе классификации.

Несмотря на наличие большого числа публикаций по способам увеличения точности распределения документов по классам (прежде всего для обработки фактографических данных), тем не менее практически отсутствуют системные исследования по синтезу высокоточных малозатратных комитетов, которые, наряду с низкой ошибкой классификации, обладали бы быстродействием, соизмеримым с быстродействием известных индивидуальных методов.

Сложившаяся ситуация объясняется многоаспектностью и разнородностью исследований, проводимых в теории классификации как по созданию индивидуальных классификаторов, так и по синтезу КРП. В большинстве случаев разработчики нацелены на решение отдельных практических задач или теоретическое исследование точностных характеристик процедур. При этом фактически выпадает из анализа другие важные свойства методов, включая быстродействие на стадии классификации и затраты на стадии обучения.

В отличие от ряда областей знаний, где требования к программным и техническим средствам регламентируются с помощью специализированных стандартов, в литературе по теории классификации не удалось найти комплексных исследований, которые структурировали бы имеющийся арсенал средств классификации по показателям точности, быстродействия и ресурсо-затратности. Этим обусловлена необходимость с позиций системного анализа построить концептуальную модель обработки текстовых документов и провести систематизацию известных методов с целью выделения таких индивидуальных классификаторов, которые наилучшим образом могут быть использованы для построения высокоточных быстродействующих КРП, не требующих значительных затрат на стадии обучения. Построенная методом системного анализа концептуальная модель должна позволить с единых позиций рассмотреть все этапы процесса обработки и анализа библиографических текстовых документов, обоснованно выбрать из существующих альтернатив методы, которые наилучшим образом удовлетворяют цели разработки СОТИ, и хорошо сочетаются друг с другом.

Введение специальной систематизации не только способно структурировать имеющиеся результаты исследований и дать рекомендации по синтезу эффективных комитетных решений, но позволяет определить новые перепективные направления исследований в данной научной области. Принимая во внимание вышеизложенное, представляется возможным следующим образом сформулировать цель данной диссертационной работы.

Цель работы заключается в разработке новых методов классификации и синтезе коллективов решающих правил, обеспечивающих высокую точность, быстродействие и небольшую ресурсозатратность решения задачи классификации библиографических текстовых документов.

Для достижения указанной цели необходимо:

1. Осуществить системный анализ задачи обработки библиографических текстовых документов с формулированием целевого критерия, построением модели решаемой задачи и выявлением основных этапов, оказывающих наибольшее влияние на целевой критерий.

2. На основе результатов системного анализа провести систематизацию наиболее известных и широко используемых на практике методов обработки и классификации библиографической текстовой информации.

3. Построить классификационную матрицу, позволяющую осуществить обоснованный выбор процедур выявления информативных терминов и методов классификации, исходя из требований к точности, быстродействию и ресурсозатратам.

4. Разработать методику синтеза высокоточных, быстродействующих и малозатратных КРП применительно к задачам классификации библиографической текстовой информации.

5. Разработать новые быстродействующие модификации методов, обеспечивающих высокую точность классификации текстовых документов (точность, сопоставимую с точностью известных методов) и не требующих существенных затрат на стадии обучения.

6. На основе разработанных процедур классификации и предложенной методики синтезировать новые КРП, которые наряду с увеличением точности, обеспечивают быстродействие, соизмеримое с быстродействием известных индивидуальных методов классификации, и не требуют существенных дополнительных ресурсозатрат на стадии обучения.

7. Разработать структуру программного комплекса, внутреннее представление данных, организацию процедур поиска, хранения, обработки и анализа библиографической текстовой информации.

8. Разработать процедуру применения предложенных методов и созданного программного обеспечения для решения практических задач.

9. Реализовать и апробировать созданные инструментальные средства на практике для обработки и анализа массивов библиографических научно-технических документов.

Объектом исследований в данной работе являются системы обработки текстовой информации, позволяющие автоматизировать процесс анализа документов и обеспечивающие своевременное получение и распределение информации по классам согласно профессиональным потребностям пользователя.

Предметом исследований в диссертации являются индивидуальные и коллективные методы классификации библиографической текстовой информации.

Материал, вошедший в диссертацию, использовался автором при чтении лекционных курсов «Интеллектуальные информационные системы», «Информационные технологии в управлении». Для проведения лабораторного практикума по данным дисциплинам разработан и внедрен в учебный процесс учебно-исследовательский программный комплекс. По тематике диссертации подготовлена монография (4,5 печ. листа) [11] и учебное пособие (4,75 печ. листа) [12].

В ходе проведения исследований под руководством автора выполнена и защищена диссертационная работа на соискание ученой степени кандидата технических наук [13] и три магистерские диссертации [14,15,16]. Основные результаты опубликованы в 14 статьях в журналах ВАК, рекомендованных по направлению управление, вычислительная техника и информатика («Информационные технологии» - 6, «Вестник МЭИ» - 3, «Автоматизация и современные технологии» - 2, «Нано- и микросистемная техника» (старое название «Микросистемная техника») - 2, «Приборы и системы. Управление. Контроль. Диагностика» -1) [10,17,18,19,20,21,22,23,24,25,26,27,28,29].

Необходимо отметить, что область применения основных научных результатов работы шире, чем рассматриваемый в работе класс задач, связанный с обработкой и анализом документальной информации. Полученные теоретические и практические результаты могут быть также использованы при классификации фактографических данных и распознавании образов, разработке информационно-поисковых и информационно-аналитических систем.

Методы исследования. Полученные в диссертации результаты основываются на применении аппарата системного анализа, теории вероятностей, математической статистики, линейной алгебры, теории множеств, вычислительной геометрии, теории алгоритмов, систем искусственного интеллекта, численных методов, имитационного моделирования.

Научная новизна.

1. На основе системного анализа процесса обработки библиографических текстовых документов предложен критерий, учитывающий требования к процедурам выявления информативных терминов, обучения и классификации по точности, быстродействию, ресурсозатратам; построена модель процесса, имеющая модульную структуру, что позволяет оценить влияние различных этапов обработки и анализа библиографических данных на значение целевого критерия.

2. Проведена систематизация процедур выявления информативных терминов и методов классификации текстовых данных, сформулированы рекомендации по их использованию. Построена классификационная матрица, которая позволяет осуществлять обоснованный выбор процедур выявления информативных терминов и методов классификации, исходя из требований к точности, быстродействию и ресурсозатратам.

3. Разработано три новых метода классификации библиографических текстовых документов (модифицированный метод ближайшего соседа, обобщенный метод ближайшего соседа и метод Ml- профилей). Адаптированы метод профилей и метод Q- профилей для решения задач классификации библиографических текстовых документов. Даны рекомендации по выбору настраиваемых параметров в предложенных алгоритмах.

4. Получены оценки вычислительной сложности для разработанных и адаптированных методов на стадиях обучения и классификации. Показано, что при классификации текстовых документов предложенные методы обеспечивают более высокое быстродействие по сравнению с известными процедурами.

5. Сформулированы требования к простым классификаторам. Разработана и обоснована процедура синтеза высокоточных, быстродействующих и малозатратных КРП на основе простых классификаторов для обработки и анализа библиографических текстовых документов.

6. На основе предложенной процедуры проведен синтез двух новых коллективов решающих правил, состоящих из простых классификаторов. Синтезированные КРП состоят как из известных процедур, так и из методов классификации, разработанных в ходе выполнения диссертации. Экспериментально показано, что сформированные КРП имеют меньшую ошибку по сравнению с известными индивидуальными классификаторами.

7. Рассчитаны оценки вычислительной сложности синтезированных КРП. Показано, что их быстродействие существенно превышает быстродействие метода «--ближайших соседей.

8. Разработана оригинальная процедура выявления тематических журналов по заданным пользователем предметным областям. Данная процедура позволяет организовать автоматизированный мониторинг информационных ресурсов и получение релевантных научных публикаций, соответствующих потребностям пользователя.

Практическая ценность результатов.

1. Разработан программный комплекс (ПК) "СКАТ" ("Система Классификации и Анализа Текста"), реализующий полный цикл обработки и анализа библиографической текстовой информации. ПК "СКАТ" ориентирован на использование широким кругом пользователей, не имеющих специальных знаний в области теории классификации и программирования.

2. Разработанный ПК "СКАТ" позволяет пользователям получать и обрабатывать в автоматизированном режиме текстовые документы из библиографических баз данных и с Интернет-сайтов. Показано, что предложенные в диссертации методы, алгоритмически и программно реализованные в ПК, эффективны при обработке больших массивов библиографических текстовых данных, обладают высокой точностью, быстродействием, не требуют существенных затрат на стадии обучения. Подтверждено, что точность классификации может быть повышена при формировании КРП с учетом обоснованных в работе рекомендаций.

3. Теоретические результаты и опыт применения ПК "СКАТ" в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библиографических документов из научных журналов, получаемых из сети Интернет.

4. Разработан, апробирован и внедрен в учебный процесс учебно-исследовательский программный комплекс, предназначенный для подготовки специалистов в области обработки и анализа текстовых данных. Продемонстрированы его возможности по проведению самостоятельных комплексных исследований методов обработки и анализа текстовой информации. Алгоритмическую основу программного комплекса составляют разработанные автором методы классификации и синтезируемые из них КРП.

5. Показано, что функциональные возможности ПК "СКАТ" и учебно-исследовательского программного комплекса позволяют эффективно решать широкий круг реальных задач обработки и анализа библиографических текстовых документов (автоматизированный мониторинг информационных ресурсов, фильтрация-классификация научных публикаций по заданным тематикам, наукометрический анализ библиографических баз данных, исследование и сравнительный анализ методов обработки и анализа документальной информации).

Реализация результатов. Разработанный ПК "СКАТ" внедрен в эксплуатацию в Федеральном государственном учреждении Научно-исследовательском институте "Республиканский исследовательский научно-консультационный центр экспертизы" (ФГУ НИИ РИНКЦЭ). ПК "СКАТ" был использован для автоматизированного получения с сайтов электронных издательств англоязычных публикаций по заданным научно-техническим тематикам и фильтрации-классификации документального массива. Практическое применение разработанного программно-алгоритмического и методического обеспечения подтверждается актом о внедрении.

Созданные в диссертации инструментальные средства были успешно использованы для обработки и анализа базы данных научных публикаций в области химии, в частности для определения основных тематик исследований, построения профилей научных групп, отслеживания изменения тематик работ с течением времени. По результатам применения разработанных инструментальных средств в Институте проблем химической физики РАН (г.Черноголовка) автором был получен акт о внедрении.

Процедура выявления тематических журналов, разработанные индивидуальные и коллективные решающие правила были использованы в издательстве «Новые технологии» для обработки и анализа англоязычных документальных потоков в области информатики. По результатам использования разработанных программно-алгоритмических средств автором был получен акт о внедрении.

Разработанный учебно-исследовательский программный комплекс внедрен в учебный процесс для проведения лабораторного практикума по курсу «Интеллектуальные информационные системы», курсового и дипломного проектирования на кафедре Управления и информатики МЭИ, что подтверждается актом о внедрении.

Апробация работы. Материалы диссертации докладывались на одиннадцати международных конференциях "Информационные средства и технологии" (1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008 гг. Москва, МЭИ), на восьми Научных сессиях МИФИ (2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009 гг. Москва, МИФИ), на семи научно-технических семинарах "Современные технологии в задачах управления, автоматики и обработки информации" (2002, 2003, 2004, 2005, 2006, 2007, 2008 гг. Алушта, МАИ).

Публикации. Автором опубликовано 55 работ по теме диссертации, в том числе 14 статей в журналах, рекомендованных ВАК по направлению управление, вычислительная техника и информатика, монография и учебное пособие.

Структура и объем работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы, содержащего 284 наименований, 6 приложений. Основной текст диссертации излагается на 335 машинописных страницах и содержит 27 рисунка и 25 таблиц.

Заключение диссертация на тему "Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов"

Основные результаты, полученные автором, опубликованы в журнале «Информационные технологии», причем за цикл работ по классификации и моделированию текстовых документов В.О. Толчеев стал победителем конкурса «Лучшая статья года», проводимого Журналом в 2005 году.

В издательстве «Новые технологии» было использовано научно-методическое, алгоритмическое и программное обеспечение, разработанное под руководством В.О. Толчеева для проведения автоматизированной обработки и анализа библиографических текстовых документов, включая: методику выявления тематических журналов, на основе которой проводился выбор англоязычных изданий, специализирующихся в области Информатики (Computer Science) и являющихся тематически близкими к журналу «Информационные технологии»; индивидуальные и коллективные решающие правила для классификации'библиографических текстовых документов, которые были использованы в процессе обработки и анализа англоязычных документальных потоков в области Информатики.

Использование данных результатов в издательской деятельности позволяет сформировать ряд рекомендаций по своевременному отслеживанию тенденций в-интересующей области науки и технологии, сократить трудозатраты экспертов на просмотр и анализ больших массивов документальной информации, а также установить новые закономерности в документальном потоке научной информации.

Главный редактор журнала «Информационные технологии» Заслуженный деятель науки и техники РФ Доктор технических наук, профессор

Отв. секретарь объединенной редакции Издательства «Новые технологии» Кандидат технических наук, доцент

С^) ^оренков

Н.Б. Филимонов