автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка и исследование метода классификации библиографической текстовой информации

кандидата технических наук
Некрасов, Иван Валериевич
город
Москва
год
2005
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование метода классификации библиографической текстовой информации»

Автореферат диссертации по теме "Разработка и исследование метода классификации библиографической текстовой информации"

На правах рукописи

Некрасов Иван Валериевич

Разработка и исследование метода классификации библиографической текстовой информации

Специальность 05.13.01 - системный анализ, управление и обработка информации (энергетика, приборостроение, информатика, производственные

процессы)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

V N

Москва 2005

Работа выполнена на кафедре Управления и информатики Московского энергетического института (технического университета).

Научный руководитель: кандидат технических наук, доцент

Толчеев Владимир Олегович

Официальные оппоненты: доктор технических наук, профессор

Климанов Вячеслав Петрович

кандидат технических наук, доцент Волгин Владимир Владимирович

Ведущая организация: Федеральное государственное учреждение Научно-

исследовательский институт "Республиканский исследовательский научно-консультационный центр экспертизы" (ФГУ НИИ РИНКЦЭ)

Защита состоится "15" декабря 2005 г. в 14.00 час. в Малом актовом зале МЭИ (ТУ) на заседании диссертационного совета Д.212.157.08 при Московском энергетическом институте (техническом университете), адрес: г. Москва, ул. Красноказарменная д. 14, МЭИ.

Отзывы в количестве двух экземпляров, заверенные и скрепленные печатью учреждения, просим присылать по адресу:

г. Москва, ул. Красноказарменная д. 14, Ученый Совет МЭИ.

С диссертацией можно ознакомиться в библиотеке МЭИ.

Автореферат разослан "14" ноября 2005 г.

Ученый секретарь диссертационного совета В.М. Беседин

■71 -

и • .

19243

imsio

Общая характеристика работы.

Актуальность проблемы. Информационный бум, порожденный стремительным развитием глобальной сети Internet, быстрый рост количества электронных документов стали причиной информационной перегрузки пользователей - потребителей информации.

В условиях возрастающей роли сети Internet, превращающейся в один из основных источников информации, возникает ряд существенных проблем: поиск необходимых сведений из повседневной операции становится трудоемким и малоэффективным процессом, а обработка и анализ полученных материалов делается все более неформализованной и трудоемкой процедурой,

В настоящее время отмечается широкий общемировой исследовательский интерес к этим проблемам. При этом в качестве одного из наиболее эффективных способов их решения рассматривается разработка новых оригинальных технологий для классификации больших массивов документов с целью создания пользователю комфортных условий для продуктивной работы.

Классификация текстовой информации заключается в разбиении набора документов на обычно непересекающиеся группы с целью обеспечения максимальной близости элементов одной группы и максимального различия между группами. В качестве меры близости обычно используются евклидова метрика или косинусоидальная метрика.

Одной из прикладных задач, в которых необходимо применение классификации текстовых документов, является отслеживание публикаций на Internet-сайтах научно-технических журналов и конференций по заданным пользователем предметным областям. Обычно на таких Internet-сайтах бесплатный доступ предоставляется не к полным текстам статей и докладов, а только к их кратким описаниям, которые принято называть библиографическими документами. Библиографические научно-технические документы представляют сжатое изложение полнотекстового документа и состоят из названия, фамилий авторов, краткого описания (аннотации) и ключевых слов.

Для автоматизации процесса обработки библиографических публикаций, доступных на Internet-сайтах, необходима разработка специализированного программного комплекса, реализующего модуль отслеживания появления новых публикаций, модуль предварительной обработки и модуль классификации библиографических научно-технических документов. Важной задачей является отбор методов для включения в такой комплекс с целью обеспечения малой ошибки классификации. К другим возможным требованиям относятся также малое время классификации, простота реализации, высокая скорость обучения, легкость интерпретации результатов. Однако большинство известных методов не удовлетворяют указанным требованиям.

Целью диссертационной работы является разработка и исследование метода классификации библиографической текстовой информации, который

РОС. НАЦИОНАЛЬНАЯ БИБЛИОТЕКА

ориентирован на решение задачи классификации библиографических документов, расположенных на Гг^егпеЬсайтах научно-технических журналов, обеспечивает малое время классификации и ошибку, сопоставимую с ошибкой известных методов.

В соответствии с указанной целью были определены следующие задачи исследования.

1. Проведение обзора и сравнительного анализа существующих методов классификации текстовых документов. Выявление характерных особенностей классификации библиографических текстовых документов по научно-технической проблематике.

2. Разработка метода классификации библиографических текстовых документов, обеспечивающего малое время классификации и ошибку классификации, сопоставимую с ошибкой других известных методов.

3. Исследование характеристик разработанного метода на различных выборках из текстовых документов и проведение сравнительного анализа с известными методами.

4. Разработка программного комплекса (ПК) для проведения классификации библиографических текстовых документов и составление методики, позволяющей использовать разработанный ПК для обработки и анализа библиографических документов на ^егпеЬсайтах научно-технических журналов.

Методы исследования. Полученные в диссертации результаты основываются на применении аппарата теории вероятностей, математической статистики, численных методов, линейной алгебры, вычислительной геометрии.

Научная новизна.

1. Разработан новый метод классификации библиографических текстовых документов - модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа, в котором с целью увеличения быстродействия предложено ввести опорные точки.

2. Обосновано количество и месторасположение опорных точек, даны рекомендации по выбору настраиваемых параметров в разработанном методе.

3. Получена оценка количества вычислительных операций, необходимых для классификации текстовых документов с помощью разработанного метода и показано, что он требует меньшего количества вычислительных операций по сравнению с прототипом (методом ближайшего соседа).

»

4. Выявлено влияние способа взвешивания терминов, меры близости между документами, длины документа, длины выборки и количества классов на ошибку и время классификации разработанного метода.

5. На основе сравнительного анализа ошибок классификации разработанного метода с ошибками известных методов показано, что при существенном снижении времени классификации ошибка разработанного метода остается сопоставимой с ошибками известных методов.

Практическая ценность результатов.

1. Разработан ПК "СКАТ' ("Система классификации и анализа текста"), реализующий предложенный в диссертации метод классификации.

2. Для обоснования выбора наиболее эффективного метода (для решения конкретной задачи) в ПК "СКАТ" реализованы также другие методы (метод fc-ближайпгах соседей, метод центроидов и наивный байесовский метод).

3. Разработанный ПК позволяет пользователям получать и обрабатывать в автоматизированном режиме библиографические текстовые документы с Internet-сайтов электронных журналов.

4. ПК "СКАТ" ориентирован на использование широким кругом пользователей, не имеющих специальных знаний в области теории классификации и программирования.

5. Теоретические результаты и опыт использования ПК в экспериментальных исследованиях обобщены в методике использования ПК для классификации библиографических документов из научно-технических журналов, получаемых из сети Internet.

Реализация результатов. Разработанный ПК "СКАТ" внедрен в эксплуатацию в Федеральном государственном учреждении Научно-исследовательском институте "Республиканский исследовательский научно-консультационный центр экспертизы" (ФГУ НИИ РИНКЦЭ) для автоматизированного получения и классификации англоязычных публикаций по профильным научно-техническим тематикам с сайтов электронных издательств, что подтверждается актом о внедрении.

Апробация работы. Материалы диссертации докладывались на трех международных конференциях "Информационные средства и технологии" (в 2001,2002,2003 гг. Москва, МЭИ) и на четырех научных сессиях МИФИ (2002, 2003, 2004, 2005 гг. Москва, МИФИ).

Публикации. Основные результаты исследований опубликованы в 11 печатных работах.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 102 наименований. Диссертация изложена на 125 страницах основного текста, содержит 31 рисунок и 5 таблиц.

Содержание работы.

Во введении обосновывается актуальность темы диссертации, формулируются цель и основные задачи исследования.

В первой главе подробно рассмотрен процесс классификации текстовой информации, проведен обзор методов классификации текстовых документов, на основе которого сформулирована постановка задачи исследования.

Процесс классификации текстовой информации можно представить в виде следующей последовательности шагов. Предварительная обработка, во время которой из документа удаляется разметка текста, стоп-слова (предлоги, союзы, местоимения и т.д.) и выделяются термины.

Следующим этапом является индексация, в результате которой в соответствие каждому термину ставится число - вес термина, и выборка документов приводится к матричной модели представления, в которой строками являются документы выборки, а столбцами - термины документов:

*11 хп ХМ1

X - ХИ XMi

■^ijv X]N хт

, где хц - вес термина; в документе i.

О)

Примем обозначения: N - число документов в выборке, М- число слов в выборке после удаления стоп-слов, выделения корня слова и сокращения количества признаков, п, - общее количество документов, содержащих слово j, ft, -частота встречаемости слова j в документе i (j=1,... ,М; i=l,... Д).

В работе для взвешивания терминов используются следующие методы.

TF - взвешивание.

TF - взвешивание является наиболее простым подходом к взвешиванию терминов документа. Оно выделяет в качестве информативных часто встречающиеся в документе термины: Xj, = fjt.

TF - IDF взвешивание.

TF метод не использует частоту встречаемости термина во всех документах выборки (дискриминирующую способность термина). TF-IDF - взвешивание присваивает вес слову j в документе i пропорционально числу вхождений слова в документ, и обратно пропорционально числу документов в выборке, в

которые слово входит, по крайней мере, однажды: х - /,-, • log

^ 1 Логарифм

Кп1

в формуле используется для уменьшения веса часто встречающихся терминов и увеличения веса среднечастотных терминов.

Кроме ТТ и ТБ-ГОР методов в работе также использовались ТГС и 1_ТС методы взвешивания, являющиеся модификациями ТТ-ГОР метода.

Так как размерность матрицы (1) обычно составляет сотни тысяч слов, следующим шагом в процессе классификации текстовой информации проводится сокращение размерности, в результате которого выбираются наиболее информативные термины. В работе для выделения информативных признаков термины взвешивались с помощью одного из перечисленных выше методов, после чего для классификации использовалось фиксированное количество терминов с наибольшим весом. Применение такого простого подхода обусловлено тем, что при обработке библиографических документов проблема размерности матрицы стоит не так остро, как в полнотекстовых документах, из-за меньшего размера библиографических документов.

Далее, на этапе классификации, применяется один из методов классификации, который определяет близость нового документа к документам обучающей выборки. В результате новому документу присваивается номер класса. Близость между документами обычно определяется евклидовой (2) или косину-соидальной (3) метрикой:

' м~, Г

2{хп-хпу, (2)

м

1Х»ХП

ад Д,) = С08(*,.,*,.)= (3)

ф 1

где - вектор документа обучающей выборки, Я1 - новый документ, класс которого необходимо определить, х - вес термина / в документе г, х;1 - вес термина; в документе I.

Последним этапом идет оценка качества классификации. В работе качество классификации оценивается ошибкой и временем классификации. Под ошибкой классификации понимается отнесение документа к классу, к которому он не принадлежит. Время классификации - время, которое необходимо методу для определения класса нового документа. Количественная оценка ошибки классификации рассчитывается по контрольной выборке по формуле:

где С - количество документов контрольной выборки, отнесенных не к тому классу, к которому они принадлежат, А - количество документов контрольной выборки, отнесенных к тому же классу, к которому они принадлежат.

Как показал обзор литературы, в настоящее время для классификации текстовой информации не найдено универсального решения и используется целая группа методов, ни один из которых не обеспечивает одновременно малую ошибку классификации, малое время классификации, высокую скорость обучения, легкость интерпретации результатов. Высокая точность нейросетей, метода опорных векторов и методов коллективной классификации достигается путем существенного увеличения временных затрат на обучение и применения слабо формализованных процедур настройки параметров. При этом в ряде случаев качество классификации этими методами, несмотря на высокие трудозатраты, уступает результатам других более простых алгоритмов, к которым следует отнести метод центроидов, наивный байесовский метод и метод ближайшего соседа (¿-ближайших соседей).

Метод центроидов ориентирован на работу со сферическими классами и в этом случае обеспечивает малую ошибку классификации. Наивный байесовский метод часто показывает противоречивые результаты (очень хорошие на одних выборках и неудовлетворительные для других). Такое неустойчивое поведение этого метода связано с использованием мало реалистичного предположения о независимости терминов в документе, что для ряда выборок приводит к существенному ухудшению точности классификации.

Проведенный анализ показал, что, принимая во внимание, с одной стороны простоту реализации и обучения, интерпретируемость и устойчивость результатов, а с другой стороны малую ошибку классификации, одним из наиболее эффективных методов классификации текстовой информации, является метод ближайшего соседа (и его модификация метод ¿-ближайших соседей).

Целью данной работы является разработка модификации метода ближайшего соседа, компенсирующей один из главных недостатков этого метода -большое время классификации без существенного увеличения ошибки классификации и ориентированной на классификацию библиографических научно-технических публикаций на ЫегпеЬсайтах журналов.

Во второй главе на основе анализа метода ближайшего соседа (МБС) и его основной модификации - метода ¿-ближайших соседей (М£БС) проводится разработка модифицированного метода ближайшего соседа, в котором для сокращения времени классификации вводятся опорные точки.

Отмечается, что для классификации нового документа в МБС вначале определяются расстояния от него до всех документов обучающей выборки, после чего новому документу присваивается класс ближайшего к нему документа. Отсюда очевидно следует причина больших временных затрат МБС при определении класса нового документа. Она заключается в необходимости определения расстояний от него до всех документов обучающей выборки.

В работе проводится разработка модифицированного метода ближайшего соседа, использующего введение опорных точек для структурирования обучающей выборки, с целью существенного сокращения количества вычислительных операций, необходимых для проведения классификации.

Идея алгоритма заключается в определении области в М-мерном пространстве, в которую попадает новое наблюдение и анализ только тех наблюдений «Щ, которые находятся в данной области. Для этого вводятся опорные точки Р5(5 = 1,...,5), расположенные на достаточном расстоянии друг от друга, например, являющиеся центрами различных классов. При проведении классификации нового наблюдения Ястроятся гиперкольца с центрами в точках Р5> внешними радиусами Я5 + АЯ5, внутренними радиусами г5 г5 расстояние от опорной точки до формулы для определения и Лг5 будут рассмотрены далее).

Данная идея для двухмерного случая с тремя опорными точками поясняется на рисунке 1. Решение об отнесении нового наблюдения к тому или иному классу принимается по наблюдениям, попавшим в область пересечения гиперколец (затемненная область), в соответствии с правилом ближайшего соседа или правилом ¿-ближайших соседей.

Рис. 1.

Алгоритм модифицированного метода ближайшего соседа (ММБС') состоит из последовательного выполнения следующих шагов.

1. Определение опорных точек РДя = 1,...,5).

2. Вычисление расстояний от всех точек = обучающей выборки до всех опорных точек и получение ^-мерных векторов расстояния:

Ч(1)

3. Сортировка по возрастанию элементов в векторах 35 и расширение их до матриц = Добавленный столбец содержит целочислен-

ные значения, соответствующие исходному (до сортировки) номеру этого элемента в векторе 35:

¿(Я ¿<г>

I

4т) | /и]

4. Расчет расстояний от нового наблюдения до всех опорных точек

5. Определение точек, которые попадают в область пересечения гиперколец с центрами в опорных точках, внешними радиусами

+ ДЯ5 и внутренними радиусами г5 - - Дг5. . АЯ5 и Аг5. определяются по матрицам О,. - - , > . Точка г - ближайшая точка, расстояние до которой больше чем в Аг5 -¿\р\ 4Р> <(1{"+1). Точка р - ближайшая точка,

расстояние до которой меньше чем й^1*^ в Э5.

6. В случае если на предыдущем шаге обнаружить общие точки не удалось, увеличиваются Д/?5 путем перехода к следующей точке в матрицах Д, и увеличивается Аг5 путем перехода к предыдущей точке в матрицах . Изменение и Аг5 проводится до тех пор, пока не обнаружатся общие точки.

Важным фактором, оказывающим существенное влияние на ошибку и время классификации в ММБС, является выбор опорных точек. В работе было проведено исследование влияния количества и месторасположения опорных точек на ошибку и время классификации ММБС. Опорные точки выбирались одним из следующих способов:

1. В качестве опорных точек используются 3, 5, 10 или 15 случайных документов, принадлежащих различным классам и находящихся на среднем удалении (т.е. расстояние между которыми одновременно больше 1/3 максимального расстояния и меньше или равно 2/3 максимального расстояния между документами обучающей выборки).

2. В качестве опорных точек используются 3, 5, 10 или 15 случайных документов, принадлежащих различным классам и далеких друг от друга (т.е. расстояние между которыми больше 2/3 максимального расстояния между документами обучающей выборки).

3. В качестве опорных точек используются 3 или 5 центроидов классов (исследования ограничивались пятью центроидами, т.к. выборки состояли из пяти классов).

Проводилось по пять экспериментов для каждого из указанных выше способов выбора опорных точек. Результаты исследований показали, что наименьшая ошибка классификации достигается при использовании в качестве опорных точек центроидов всех классов.

Важным критерием эффективности метода является его время классификации. В качестве оценки времени классификации обычно используется общее количество операций на этапе классификации. Для этого вводится понятие элементарной операции, т.е. операции, имеющей фиксированную стоимость. Далее под элементарной операцией О(М) будет пониматься время, которое затрачивается на определение расстояния между двумя документами в М-мерном пространстве.

При классификации нового документа в ММБС происходит следующая последовательность шагов:

1. Определение расстояния от нового документа до всех опорных точек: 0ММБС я £ . ; где 5 _ количество опорных точек.

2. Определение внешних и внутренних радиусов гиперколец по матрицам 1>5(х=1,...,5). В худшем случае это перебор всех значений в матрицах:

оМмбс ^ 5 . дг. ; Где 0(2) - операция сравнения двух чисел, N -количество документов в обучающей выборке.

3. Изменение внешних и внутренних радиусов гиперколец и определение документов, попавших в область пересечения гиперколец:

0ммбс шР.5.0(2) * N ■ 5 • 0(2), где Р - количество итераций изменения радиусов гиперколец до того момента, когда в область пересе-

чения попадет заданное количество документов Nt<N. В худшем случае это перебор всех значений в матрицах, т.е. 1 < F < N.

4. Определение класса нового документа (в случае, если в области пересечения гиперколец находится более одного документа обучающей выборки):

0ммбс = _ ц. 0(-2), где А:-количество классов.

Таким образом, общее количество операций в ММБС на этапе классификации состоит из суммы операций всех перечисленных выше шагов:

пммбс ммбс , пммбс , г,ммбс , пммбс

Uобщее ~U1 +U2 + иЪ + U4

О^щее * S ■ 0(М) + 5 • N ■ 0(2) + N ■ S ■ 0(2) + (К-1) • 0(2) *S-0(M) + (2-S-N + K-l)-0(2)

При классификации нового документа в МБС происходит следующая последовательность шагов:

1. Определение расстояния от нового документа до всех документов в обучающей выборке:

0?БС -N-0(M).

2. Определение документа, расстояние до которого наименьшее из всех расстояний, полученных на предыдущем шаге (в случае МАБС на этом шаге определяется k ближайших расстояний, после чего среди них происходит подсчет документов, соответствующих каждому классу обучающей выборки):

02шс -(N-l)-0(2).

Таким образом, общее количество операций на этапе классификации в МБС можно вычислить по формуле:

Of£e _ о^БС + 0?БС - N ■ 0(М) + (N -1) • 0(2)

Учитывая, что для библиографических текстовых документов K<N, S<N и 0(2)«0(М), получаем, что

S ■ 0(М) + (2- S ■ N + К -1)-0(2) <N ■ 0(М) + (iV -1) ■ 0(2),

пММБС пМБС wобщее w общее •

Для определения ошибки классификации ММБС и сравнения ее с ошибкой МАБС были проведены экспериментальные исследования на нескольких выборках. При формировании обучающих и контрольных выборок для этих исследований были использованы библиографические документы из научно-технической БД COMPENDEX. Использование БД COMPENDEX обусловлено тем, что в ней существует встроенный рубрикатор предметных областей, сформированный группами экспертов, что существенно снижает субъективизм при формировании обучающих и контрольных выборок. Для исследований была сформирована группа выборок (В5.1). В группу выборок В5.1 входили 5 выбо-

рок, состоящих из 575 документов, равномерно распределенных по пяти классам (предметным областям) (100 документов для каждого класса в обучающей выборке и 15 документов для каждого класса в контрольной выборке).

На рисунках 2 и 3 представлены соответственно ошибка и время классификации методом МкЪС и ММБС, полученные путем усреднения по выборкам группы В5.1 (N = 500, M = 3160, K = 5,k = N, = 15). __

Ошибка классификации

0.260

МкБС

Метод

Рис.2.

Время классификации

ММБС

МкБС

ММБС

М«тад

Рис 3

Как видно из этих диаграмм, ошибка ММБС больше ошибки М&БС на 1,4%, но при этом время классификации ММБС почти в 91 раз меньше, что подтверждает проведенный выше теоретический анализ вычислительной слож-

ности разработанного метода. Такой выигрыш во времени классификации в предложенном алгоритме получен за счет меньшего количества операций определения расстояния.

В третьей главе проводились исследования влияния длины документа, метода взвешивания терминов, меры близости между документами, длины обучающей выборки и количества классов на ошибку и время классификации. Для этих исследований дополнительно были сформированы еще две группы выборок В5.2 и В5.3, тематики которых отличаются друг от друга и от тематик группы выборок В5.1.

Вначале исследовалось влияние длины документа, метода взвешивания терминов и меры близости между документами на ошибку и время классификации ММБС. Получено, что использование различных методов взвешивания приводит к примерно одинаковым результатам. При этом ТТС и ЬТС методы взвешивания, а также косинусоидальная мера близости обеспечивали несколько меньшую ошибку классификации. Получено, что, начиная с длины документа равной 75 терминам, ошибка классификации практически не изменяется.

Далее исследовалось влияние длины обучающей выборки на ошибку и время классификации ММБС. Получено, что с увеличением длины обучающей выборки ошибка классификации сокращается, но при этом увеличивается время классификации. Анализ полученных результатов позволяет выделить размер выборки в 500-8-750 документов как наиболее приемлемый (с точки зрения ошибка-время) для обучения ММБС в случае пяти классов.

В этой главе также исследовалось влияние количества классов на ошибку и время классификации ММБС. Получено, что при увеличении количества классов ошибка классификации увеличивается, при этом растет и время классификации.

Кроме того, был проведен сравнительный анализ ошибки и времени классификации ММБС с ошибкой и временем классификации других, широко использующихся на практике методов классификации: МАБС, методом центроидов (МЦ) и наивным байесовским методом (НБМ). Для этого были проведены исследования на всех трех группах выборок В5.1, В5.2 и В5.3, в которых определялись средние ошибка и время классификации для каждой группы. Результаты этих исследований представлены на рисунках 4 и 5. На рисунке 4 представлены усредненные внутри каждой из групп выборок значения ошибки классификации, полученные при использовании МАБС, ММБС, МЦ и НБМ. Отметим, что ошибка классификации ММБС сопоставима с ошибкой других методов. На рисунке 5 представлены усредненные по всем группам выборок значения времени классификации, полученные при использовании вышеупомянутых методов. Отметим, что время классификации ММБС сопоставимо с временем метода центроидов и наивного байесовского метода и примерно в 91 раз меньше времени классификации метода МЛгБС.

Ошибка классификации

В51

В52

Групп* выборок

В53

амкбс шммбс омц внбм

Рис. 4.

Время классификации

Метод

Рис. 5.

Проведенный сравнительный анализ показал, что для эффективного решения задачи классификации библиографических текстовых документов на различных выборках, необходимо иметь набор методов, отличающихся друг от друга механизмом принятия решений (решающим правилом) с целью выбора метода классификации, который показывает наименьшую ошибку для исследуемой выборки.

В четвертой главе приводятся результаты разработки ПК "СКАТ", который реализует все этапы процесса классификации библиографической текстовой информации, содержит ТТ, ТРШР, ТТС и ЬТС методы взвешивания терми-

нов, евклидову и косинусоидальную метрики близости документов, модифицированный метод ближайшего соседа, метод ¿-ближайших соседей, метод центроидов и наивный байесовский метод, а также обеспечивает получение, обработку и анализ научно-технических статей, полученных с Internet-сайтов журналов.

Программный комплекс может работать в режиме обучения методов, в режиме сравнения методов и в режиме классификации библиографических научно-технических статей.

В режиме обучения методов в базу данных программного комплекса загружаются обучающая и контрольная выборки. Класс каждого документа в этих выборках известен заранее. После классификации документов контрольной выборки присвоенные методом номера классов сравниваются с исходными и оценивается ошибка классификации метода.

В режиме сравнения методов на одной и той же обучающей выборке проводится обучение методов, далее на одной и той же контрольной выборке оценивается ошибка классификации. После чего, пользователь может сравнить ошибки классификации, полученные при использовании различных методов.

В режиме классификации библиографических научно-технических статей документы, поступающие из сети Internet, классифицируются с использованием ранее обученного метода и им присваивается номер наиболее близкого класса, после чего эти документы становятся доступными для поиска и просмотра.

В заключении изложены основные результаты работы.

Основные результаты работы.

1. Проведен обзор и сравнительный анализ наиболее распространенных и эффективных методов классификации текстовых документов. Показано, что в настоящее время не существует методов, одновременно обеспечивающих малое время классификации, малую ошибку классификации, высокую скорость обучения, простоту реализации, легкую интерпретацию результатов на различных выборках текстовых документов.

2. Разработан новый метод классификации библиографических текстовых документов - модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа, в котором с целью увеличения быстродействия предложено ввести опорные точки. Обосновано количество и месторасположение опорных точек, даны рекомендации по выбору настраиваемых параметров в разработанном методе.

3. Получена оценка количества вычислительных операций, необходимых для классификации текстовых документов с помощью разработанного метода и показано, что он требует меньшего количества вы-

числительных операций по сравнению с прототипом (методом ближайшего соседа).

4. На основе сравнительного анализа ошибок классификации разработанного метода с ошибками известных методов показано, что при существенном снижении времени классификации ошибка разработанного метода остается сопоставимой с ошибками известных методов.

5. Разработан ПК "СКАТ" ("Система классификации и анализа текста"), реализующий предложенный в диссертации метод классификации. Для обоснования выбора наиболее эффективного метода (для решения конкретной задачи) в ПК "СКАТ" реализованы также другие методы (метод ¿-ближайших соседей, метод центроидов и наивный байесовский метод). Разработанный ПК позволяет пользователям получать и обрабатывать в автоматизированном режиме библиографические текстовые документы с Internet-сайтов электронных журналов и ориентирован на широкий круг пользователей, не имеющих специальных знаний в области теории классификации и программирования.

6. Теоретические результаты и опыт использования ПК в экспериментальных исследованиях обобщены в методике использования ПК для классификации библиографических документов из научно-технических журналов, получаемых из сети Internet.

Основные положения диссертации опубликованы в следующих рабо-

1. Некрасов И.В., Толчеев В.О. Модифицированный метод ближайшего соседа с использованием опорных точек для классификации текстовых документов // Вестник МЭИ. - 2004. - №1. - С. 76-81.

2. Некрасов И.В., Толчеев В.О. Разработка модели представления библиографических документов в задачах текстовой классификации // Научная сессия МИФИ-2004: Сб. науч. тр. - Т.2. - М„ 2004. - С. 179180.

3. Некрасов И.В., Толчеев В.О. Сравнительный анализ методов классификации текстовых документов // Научная сессия МИФИ-2003: Сб. науч. тр. - Т.2. - М., 2003. - С. 169-170.

4. Некрасов И.В., Толчеев В.О. Современные средства поиска, обработки и анализа текстовой информации // Вестник МЭИ. - 2002. - №1. -С. 52-55.

5. Некрасов И.В., Толчеев В.О. Разработка алгоритма модифицированного метода ближайшего соседа // Международная конференция "Информационные средства и технологии": Тез. докл. - Т.2. - М., 2003,- С. 198-201.

6. Некрасов И.В., Толчеев В.О. О выборе опорных точек в модифицированном методе ближайшего соседа // Международная конференция "Информационные средства и технологии": Тез. докл. - Т.2. - М., 2003. - С. 202-204.

7. Некрасов И.В., Толчеев В.О. Разработка программного комплекса для классификации текстовых документов // Международная конференция "Информационные средства и технологии": Тез. докл. - Т.2. -М„ 2002. - С. 160-163.

8. Некрасов И.В., Толчеев В.О. Информационно-поисковая система для обработки научно-технической информации // Международная конференция "Информационные средства и технологии": Тез. докл. -Т.1.-М.,2001.-С. 114-117.

9. Некрасов И.В., Толчеев В.О. Методика модификации запросов в информационно-поисковой системе IAS // Международная конференция "Информационные средства и технологии": Тез. докл. - Т.1. - М., 2001.-С. 118-121.

10. Машков Д.В., Некрасов И.В., Толчеев В.О. Построение модели предметной области "идентификация динамических систем" на основе анализа электронных информационных ресурсов // Научная сессия МИФИ-2002: Сб. науч. тр. - Т.2. - М., 2002. - С. 122-123.

11. Некрасов И.В., Толчеев В.О. Экспериментальные исследования методов классификации текстовых документов // Научная сессия МИ-ФИ-2005: Сб. науч. тр. - Т.2. - М., 2005. - С. 152-153.

Подписано в печать i /'/ Од Зак. Тир. /СО П.л. Полиграфический центр МЭИ (ТУ) Красноказарменная ул., д. 13

f

Щ

V

»207 14

РНБ Русский фон,

2006-4 19248

Оглавление автор диссертации — кандидата технических наук Некрасов, Иван Валериевич

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВОЙ ИНФОРМАЦИИ И ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ.

1.1 Интеллектуальный анализ текстовой информации.

1.2 Характерные особенности обработки текстовой информации.

1.3 Модели представления документов в задачах текстовой классификации.

1.4 Полнотекстовые и библиографические (реферативные) научно-технические документы.

1.5 Процесс классификации текстовой информации.

1.5.1 Предварительная обработка текстовых документов.

1.5.2 Математические модели текстовых документов.

1.5.3 Индексация текстовых документов.

1.5.4 Сокращение размерности в задачах классификации текстовых документов.

1.5.5 Оценка качества классификации.

1.6 Обзор методов классификации текстовой информации.

1.7 Сравнительный анализ методов классификации текстовой информации.

Выводы.

ГЛАВА 2. РАЗРАБОТКА МОДИФИЦИРОВАННОГО МЕТОДА БЛИЖАЙШЕГО СОСЕДА

2.1 База данных библиографических документов Compendex.

2.1.1 Методика формирования обучающей и тестовой выборок с помощью БД Compendex

2.1.2 Формирование выборок для исследований.50

2.2 Метод аг-ближайших соседей.

2.3 Модификации метода аг-ближайших соседей.

2.3.1 Редуцированные методы ближайшего соседа.

2.3.2 Модифицированные методы ближайшего соседа.

2.4 Разработка модифицированного метода ближайшего соседа.

2.4.1 Алгоритм модифицированного метода ближайшего соседа.

2.4.2 Исследование влияния количества и месторасположения опорных точек на ошибку и время классификации ММБС.

2.5 Сравнительный анализ ММБС и МБС (МагБС).

Выводы.

ГЛАВА 3.

ГЛАВА 3. ИССЛЕДОВАНИЕ МОДИФИЦИРОВАННОГО МЕТОДА

БЛИЖАЙШЕГО СОСЕДА. i 3.1 Факторы, влияющие на ошибку и время классификации.

3.1.1 Выделение информативных признаков.

3.1.2 Исследование влияния длины обучающей выборки на ошибку и время классификации.

I ® 3.1.3 Исследование влияния меры определения близости между документами на

I ошибку и время классификации.

3.1.4 Исследование влияния количества классов в выборке на ошибку и время классификации.

3.2 Сравнение ошибки классификации различными методами.

Выводы.

ГЛАВА 4. РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА ДЛЯ АВТОМАТИЧЕСКОГО ОТСЛЕЖИВАНИЯ ПУБЛИКАЦИЙ НА INTERNET-САЙТАХ НАУЧНО-ТЕХНИЧЕСКИХ ЖУРНАЛОВ.

4.1 Разработка программного комплекса классификации библиографических текстовых документов "СКАТ" (Система Классификации и Анализа Текста).

4.1.1 Функциональные возможности разработанного ПО.

4.2 Методика использования ПК "СКАТ" для классификации библиографических статей из научно-технических журналов.

4.2.1 Формирование обучающей выборки и обучение классификатора.

4.2.2 Отбор журналов, публикующих статьи по интересующим пользователя предметным областям.

4.2.3 Пополнение базы данных и автоматическая классификация статей.

4.2.4 Просмотр статей.

4.3 Использование ПК "СКАТ" для классификации библиографических документов из научно-технических журналов.

4.4 Использование ПК "СКАТ" в учебном процессе.

Выводы.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Некрасов, Иван Валериевич

Актуальность проблемы. При проведении научных исследований одной из основных задач, которая стоит перед специалистом, является своевременное получение информации об изменениях в интересующей его предметной области. Для решения этой задачи необходимо постоянно отслеживать публикации в специализированных журналах, просматривать материалы конференций. До недавнего времени эти действия приходилось выполнять вручную. Однако с развитием сети Internet значительно расширились возможности специалистов получать ценные сведения по научно-технической проблематике, используя специализированные ресурсы, такие как виртуальные библиотеки, электронные версии профильных журналов и конференций, сайты университетов и т. д. Таким образом, сегодня отслеживать публикации можно не выходя из дома с помощью компьютера и программы просмотра Internet-сайтов.

Необходимо отметить, что в настоящее время существует значительное число специализированных научно-технических Internet-pecypcoB и со временем их количество будет только увеличиваться. Поиск и анализ релевантной (соответствующей запросу) информации уже сейчас требует больших временных затрат со стороны исследователя.

Для автоматизации процесса отслеживания и обработки публикаций на Internet-сайтах, увеличения его эффективности необходимо применение методов интеллектуального анализа и обработки текстовой информации (Text Mining). Одним из важных и наиболее эффективных направлений обработки и анализа текстовой информации является классификация. Классификация текстовой информации заключается в разбиении набора документов на группы с целью обеспечения максимальной "близости" документов одной группы и максимального различия между группами. В качестве меры "близости " обычно используются метрики расстояния: евклидова метрика, квадрат евклидовой метрики, манхэттенское расстояние, метрика Чебышева и др.

Важной особенностью является то, что на сайтах журналов и конференций обычно находятся не полные тексты статей и докладов, а только их краткие описания (при этом полные тексты доступны только за деньги). Такие документы принято называть библиографическими. Как правило, библиографические научно-технические документы состоят из названия, фамилий авторов, краткого описания (аннотации) и ключевых слов. При этом библиографические научно-технические документы представляют сжатое изложение полнотекстового документа, его квинтэссенцию.

В настоящее время разработано значительное количество методов классификации текстовой информации, использующих ряд положений теории вероятностей, математической статистики, систем искусственного интеллекта. Многие из них требуют выполнения большого числа нереалистичных предположений, громоздки, требуют сложной процедуры обучения и настройки собственных параметров и далеко не всегда проходят проверку практикой. Необходимо также отметить, что большинство известных методов не способны проводить группировку документов с малой ошибкой и с высоким быстродействием и при этом быть легко обучаемыми и дообучае-мыми. Вместе с тем для ряда практических задач обработки больших массивов информации (в частности, при обработке и анализе потока научных публикаций на сайтах журналов и конференций) представляется необходимым разработка такого метода классификации, который обеспечивал бы высокое быстродействие без существенного увеличения ошибки классификации, был бы несложным для обучения и дообучения, представлял бы легко интерпретируемые результаты.

Использование поисковых систем Internet для отслеживания публикаций невозможно по той причине, что поисковые системы лишь облегчают поиск необходимой информации, а анализ полученных результатов (в частности классификация) по-прежнему возлагается на исследователя. На рынке программного обеспечения представлено значительное количество программных пакетов, в число основных функций которых входит классификация текстовой информации, однако применять эти программы для решения задачи отслеживания электронных публикаций проблематично, т.к. большинство программных продуктов не ориентированы на обработку библиографических научно-технических документов. Кроме того, большие программные продукты обладают излишней функциональностью и дорогостоящи. Таким образом, на данный момент не существует программного обеспечения, которое можно напрямую использовать для автоматического отслеживания библиографических публикаций на Internet-сайтах журналов. Следовательно, актуальной представляется задача разработки программного комплекса для автоматизации процесса получения и обработки научных публикаций с Internet-сайтов журналов по заданным пользователем предметным областям.

Целью диссертационной работы является разработка и исследование метода, который ориентирован на решение задачи классификации библиографических документов, расположенных на Internet-сайтах научно-технических журналов, обеспечивает малое время классификации и ошибку, сопоставимую с ошибкой известных методов.

В соответствии с указанной целью были определены следующие задачи исследования.

1. Проведение обзора и сравнительного анализа существующих методов классификации текстовых документов. Выявление характерных особенностей классификации библиографических текстовых документов по научно-технической проблематике.

2. Разработка метода классификации библиографических текстовых документов, обеспечивающего малое время классификации и ошибку классификации, сопоставимую с ошибкой других известных методов.

3. Исследование характеристик разработанного метода на различных выборках из библиографических текстовых документов и проведение сравнительного анализа с известными методами.

4. Разработка программного комплекса (ПК) для проведения классификации библиографических текстовых документов и составление методики, позволяющей использовать разработанный ПК для обработки и анализа библиографических документов на Internet-сайтах научно-технических журналов.

Методы исследования. Полученные в диссертации результаты основываются на применении аппарата теории вероятностей, математической статистики, численных методов, линейной алгебры, вычислительной геометрии.

Научная новизна.

1. Разработан новый метод классификации библиографических текстовых документов - модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа, в котором с целью увеличения быстродействия предложено ввести опорные точки.

2. Обосновано количество и месторасположение опорных точек, даны рекомендации по выбору настраиваемых параметров в разработанном методе.

3. Получена оценка количества вычислительных операций, необходимых для классификации библиографических текстовых документов с помощью разработанного метода и показано, что он требует меньшего количества вычислительных операций по сравнению с прототипом (методом ближайшего соседа).

4. Выявлено влияние способа взвешивания терминов, меры близости между документами, длины документа, длины выборки и количества классов на ошибку и время классификации разработанного метода.

5. На основе сравнительного анализа ошибок классификации разработанного метода с ошибками известных методов показано, что при существенном снижении времени классификации (по сравнению с прототипом) ошибка разработанного метода остается сопоставимой с ошибками известных методов.

Практическая ценность результатов.

1. Разработан ПК "СКАТ" ("Система классификации и анализа текста"), реализующий предложенный в диссертации метод классификации.

2. Для обоснования выбора наиболее эффективного метода (для решения конкретной задачи) в ПК "СКАТ" реализованы также другие методы (метод ^-ближайших соседей, метод центроидов и наивный байесовский метод).

3. Разработанный ПК "СКАТ" позволяет пользователям получать и обрабатывать в автоматизированном режиме библиографические текстовые документы с Internet-сайтов электронных журналов.

4. ПК "СКАТ" ориентирован на использование широким кругом пользователей, не имеющих специальных знаний в области теории классификации и программирования.

5. Теоретические результаты и опыт использования ПК "СКАТ" в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библиографических документов из научно-технических журналов, получаемых из сети Internet.

Реализация результатов. Разработанный ПК "СКАТ" внедрен в эксплуатацию в Федеральном государственном учреждении Научно-исследовательском институте "Республиканский исследовательский научно-консультационный центр экспертизы" (ФГУ НИИ РИНКЦЭ) для автоматазированного получения и классификации англоязычных публикаций по профильным научно-техническим тематикам с сайтов электронных издательств, что подтверждается актом о внедрении.

Апробация работы. Материалы диссертации докладывались на трех международных конференциях "Информационные средства и технологии" (в 2001, 2002, 2003 гг. Москва, МЭИ) и на четырех научных сессиях МИФИ (2002, 2003, 2004,2005 гг. Москва, МИФИ).

Публикации. Основные результаты исследований опубликованы в 11 печатных работах.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 102 наименований. Диссертация изложена на 125 страницах основного текста, содержит 31 рисунок и 5 таблиц.

Заключение диссертация на тему "Разработка и исследование метода классификации библиографической текстовой информации"

Основные результаты работы состоят в следующем:

1. Проведен обзор и сравнительный анализ наиболее распространенных и эффективных методов классификации текстовых документов. Показано, что в настоящее время не существует методов, одновременно обеспечивающих малое время классификации, малую ошибку классификации, высокую скорость обучения, простоту реализации, легкую интерпретацию результатов на различных выборках текстовых документов.

2. Разработан новый метод классификации библиографических текстовых документов - модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа, в котором с целью увеличения быстродействия предложено ввести опорные точки. Обосновано количество и месторасположение опорных точек, даны рекомендации по выбору настраиваемых параметров в разработанном методе.

3. Получена оценка количества вычислительных операций, необходимых для классификации библиографических текстовых документов с помощью разработанного метода и показано, что он требует меньшего количества вычислительных операций по сравнению с прототипом (методом ближайшего соседа).

4. На основе сравнительного анализа ошибок классификации разработанного метода с ошибками известных методов показано, что при существенном снижении времени классификации (по сравнению с прототипом) ошибка разработанного метода остается сопоставимой с ошибками известных методов.

5. Разработан ПК "СКАТ" ("Система классификации и анализа текста"), реализующий предложенный в диссертации метод классификации. Для обоснования выбора наиболее эффективного метода (для решения конкретной задачи) в ПК "СКАТ" реализованы также другие методы (метод ^-ближайших соседей, метод центроидов и наивный байесовский метод). Разработанный ПК позволяет пользователям получать и обрабатывать в автоматизированном режиме библиографические текстовые документы с Internet-сайтов электронных журналов и ориентирован на широкий круг пользователей, не имеющих специальных знаний в области теории классификации и программирования.

6. Теоретические результаты и опыт использования ПК "СКАТ" в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библиографических документов из научно-технических журналов, получаемых из сети Internet.

Заключение

Библиография Некрасов, Иван Валериевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. A. Akkus, Н.А. Guvenir. к Nearest Neighbour Classification on Feature Projections. 1. Proceedings of SDAIR-94, 3rd annual symposium on Document Analysis and Information Retrieval, 1994, pp.126-138.

2. C. Chang. Finding Prototypes for Nearest Neighbour Classifiers. IEEE.: IEEE Transactions on Computers, Volume C-23, Number 11, 1974, pp. 11791184

3. C. Papadimitriou, J.L. Bently. A Worst-Case Analysis of Nearest Neighbor Searching by Projection. Automata Languages and Programming, Volume 85, 1980, pp. 470-482.

4. D. Lewis, M. Ringuette. A Comparison of Two Learning Algorithms for Text Categorization. In Proceedings of SDAIR-94 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, 1994, pp. 81-93

5. D. Wettschereck. A Hybrid Nearest-Neighbour and Nearest-Hyperrectangle Algorithm. Machine Learning, 9, 1995, pp.5-28.

6. E. Han, G. Karypis, V. Kumar. Text Categorization Using Weight Adjusted k-Nearest Neighbour Classification. Proceedings of PAKDD-01, 5th Pacific-Asia Conference on Knowledge Discovery and Data Mining (Hong Kong, CN, 2001), pp. 53-65.

7. E. Han, G. Karypis. Centroid-Based Document Classification: Analysis and Experimental Results. University of Minnesota, Minneapolis, Technical report: #00-017, 2000, pp. 1-15.

8. E. Wiener, J.O. Pedersen, A.S. Weigend. A neural network approach to topic sorting. In Proceedings of SDAIR-95, 4th annual symposium on Document Analysis and Information Retrieval, 1995, pp.317-332.

9. F. Sebastiani. A Tutorial on Automated Text Categorization. In A. Amandi and

10. R. Zunino Eds., Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence (Buenos Aires, AR, 1999), pp. 7-35.

11. G.L. Ritter, H.B. Woodruff, S.R. Lowiy, T.L. Isenhour. An Algorithm for a Selective Nearest Neighbour Decision Rule. IEEE. IEEE Transactions on Information Theory, volume IT-21, Number 6, 1975, pp. 665-669.

12. H. Neimann, R. Goppert. An Efficient branch-and-bound nearest neighbour classifier. Pattern Recognition Letters, Volume 7, 1988, pp. 67-72.

13. K. Aas, L. Eikvil. Text Categorisation: A Survey. Technical report, Norwegian Computer Center, 1999.

14. M.A. Wani. SAFARI: A Structured Approach for Automatic Rule Induction. IEEE. IEEE Transactions on Systems, Man and Cybernetics. Volume 31, Number 4, 2001, pp 650-657.

15. S. Berchtold, B. Ertl, D. Keim, H.P. Kriegel, T. Seidl. Fast Nearest Neighbour Search in High-dimensional Space. In Proceedings of 14th conference on data engineering, 1998, pp.121-130

16. T. Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. ECML-98, 1998, pp. 137-142.

17. V. Lashkia, S. Aleshin. Test Feature Classifiers: Performance and Applications. IEEE. IEEE Transactions on Systems, Man and Cybernetics. Volume 31, Number 4, 2001, pp 643-649.

18. Y. Jung, H. Park, D.Z. Du. An Efficient Term-Weighting Scheme for Information Retrieval. In Proceedings of ICCPOL-99, 18th International Conference on Computer Processing of Oriental Languages (Tokushima, JP, 1999), pp. 153-158.

19. Y. Yang, C. Chute. An Applications of Least Squares Fit Mapping to Text Information Retrieval. Proceedings of the 16th Annual Information ACM SIGIR Computer Science on Research and Development in Information Retrieval, 1993, pp. 281-290.

20. Y. Yang, C.G. Ghute. An Example-Based mapping method for text categorization and retrieval. ACM Transactions on Information Systems. Volume 12, Number 3, 1994, pp.252-277.

21. Y. Yang, J.O. Pedersen. A Comprehensive Study on Feature Selection in Text Categorization. In Proceedings of ICML-97, 14th International Conference on Machine Learning, 1997, pp. 412-420.

22. Y. Yang, S. Slattery, R. Ghani. A Study of Approaches to Hypertext Categorization. Journal of Intelligent Information Systems, 18. 2002, pp. 1-25.

23. Y. Yang, X. Liu. A re-examination of text categorization methods. Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval (Berkeley, US, 1999), pp. 42-49. ACM Press, New York, US.

24. Y. Yang. An Evaluation of Statistical Approaches to Text Categorization. Kluwer Academic Publishers, Information Retrieval, 1(1-2), pp. 69-90, 1999.

25. Y. Yang, J. P. Pedersen. Feature Selection in Statistical Learning of TextiL m

26. Categorization. In the 14 International Conference of Machine Learning, pp. 412-420, 1997.

27. Victor Fresno, Angela Ribero. An Analytical Approaches to Concept Extraction in HTML Environments. Journal of Intelligent Information Systems, Volume 22, Number 3, 2004, pp. 213-236. Kluwer Academic Publishers.

28. Darmendra S. Modha, W. Scott Spangler. Feature Weighting in k-Means Clustering. Machine Learning, volume 52, Number 3,2003, pp. 217-236.

29. Рэй Э. Изучаем XML. СПб.: Символ-плюс. 2001.

30. Спенсер YI.XML. Проектирование и реализация. М.: Лори. 2001.

31. Кэй. М. XSLT. Справочник программиста (2-е издание). СПб.: Символ-плюс. 2002.

32. S. Cost, S. Salzberg. A Weighted Nearest Neighbor Algorithm for Learning with Symbolic Features. Machine Learning, 10(1), 1993.

33. Peter E. Hart. The condensed nearest neighbor rule. IEEE Transactions on Information Theory, IT-14:515-516, May 1968.

34. Gates, G.W. The Reduced Nearest Neighbour Rule. IEEE Transactions on1.formation Theory 18, pp. 431-433.

35. T. Roos. Dynamic Vorony Diagrams. Ph. D. Thesis. University of Wurz-burg. 1991.

36. Б. Дюран, П. Оделл. Кластерный анализ. М.: Статистика, 1977

37. В.В. Корнеев, А.Ф. Гареев, С.В. Васютин, В.В. Райх. Базы данных. Интеллектуальная обработка информации. — М.: Нолидж, 2001.

38. В.Д. Байков. Интернет: Поиск информации и продвижение сайтов. — СПб.: БХВ-Петербург, 2000.

39. Т Ault, Y. Yang. kNN, Rocchio and Metrics for Information Filtering. In Proceedings of the TREC-10.

40. И.В. Некрасов., В.О. Толчеев. Разработка программного комплекса для классификации текстовых документов. Международная конференция "Информационные средства и технологии" том 2. М. Станкин, 2002, стр. 160-163.

41. И.В. Некрасов., В.О. Толчеев. Современные средства поиска, обработки и анализа текстовой информации. Вестник МЭИ. М. МЭИ, 2002, стр. 52-55.

42. И.В. Некрасов., В.О. Толчеев. Информационно-поисковая система для обработки научно-технческой информации. Международная конференция "Информационные средства и технологии" том 1. М. Станкин, 2001, стр. 114-117.

43. И.В. Некрасов., В.О. Толчеев. Модифицированный метод ближайшего соседа с использованием опорных точек для классификации текстовых документов. Вестник МЭИ. М. МЭИ, 2004, стр. 76-81.

44. И.В. Некрасов., В.О. Толчеев. О выборе опорных точек в модифицированном методе ближайшего соседа. Международная конференция "Информационные средства и технологии" том 2. М. Станкин, 2003, стр. 202204.

45. И.В. Некрасов., В.О. Толчеев. Разработка алгоритма модифицированного метода ближайшего соседа. Международная конференция "Информационные средства и технологии" том 2. М. Станкин, 2003, стр. 198201.

46. И.В. Некрасов., В.О. Толчеев. Разработка модели представления библиографических документов в задачах текстовой классификации. Научная сессия МИФИ 2004. М. МИФИ, 2004, стр. 179-180.

47. И.В. Некрасов., В.О. Толчеев. Сравнительный анализ методов классификации текстовых документов. Научная сессия МИФИ 2003 том 2. М. МИФИ, 2003, стр. 169-170.

48. И.В. Некрасов., В.О. Толчеев. Методика модификации запросов в информационно-поисковой системе LAS. Международная конференция "Информационные средства и технологии" том 1. М. Станкин, 2001, стр. 118121.

49. И.И. Елисеева, В.О. Рукавишников. Группировка, корреляция, распознавание образов. М.: Статистика, 1977

50. Машков Д.В., И.В. Некрасов., В.О. Толчеев. Построение модели предметной области "идентификация динамических систем" на основе анализа электронных информационных ресурсов. Научная сессия МИФИ 2002. М. МИФИ, 2002, стр. 122-123.

51. С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. Классификация и снижение размерности. — М.: Финансы и статистика, 1989

52. Солтон Дж. Динамические библиотечно-информационные системы. -М.: Мир, 1979.

53. С. Н. Papadimitriou, J.L. Bentley. A Worst-Case Analysis of Nearest Neighbor Searching by Projections. Lecture Notes in Computer Science, V. 85, Automata Languages and Programming, 1980, Springer.

54. H. Heimann, R. Goppert. An Efficient Branch-and-Bound Nearest Neighbour Classifier. Elsevier Science. Pattern Recognition Letters, V. 7, 1988.67. www.yahoo.com

55. А. А. Дорофеюк. Алгоритмы автоматической классификации. Автоматика и телемеханика, № 12, стр. 78-113, 1971.

56. Milkov, N. Nicolov, and N. Nikolov Eds., Proceedings of RANLP-97, 2nd International Conference on Recent Advances in Natural Language Processing (Tzigov Chark, BL, 1997).

57. И.Н. Архиреева, В. П. Бородюк, Ю.Е. Голяс, В. Г. Киреева. Факторный аналнз в задачах обработки экспериментальных данных. Учебное пособие. М.: МЭИ, 1994.

58. D. W. Aha, D. Kiber, М. К. Albert. Case-Based Learning algorithms. Machine Learning, 6, pp. 37-66, 1991.

59. D. W. Aha (Ed). Lazy Learning. Kluwer Academic Publishers, 1997.

60. S. Salzberg. A Nearest Hyperrectangle Learning Methods. Machine Learning, 6, pp. 277-309, 1991.

61. Quinlan J.R. Induction of decision trees. Machine Learning, 1(1) pp. 81106. 1986.

62. Apte C., Damerau F., Weiss S. Text mining with decision rules and decision trees. In Proceedings of the Conference on Automated Learning and Discovery, Workshop 6: Learning from Text and the Web. 1998.

63. А. И. Галушкин. Теория нейронных сетей. М.: ИПРЖР, 2000.

64. Финн В. К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ. Итоги науки и техники. Сер. Информатика т. 15. М.: ВИНИТИ, стр. 54-101, 1991.

65. Финн В. К. Об интеллектуальных системах типа ДСМ для наук о жизни и социальном поведении. Научно-техническая информация. Серия 2: Информационные процессы и системы. № 6, стр. 1-4, 2002.

66. Панкратова Е. С., Панкратов Д. В., Финн В. К., Шабанова И. П. Научно-техническая информация. Серия 2: Информационные процессы и системы. № 6, стр. 22-26,2002.

67. Елисеева И. И., Рукавишников О. В. Группировка, корреляция, распознавание образов. М.: Статистика, 1977.

68. Breimann L. Bagging Predictions. Machine Learning, V. 24, pp. 123-140, 1996.

69. Freund Y, Shapire R. E. Experiments with a new Boosting Algorithm. In Proc. 13th Int Conf. On Machine Learning, pp. 148-156, 1996.

70. Martinez A.F., Gruian F. Document Classification for Computer Science Related Articles. 2002.

71. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Издательство института математики. 1999.

72. Айвазян С. А., Мхитарян B.C. Теория вероятностей и прикладная статистика. Том 1. М.: ЮНИТИ. 2001.

73. Реброва М.П., Автоматическая классификация в системах обработки информации: Поиск документов. М.: Радио и связь. 1983.

74. Дуда P., Харт П. Распознавание образов и анализ сцен. М.: Мир. 1976.

75. Шеннон К. Работы по теории информации и кибернетике. М.: Иностранная литература. 1963.

76. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М.: Наука. 1974.92. protege.stanford.edu