автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Исследование влияния разрешения лексической многозначности с помощью контекстных векторов на эффективность категоризации текстовых документов
Автореферат диссертации по теме "Исследование влияния разрешения лексической многозначности с помощью контекстных векторов на эффективность категоризации текстовых документов"
4848374
Епрев Антон Сергеевич
ИССЛЕДОВАНИЕ ВЛИЯНИЯ РАЗРЕШЕНИЯ ЛЕКСИЧЕСКОЙ МНОГОЗНАЧНОСТИ С ПОМОЩЬЮ КОНТЕКСТНЫХ ВЕКТОРОВ НА ЭФФЕКТИВНОСТЬ КАТЕГОРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ
05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
2 1!ЮН 2011
Новосибирск - 2011
4848374
Работа выполнена в Омском государственном университете им. Ф.М. Достоевского.
Научный руководитель:
доктор физико-математических наук Белим Сергей Викторович
Официальные оппоненты: доктор физико-математических наук
Зыкина Анна Владимировна
кандидат физико-математических наук Батура Татьяна Викторовна
Ведущая организация:
Институт математики им. С.Л. Соболева Сибирского отделения РАН
Защита состоится 22 июня 2011 г. в 16 ч. 00 мин. на заседании диссертационного совета ДМ 003.032.01 при Институте систем информатики им. А.П. Ершова Сибирского отделения РАН, расположенном по адресу: 630090, г. Новосибирск, пр. Лаврентьева, д. 6.
С диссертацией можно ознакомиться в библиотеке Института систем информатики Сибирского отделения РАН.
Автореферат разослан 20 мая 2011 г.
Ученый секретарь диссертационного совета,
к. ф.-м. н.
Общая характеристика работы
Актуальность работы. Объем накапливаемой и обрабатываемой информации постоянно увеличивается, что приводит к сложности ориентирования в информационных ресурсах, и делает задачу категоризации текстовых документов все более актуальной. Использование классификаторов позволяет ограничить поиск необходимой информации относительно небольшим подмножеством документов. Так, например, в «автоматизированной системе тематического анализа информации» (Васенин В. А. и др., 2009) классификатор используется для фильтрации результатов поиска, что повышает релевантность поисковой выдачи. Помимо сужения области поиска в поисковых системах, задача категоризации имеет практическое применение в следующих областях: фильтрация спама, составление тематических каталогов, контекстная реклама, системы электронного документооборота, снятие омонимии в автоматическом переводе текстов.
Категоризация текстовых документов является задачей автоматического отнесения документа к одной или нескольким категориям на основании содержания документа. Существуют различные модели и методы категоризации текстов — деревья решений, метод наименьших квадратов, адаптивные линейные классификаторы, метод ближайших соседей, метод опорных векторов и другие (ЭеЬаз^аш Р., 2002).
В последнее время активно разрабатываются способы интеграции различных баз знаний и ресурсов в методы категоризации текстовых документов с целью получения высоких результатов категоризации. Большой интерес представляет использование семантических ресурсов, таких как \VordNet или \Vikipedia.
\VordNet — это семантический словарь английского языка, базовой словарной единицей которого является синонимический ряд, так называемый
«синсет», объединяющий слова со схожим значением. Синсеты связаны между собой различными семантическими отношениями. Также существуют реализации для других языков, ведутся разработки WordNet для русского языка.
Большинство методов категоризации основывается на использовании простой векторной модели описания документов, в которой признаками документов являются базовые формы слов. Использование слов в качестве признаков имеет ряд недостатков: словосочетания, такие как «European Union», разделяются на отдельные слова и обрабатываются независимо; слова, являющиеся синонимами, используются как самостоятельные признаки; многозначные слова рассматриваются как обычные признаки, в то время как они могут иметь несколько различных значений. В работе (Gonzalo J. et al, 1998) отмечается, что использование в качестве признаков документов значений слов, представленных синсетами, может приводить к улучшению качества категоризации на 28%. Такие результаты были получены на коллекции документов, где устранение лексической многозначности слов было выполнено вручную. Согласно результатам исследования, эффективность категоризации при использовании методов автоматического разрешения лексической многозначности, доля ошибок которых составляет менее 10%, сопоставима с эффективностью категоризации для размеченного вручную текста. Увеличение доли ошибок разрешения лексической многозначности с 10% до 30% приводит к резкому спаду эффективности категоризации, а для методов с ошибкой 30-60% использование в качестве признаков синсетов не приводит к заметному приросту эффективности категоризации.
Существует несколько публикаций, в которых сравниваются эффективности категоризации с использованием слов и синсетов WordNet, полученных с помощью различных методов автоматического разрешения лексической многозначности. В системе автоматической категоризации документов на базе метода fc-ближайших соседей (Ferretti Е. et al., 2003) использование син-
сетов в качестве признаков, полученных с помощью метода, базирующегося на использовании скрытой модели Маркова, приводит к росту эффективности категоризации на 2%. В работе (В1оеЬёогп Э. е! а!., 2004) проводилось сравнение алгоритма категоризации «АёаВооэи на нескольких коллекциях документов, а для устранения лексической многозначности слов применялся метод, суть которого заключается в выборе того синсета, слова которого в документе встречаются чаще остальных. Использование данного метода позволяет повысить эффективность категоризации на 1%.
В работе (Patwardhan Б. ct а!., 2006) описывается метод оценки семантической близости синсетов с помощью контекстных векторов, использующий информацию о совместной встречаемости слов в тексте. Оценка эффективности этого метода проводилась на нескольких наборах слов. Данный метод показывает лучшие результаты среди других методов оценки семантической близости слов на базе ресурса \VordNet. Однако, практическое применение данного метода для устранения лексической многозначности не исследовалось.
Актуальность исследования обуславливается практической значимостью систем автоматической категоризации текстовых документов, в которых в качестве признаков используются значения слов, представленные синсетами \VordNet.
Цели диссертационной работы:
1. Разработать и реализовать алгоритм разрешения лексической многозначности слов с помощью контекстных векторов на базе ресурса \VordNet.
2. Реализовать программный комплекс автоматической категоризации текстовых документов с использованием синсетов \VordNet в качестве признаков документов.
3. Исследовать применимость разработанного алгоритма разрешения лек-
сической многозначности к различным коллекциям документов с помощью оценки его; влияния на эффективность категоризации.
Научная новизна исследования состоит в следующем:
1. Разработал алгоритм разрешения лексической многозначности слов, в котором исполБзуютея контекстные векторы для оценки семантической близости еинеетов- с контекстом.
2. Реализован программный комплекс автоматической категоризации текстовых документов', в котором используются синсеты \VordNet в качестве признаков документов и контекстные векторы дия разрешения лексической многозначности.
Практическая значимость заключается в формировании нового инструмента, позволяющего повысить эффективность категоризации текстовых документов.
Полученные- в диссертации результаты могут быть использованы в существующих информащ'ШЕШЫх системах для повышения релевантности результатов поиска, в системах электронного документооборота для тематической категоризации документов, и представляют научный интерес для специалистов в области информационного поиска и машинного обучения.
Основные положения, выносимые на защиту:
1. Алгоритм разрешения лексической многозначности слов, в котором используются контекстные векторы для оценки семантической близости синсетов с контекстом.
2. Алгоритм обработки текстовых документов, позволяющий выделять в тексте словосочетания произвольной длины, для которых существуют синсеты №ЬпШе4.
3. Повышение качества категоризации неспециализированных текстов при использовании в качестве признаков документов синсетов WordNet, полученных с помощью разработанного алгоритма разрешения лексической многозначности.
4. Влияние на качество категоризации тематики корпуса для построения пространства слов, в котором представляются контекстные векторы.
Апробация работы. Основные результаты диссертации докладывались на следующих конференциях и семинарах: XVIII всероссийский семинар «Ней-роинформатика, ее приложения и анализ данных», г. Красноярск, Академгородок, 20.10; II международная научно-практическая конференция «Прогрессивные технологии и перспективы развития», г. Тамбов, 2010; II международная заочная научно-практическая конференция «Современные направления научных исследований», 2010; межвузовская научно-практическая конференция «Информационные технологии и автоматизация управления», г. Омск, 2009; научный семинар кафедры информационной безопасности факультета компьютерных наук ОмГУ им. Ф. М. Достоевского, г. Омск, 2010.
Публикации. Материалы диссертации опубликованы в 10 печатных работах, из них 2 статьи в журналах из списка, рекомендованного ВАК.
Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Все представленные в диссертации результаты получены лично автором.
Структура и объем диссертации. Диссертация состоит из введения, трех основных глав, заключения и библиографии. Общий объем диссертации 118 страниц, содержит 16 рисунков и 18 таблиц. Библиография включает 112 наименований.
Содержание работы
Во введении обоснована актуальность диссертационной работы, сформулирована цель и аргументирована научная новизна исследований, показана практическая значимость полученных результатов и представлены выносимые на защиту научные положения.
Первая глава посвящена обзору методов автоматической категоризации текстовых документов.
Дается определение категоризации текстовых документов как задачи автоматического отнесения документа к одной или нескольким категориям на основании содержания документа. Приводится формальная постановка задачи.
Задача категоризации текстовых документов рассматривается как задача аппроксимации неизвестной функции Ф : В х С —\ {0,1}, определяющей каким образом документы должны быть классифицированы, через функцию Ф : Б х С {0,1}, именуемую классификатором, где С = {сх,..., с;с|} — множество возможных категорий, а Б = {<¿1,... — множество документов.
Выделяется особый вид классификаторов — бинарные, множество категорий которых состоит из двух элементов и его дополнения С;). Бинарный классификатор для {с*, с,} определяется функцией : Б —> {0,1}, которая является аппроксимацией неизвестной функции Ф; : В —»■ {0,1}.
Нахождение классификатора для множества категорий С = {сь..., С|с|} рассматривается как поиск |С| бинарных классификаторов {с*,с;}, где г =
1,...,|С|.
Формулируется задача автоматической категоризации текстовых документов, которая включает в себя следующие этапы:
1. Индексирование документов. Документы на естественном языке необхо-
димо преобразовать в удобную для машинной обработки форму. В процессе индексирования происходит выделение признаков из документов. На этом этапе определяется числовая модель представления документа.
2. Построение классификатора. На этом этапе применяются различные методы машинного обучения. Классификатор для категории Cj автоматически создается в процессе обучения, при котором просматривается множество документов с заранее определенными категориями с,- или Ci и подбираются такие характеристики классификатора, чтобы новый документ, отнесенный к категории с,, соответствовал им.
3. Вычисление эффективности классификатора. Эффективность классификатора является качественной оценкой результатов его работы на некотором множестве документов, для которого известны значения Ф. Эффективность используется для сравнения различных методов категоризации.
Для каждого этапа приводится описание применяемых методов и используемых моделей представления документов.
Рассматриваются ансамбли из классификаторов, которые позволяют повысить точность категоризации с помощью построения к классификаторов Фи...,Фк и объединении результатов их работы.
Вторая глава посвящена методам разрешения лексической многозначности на базе WordNet и разработанному алгоритму категоризации текстовых документов, в котором используются синсеты в качестве признаков документов и контекстные векторы для устранения лексической многозначности слов.
Разрешение лексической многозначности (Word Sense Disambiguation) — это задача автоматического выбора значения многозначного слова или фразы из множества их значений в зависимости от контекста, в котором данное слово или словосочетание находятся.
Рассматриваются различные методы разрешения лексической многозначности на базе WordNet. Особое внимание уделяется методу оценки семантической близости синсетов с помощью контекстных векторов.
В определении значений слов существенную роль играет контекст. Одно и то же значение слова, как правило, употребляется в одинаковом контексте. Контекстные векторы широко используются в информационном поиске и в задачах обработки естественного языка. Контекстный вектор (первого порядка) w указывает па все слова, вместе с которыми слово w встречается в тексте. Векторы, сформированные из суммы контекстных векторов (контекстные векторы второго порядка), используются для представления значений слов.
Чтобы построить контекстные векторы первого порядка, необходимо определить пространство слов W, обработав некоторый корпус текстов. В качестве такого корпуса используется объединение дефиниций синсетов WordNet. Полученный корпус содержит приблизительно 860 тысяч слов, из которых около 40 тысяч являются уникальными. Также исключаются из рассмотрения редко встречающиеся и стоп-слова, что позволяет сократить размерность пространства слов W до порядка 20 тысяч.
После построения контекстных векторов первого порядка, производится вычисление векторов дефиниций синсетов WordNet. Вектор дефиниции определяется как результат сложения контекстных векторов первого порядка слов, входящих в определение синсета. Например, дефиницией одного из значений слова «fork» является выражение «cutlery used to serve and eat food». Вектор дефиниции для него представляет собой результат сложения контекстных векторов первого порядка слов «cutlery», «serve», «eat» и «food».
Разработанный алгоритм разрешения лексической многозначности основывается на предположении, что два контекстных вектора второго порядка, расположенные близко друг к другу, скорее всего обозначают одно и тоже
значение слова. Таким образом, определение значения многозначного слова w в некотором предложении заключается в следующем:
1. Вычисляется вектор для контекста слова w, который является суммой контекстных векторов первого порядка слов, находящихся на расстоянии в несколько позиций слева и справа от w в предложении.
2. Производится оценка семантической близости всех возможных значений слова w с контекстом. Для каждого сиисета слова w вычисляется косинус угла между вектором его дефиниции и вектором контекста.
3. Самый близкий к контексту синсет выбирается в качестве значения слова w.
Приводится пошаговое описание алгоритма категоризации документов на базе WordNet с использованием контекстных векторов для разрешения лексической многозначности слов. Алгоритм категоризации основан на методе ¿-ближайших соседей (¿-NN) и использует в качестве признаков документов синсеты WordNet.
Построение классификатора начинается с индексирования документов обучающей коллекции С. На этом этапе происходит морфологический разбор слов, встречающихся в документах, поиск словосочетаний и устранение лексической многозначности. На выходе каждый документ описывается множеством признаков, представленных синсетами WordNet.
Затем осуществляется процедура уменьшения размерности пространства признаков с использованием функции полезности на базе критерия х2 (Yang Y. et al., 1997). Функция полезности f{tk, с,) характеризует значимость признака в некотором документе для категории ос.
ш ^ =_N х (AD - С В)2_
(A + C)x(B + D)x(A + B)x(C + DY
где N — количество документов в обучающей коллекции, А — количество
документов, в которых встречается tk и которые определены в c¿, В — количество документов, в которых встречается и которые не определны в c¡, С — количество документов, в которых не встречается 4 и которые определены в Ci, D — количество документов, в которых не встречается tk и которые не определены в с,.
Чтобы вычислить значимость признака для всех категорий С, необходимо найти максимальное значение /(¿¿) = max^}if(tk, c¡).
После уменьшения размерности пространства признаков осуществляется вычисление весовых коэффициентов признаков для документов обучающей коллекции. Для взвешивания используется один из вариантов статистических весовых функции «í/ - idf» (Saltón G. et al., 1998):
где и>у — вес г-го признака в документе £/у — частота встречаемости г-го признака в рассматриваемом документе, idfi — логарифм отношения количества документов в коллекции к количеству документов, в которых встречается г-ый признак. Веса, вычисленные по этой формуле, нормализованы таким образом, что сумма квадратов весов каждого документа равна единице. Документ в,] после взвешивания представляется вектором dj = ...
На этом построение классификатора заканчивается. Категоризация новых документов осуществляется следующим образом. Документ dj, поступающий в систему, проходит через тот же механизм индексирования с последующим взвешиванием признаков. Для того чтобы определить категории, соответствующие документу классификатор выполняет следующие действия:
1. Документ сравнивается со всеми документами из обучающей коллекции С. Для каждого йг е С вычисляется расстояние йг) — значение
tfa ■ idf i
косинуса угла между векторами dj и dz.
2. Далее из обучающей коллекции выбираются к ближайших к dj документов.
3. Определение категорий документа dj осуществляется выбором наиболее встречающихся категорий среди к ближайших к dj документов, т. е. документ относится к категориям, частота встречаемости c/j которых больше некоторого т.
Значение т было определено в ходе экспериментов и равняется 0.8 - max, c/j. В качестве значения к используется 30.
Третья глава посвящена используемым для вычисления эффективности разработанного классификатора корпусам текстов и результатам экспериментов.
Рассматривается программная реализация классификатора. Программный комплекс автоматической категоризации реализован на языке программирования Erlang с использованием открытой платформы OTP.
Приводится описание корпусов текстов «Reuters-21578» и «Reuters Corpus Volume 1», которые использовались для сравнения эффективности построенных классификаторов. Для коллекции «Reuters-21578» существуют фиксированные разбиения на обучающее и тестирующее множества. Построение классификатора и оценка его эффективности проводилась с использованием разбиения «ModApt». Это разбиение задает 90 категорий, 9603 документа содержатся в обучающем наборе и 3299 документов в тестирующем.
Для коллеции «Reuters Corpus Volume 1» не предусмотрены стандартные разбиения. Для экспериментов были выбраны 10 разносторонних категорий: международные отношения; катастрофы и бедствия; искусство, культура и сфера развлечений; мода; здоровье; религия; наука и технологии; спорт; путешествия и туризм и погода. Из всей коллекции были отобраны 5923 доку-
мента, определенных в одну или несколько вышеперечисленных категорий, и разделены на два множества. Обучающий набор содержит 3532 документа, тестовый набор — 1761.
Для исследования влияния разработанного алгоритма разрешения лексической многозначности на эффективность категоризации текстовых документов были проведены эксперименты с разработанным fc-NN классификатором и классификатором SVMhsht (Joachims J., 1999). Для каждой коллекции документов сначала проводилось вычисление эффективности категоризации, когда в качестве признаков документов выступали базовые формы слов (т. е. без использования WSD), а затем — синсеты (и использованием WSD).
Оценка эффективности категоризации рассматривается как комбинация точности р и полноты г. Точность — это доля верно классифицированных документов, а полнота — отношение верно классифицированных документов к общему количеству документов, которые должны были быть классифицированы. Точность и полнота вычисляются для каждой категории индивидуально, затем происходит их микро- и макроусреднение. Чем больше точность и полнота, тем качественнее результаты категоризации.
В таблицах 1 и 2 приведены результаты экспериментов для fc-NN классификатора на коллекциях документов «Reuters-21578» и «Reuters Corpus Volume 1», а в таблицах 3 и 4 — для SVMlight.
Таблица 1. Эффективность ¿--NN классификатора на коллекции «Reuters-21578»
Классификатор Микро р Микро г Макро р Макро г
Без использования WSD С использованием WSD .8340 .8380 .7727 .7664 .8939 .9187 .2993 .2869
Результаты экспериментов показывают, что использование синсетов в качестве признаков документов, полученных с помощью разработанного алго-
Таблица 2. Эффективность fc-NN классификатора на коллекции «Reuters Corpus Volume 1*
Классификатор Микро р Микро г Макро р Макро г
Вез использования WSD С использованием WSD .8499 .8672 .8569 .8605 .8611 .8850 .8231 .8287
Таблица 3. Эффективность SVM классификатора на коллекции «Reuters-21578»
Классификатор Микро р Микро г Макро р Макро г
Без использования WSD С использованием WSD .9481 .9294 .7911 .7807 .9591 .9066 .3852 .9Q79
ритма разрешения лексической многозначности, позволяет повысить эффективность категоризации для коллекции неспециализированных текстов. В то же время на корпусе текстов узкой направленности (коллекция «Reuters-21578» содержит статьи финансового характера) для /с- NN классификатора происходит увеличение точности в ущерб полноте, а для SVM классификатора происходит увеличение макроусредненной полноты при небольшом снижении остальных значений.
На корпусе «Reuters Corpus Volume 1» было проведено исследование зависимости эффективности категоризации от длины документов. Для этого документы тестирующей коллекции были разбиты на 5 групп по количеству символов. Затем для каждой группы были вычислены значения эффективности категоризации без/с использованием WSD. На рисунке 1 показана зависимость микроусредненного значения меры Fi = 2рг/(р + г) для &-NN классификатора от длины документов. С ростом длины документов происходит увеличение прироста эффективности при использовании WSD до 4%.
В заключении сформулированы выводы и основные результаты работы.
Таблица 4. Эффективность SVM классификатора на коллекции «Reuters Corpus Volume 1»
Кл ассификатор Микро р Микро г Макро р Макро г
Без использования WSD С использованием WSD .9580 .9518 .8646 .8708 .9600 .9533 .8402 .8536
1 "Г ' - 1 .......- ' т Ff без ноюлькчинки WSD —-Fj с использованием WSD
\ ' \
\ 1 \
\
lit t
<300 ЗШ-VCO 901-1
Рис. 1. Зависимость микроусредкенксго значения меры эффективности ^ для й-Ж классификатора без/с использования \УБО от длины документов N
Основные результаты:
1. Разработан и реализован алгоритм разрешения лексической многозначности слов, в котором используются контекстные векторы для оценки семантической близости синсетов с контекстом.
2. Разработан и реализован алгоритм обработки текстовых документов, позволяющий выделять в тексте словосочетания произвольной длины, для которых существуют синсеты WordNet.
3. Разработан и реализован алгоритм категоризации текстовых документов на базе метода АНэлижайших соседей, в котором синсеты использу-
ются в качестве признаков документов.
4. Показано, что использование в текстовом классификаторе в качестве признаков документов синсетов WordNet, полученных с помощью разработанного алгоритма, позволяет повысить эффективность категоризации неспециализированных текстов.
5. Выявлено, что тематика корпуса текстов для построения пространства слов, в котором представляются контекстные векторы, оказывает влияние на качество категоризации.
6. Показано, что эффективность категоризации зависит от размера обрабатываемых документов. Увеличение длины документов сопровождается снижением качества категоризации. Но в тоже время использова* ние разработанного алгоритма разрешения лексической многозначности позволяет добиться улучшения качества категоризации длинных документов.
Основные публикации по теме диссертации
Журналы из списка, рекомендованного ВАК:
1. A.C. Епрев. Применение разрешения лексической многозначности в классификации текстовых документов // Наука и образование. 2010. № 10. С. 1-4.
2. A.C. Епрев. Применение контекстных векторов в классификации текстовых документов // Журнал радиоэлектроники. 2010. № 10. С. 1-7.
Остальные публикации:
3. A.C. Епрев. Обзор методов классификации текстов // Проблемы обработки и защиты информации. Книга 2. Анализ графической и текстовой
информации. Коллективная монография / Под общей ред. д. ф.-м. н. C.B. Б лима. - Омск: ООО «Полиграфический центр КАН». 2010. С. 5-28.
4. A.C. Епрев. Применение баз знаний в задачах классификации текстов // Проблемы обработки и защиты информации. Книга 2. Анализ графической и текстовой информации. Коллективная монография / Под общей ред. д. ф.-м. н. C.B. Белима. - Омск: ООО «Полиграфический центр КАН». 2010. С. 29-42.
5. А. С. Епрев. Тематическая классификация документов по степени близости термов // Математические структуры и моделирование. 2009. № 20. С. 93-96.
6. А. С. Епрев. Автоматическая классификация текстовых документов // Математические структуры и моделирование. 2010. № 21. С. 65-81.
7. А. С. Епрев. Использование WordNet в k-NN классификаторе // Материалы XVIII Всероссийского семинара «Нейроинформатика, ее приложения и анализ данных». Красноярск, 2010. С. 68-72.
8. А. С. Епрев. Методы разрешения лексической многозначности на базе WordNet // Материалы II международной заочной научно-практической конференции «Современные направления научных исследований». Екатеринбург, 2010. С. 85-86.
9. А. С. Епрев. Интеграция семантического словаря WordNet в текстовый классификатор // Материалы II международной научно-практической конференции «Прогрессивные технологии и перспективы развития». Тамбов, 2010. С. 25-26.
10. А. С. Епрев. Тематическая классификация документов // Материалы межвузовской научно-практической конференции «Информационные технологии и автоматизация управления». Омск, 2009. С. 129.
Епрев Антон Сергеевич
ИССЛЕДОВАНИЕ ВЛИЯНИЯ РАЗРЕШЕНИЯ ЛЕКСИЧЕСКОЙ МНОГОЗНАЧНОСТИ С ПОМОЩЬЮ КОНТЕКСТНЫХ ВЕКТОРОВ НА ЭФФЕКТИВНОСТЬ КАТЕГОРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ
Автореф. дисс. на соискание ученой степени кандидата физико-математических наук. Подписано в печать 16.05.2011. Заказ № 1050. Формат 84x54 1/16. Усл. печ. л. 1. Тираж 100 экз. Отпечатано в ООО «БЛАНКОМ», г. Омск, пр. К. Маркса, 18 корп. 8.
Оглавление автор диссертации — кандидата физико-математических наук Епрев, Антон Сергеевич
Введение
Глава 1. Обзор методов категоризации текстовых документов
1.1. Формализация задачи.
1.2. Автоматическая категоризация
1.3. Индексирование документов.
1.4. Уменьшение размерности пространства признаков
1.5. Методы построения классификаторов.
1.6. Оценка эффективности.
1.7. Ансамбли классификаторов
1.8. Выводы.
Глава 2. Разработка классификатора.
2.1. Лексическая база WordNet.
2.2. Методы разрешения лексической многозначности.
2.3. Алгоритм разрешения лексической многозначности.
2.4. Построение классификатора.
2.5. Категоризация документов.
2.6. Выводы.
Глава 3. Программная реализация и экспериментальные исследования
3.1. Программная реализация.
3.2. Эксперименты на коллекции «Reuters-21578».
3.3. Эксперименты на коллекции «Reuters Corpus Volume 1»
3.4. Анализ результатов и рекомендации.
3.5. Выводы.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Епрев, Антон Сергеевич
Актуальность работы. Объем накапливаемой и обрабатываемой информации постоянно увеличивается, что приводит к сложности ориентирования в информационных ресурсах, и делает задачу категоризации все более актуальной. Использование классификаторов позволяет ограничить поиск необходимой информации относительно небольшим подмножеством документов. Так, например, в «автоматизированной системе тематического анализа информации» [8] классификатор используется для фильтрации результатов поиска, что повышает релевантность поисковой выдачи. Помимо сужения области поиска в поисковых системах, задача категоризации имеет практическое применение в следующих областях: фильтрация спа-ма [18], составление тематических каталогов, контекстная реклама [27], системы электронного документооборота, автоматическое реферирование [1], снятие омонимии [65, 112] в автоматическом переводе текстов.
Категоризация текстовых документов является задачей автоматического отнесения документа к одной или нескольким категориям на основании содержания документа. Существуют различные модели и методы категоризации текстов —- деревья решений, метод наименьших квадратов, адаптивные линейные классификаторы, метод ближайших соседей, метод опорных векторов и другие [97].
В последнее время активно разрабатываются способы интеграции различных баз знаний и ресурсов в методы категоризации текстовых документов с целью получения высоких результатов категоризации. Большой интерес представляет использование семантических ресурсов, таких как WordNet или \УПиресНа.
WordNet [106] — это семантический словарь английского языка, базовой словарной единицей которого является синонимический ряд, так называемый «синеет», объединяющий слова со схожим значением. Синсеты связаны между собой различными семантическими отношениями. Также существуют реализации для других языков, ведутся разработки WordNet для русского языка.
Большинство методов категоризации основывается на использовании простой векторной модели описания документов, в которой признаками документов являются базовые формы слов. Использование слов в качестве признаков имеет ряд недостатков: словосочетания, такие как «European Union», разделяются на отдельные слова и обрабатываются независимо; слова, являющиеся синонимами, используются как самостоятельные признаки; многозначные слова рассматриваются как обычные признаки, в то время как они могут иметь несколько различных значений. В работе [55] отмечается, что использование в качестве признаков документов значений слов, представленных синсетами, может приводить к улучшению качества категоризации на 28%. Такие результаты были получены на коллекции документов, где устранение лексической многозначности слов было выполнено вручную. Согласно результатам исследования, эффективность категоризации при использовании методов автоматического разрешения лексической многозначности, доля ошибок которых составляет менее 10%, сопоставима с эффективностью категоризации для вручную размеченного текста. Увеличение доли ошибок разрешения лексической многозначности с 10% до 30% приводит к резкому спаду эффективности категоризации, а для методов с ошибкой 30-60% использование в качестве признаков синсетов не приводит к заметному приросту эффективности категоризации.
Существует несколько публикаций, в которых сравниваются эффективности категоризации с использованием слов и синсетов WordNet, полученных с помощью различных методов автоматического разрешения лексической многозначности. В системе автоматической категоризации документов на базе метода /с-ближайших соседей [49] использование синсетов в качестве признаков, полученных с помощью метода на базе скрытой модели Маркова, приводит к росту эффективности категоризации на 2%. В работе [36] проводилось сравнение алгоритма категоризации «Ас1аВоо8*Ь» на нескольких коллекциях документов, а для устранения лексической многозначности слов применялся метод, суть которого заключается в выборе того синсета, слова которого в документе встречаются чаще остальных. Использование данного метода позволяет повысить эффективность категоризации на 1%.
В работе [83] описывается метод оценки семантической близости синсетов с помощью контекстных векторов, использующий информацию о совместной встречаемости слов в тексте. Оценка эффективности этого метода проводилась на нескольких наборах слов. Данный метод показывает лучшие результаты среди других методов оценки семантической близости слов на базе ресурса У/огсШе!;. Однако, практическое применение данного метода для устранения лексической многозначности не исследовалось.
Актуальность исследования обуславливается практической значимостью систем автоматической категоризации текстовых документов, в которых в качестве признаков используются значения слов, представленные синсетами \А/огсШеЪ.
Цели диссертационной работы:
1. Разработать и реализовать алгоритм разрешения лексической многозначности слов с помощью контекстных векторов на базе ресурса Word.Net.
2. Реализовать программный комплекс автоматической категоризации текстовых документов с использованием синсетов WordNet в качестве признаков документов.
3. Исследовать применимость разработанного алгоритма разрешения лексической многозначности к различным коллекциям документов с помощью оценки его влияния на эффективность категоризации.
Научная новизна исследования состоит в следующем:
1. Разработан алгоритм разрешения лексической многозначности слов, в котором используются контекстные векторы для оценки семантической близости синсетов с контекстом.
2. Реализован программный комплекс автоматической категоризации текстовых документов, в котором используются синсеты WordNet в качестве признаков документов и контекстные векторы для разрешения лексической многозначности.
Практическая значимость заключается в формировании нового инструмента, позволяющего повысить эффективность категоризации текстовых документов.
Полученные в диссертации результаты могут быть использованы в существующих информационных системах для повышения релевантности ре. I. II 11, \I . зультатов поиска, в системах электронного документооборота для тематической категоризации документов, и представляют научный интерес для специалистов в области информационного поиска и машинного обучения.
Основные положения, выносимые на защиту:
1. Алгоритм разрешения лексической многозначности слов, в котором используются контекстные векторы для оценки семантической близости синсетов с контекстом.
2. Алгоритм обработки текстовых документов, позволяющий выделять в тексте словосочетания произвольной длины, для которых существуют синсеты \¥огсШе1;.
3. Повышение качества категоризации неспециализированных текстов при использовании в качестве признаков документов синсетов WordNet, полученных с помощью разработанного алгоритма разрешения лексической многозначности.
4. Влияние на качество категоризации тематики корпуса для построения пространства слов, в котором представляются контекстные векторы.
Апробация работы. Основные результаты диссертации докладывались на следующих конференциях и семинарах: XVIII всероссийский семинар «Нейроинформатика, ее приложения и анализ данных», г. Красноярск, Академгородок, 2010; II международная научно-практическая конференция «Прогрессивные технологии и перспективы развития», г. Тамбов, 2010; II международная заочная научно-практическая конференция «Современные направления научных исследований», 2010; межвузовская научно-практическая конференция «Информационные технологии и автоматизация управления», г. Омск, 2009; научный семинар кафедры информационной безопасности факультета компьютерных наук ОмГУ им. Ф. М. Достоевского, г. Омск, 2010.
Публикации. Материалы диссертации опубликованы в 10 печатных работах, из них 2 статьи в журналах из списка, рекомендованного ВАК.
Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Все представленные в диссертации результаты получены лично автором.
Структура и объем диссертации. Диссертация состоит из введения, трех основных глав, заключения и библиографии. Общий объем диссертации 118 страниц, содержит 16 рисунков и 18 таблиц. Библиография
Заключение диссертация на тему "Исследование влияния разрешения лексической многозначности с помощью контекстных векторов на эффективность категоризации текстовых документов"
Основные результаты диссертационной работы:
1. Разработан и реализован алгоритм разрешения лексической многозначности слов, в котором используются контекстные векторы для оценки семантической близости синсетов с контекстом. Построение контекстных векторов осуществляется на корпусе текстов, который получен путем объединения дефиниций синсетов
2. Разработан и реализован алгоритм обработки текстовых документов, позволяющий выделять в тексте словосочетания произвольной длины, для которых существуют синсеты ^^УогсШе^
3. Разработан и реализован алгоритм категоризации текстовых документов на базе метода £;-ближайших соседей, в котором синсеты используются в качестве признаков документов. Предложены две стратегии определения категорий: а. Выбор наиболее встречающихся категорий среди ближайших документов (стратегия с/г). б. Построение ранжирующих функций СЭЦ, и определение множества пороговых значений т^.
4. Предложенные алгоритмы могут быть использованы в существующих информационных системах для повышения релевантности результатов поиска, в системах электронного документооборота для тематической категоризации документов.
5. Показано, что использование в текстовом классификаторе в качестве признаков документов синсетов "\/Уогс1Ме1;, полученных с помощью разработанного алгоритма разрешения лексической многозначности, позволяет повысить эффективность категоризации неспециализированных текстов.
6. Показано, что эффективность категоризации зависит от размера обрабатываемых документов. Увеличение длины документов сопровождается снижением качества категоризации. Но в тоже время использование разработанного алгоритма разрешения лексической многозначности позволяет добиться улучшения качества категоризации длинных документов.
7. Выявлено, что.тематика корпуса текстов для построения пространства слов, в котором представляются контекстные векторы, оказывает влияние на качество категоризации. Отсутствие контекстных векторов первого порядка слов, определяющих контекст, приводит к некачественному построению для него контекстного вектора второго порядка.
8. Предложены рекомендации, направленные на улучшение качества категоризации документов с использованием разработанного алгоритма разрешения лексической многозначности: а. Вместо отбрасывания часто и редко-встречающихся слов в корпусе текстов при построении пространства слов, можно воспользоваться функциями взвешивания слов и выбором наиболее значимых. б. Рекомендуется использовать в качестве корпуса текстов для построения пространства слов специально разработанные тексты, чтобы пространство слов было образовано словами, которые встречаются в категоризируемых документах. в. Совместно с синсетами использовать также базовые формы слов в качестве признаков документов, так как погрешности в разрешении лексической многозначности оказывают негативное влияние на эффективность категоризации. г. Задействовать родовые отношения синсетов WordNet для категоризации, а не только для построения контекстных векторов.
Заключение
Библиография Епрев, Антон Сергеевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. A.C. Епрев. Применение разрешения лексической многозначности в классификации текстовых документов // Наука и образование. 2010. №'10. С. 1-4.
2. A.C. Епрев. Применение контекстных векторов в классификации текстовых документов // Журнал радиоэлектроники. 2010. № 10. С. 1-7.
3. А. С. Епрев. Тематическая классификация документов по степени близости термов-//'Математические структуры и моделирование. 2009. № 20. С. 93-96.
4. А. С. Епрев. Автоматическая классификация текстовых документов // Математические структуры и моделирование. 2010. № 21. С. 65-81.t I ч . ПИнЩ .' >1 ' '
5. А. С. Епрев. Использование WordNet в k-NN классификаторе // Материалы XVIII Всероссийского семинара «Нейроинформатика, ее приложения и анализ данных». Красноярск, 2010. С. 68-72.
6. А. С. Епрев. Методы разрешения лексической многозначности на базе \¥огс^е! // Материалы II международной заочной научно-практической конференции «Современные направления научных исследований». Екатеринбург, 2010. С. 85-86.
7. А. С. Епрев. Интеграция семантического словаря WordNet в текстовый классификатор // Материалы II международной научно-практической конференции «Прогрессивные технологии и перспективы развития». Тамбов, 2010. С. 25-26.
8. А. С. Епрев. Тематическая классификация документов // Материалы межвузовской научно-практической конференции «Информационные технологии и автоматизация управления». Омск, 2009. С. 129.1. Цитированная литература
9. Авдейчик В. Г., Чернявский А. Ю., Шмелев А. С. Система классификации текстов «NN03» // Российский семинар по Оценке Методов Информационного Поиска. Ярославль, 2005. С. 74-77.
10. Азарова И. В., Митрофанова О. А., Синопальникова А. А. Компьютерный тезаурус русского языка типа WordNet // Компьютерная лингвистика и интеллектуальные технологии. 2003. С. 43-50.
11. Белов А. А., Волович М. М. Автоматическое распознавание тематики сверхкоротких текстов // Труды международной конференции «Диалог 2007». Москва, 2007. С. 35-37.
12. Васенин В. А., Афонин С. А., Козицын А. С. Автоматизированная система тематического анализа информации // Информационные технологии. Приложение. 2009. № 4. С. 1-32.
13. Васильев В. Г. Комплексная технология автоматической классификации текстов // Труды международной конференции «Диалог 2008». Москва, 2008. С. 83-90.
14. Воронцов К. В. Лекции по методу опорных векторов. URL: http: // www.ccas.ru/voron/download/SVM.pdf (дата обращения: 12.12.2009).
15. Гельбух А. Ф., Сидоров Г. О., Гузмап-Аренас А. Система поиска и классификации документов с использованием иерархического словаря тем // Искусственный интеллект. 1999. № 2. С. 321-328.
16. Гребенкин И. М., Загоруйко Н. Г., Налетов А. М. На пути к автоматическому построению онтологии // Труды международной конференции «Диалог 2003». Протвино, 2003. С. 316-411.
17. Дерновой Г. Семантический анализ и РОМИП // Российский семинар по Оценке Методов Информационного Поиска. Санкт-Петербург, 2003. С. 207-213.
18. Добров Б. В., Иванов В. В., Лукашевич Н. В., Соловьев В. Д. Онтологии и тезаурусы: модели, инструменты, приложения. URL:http://www.intuit.ru/department/expert/ontoth/ (дата обращения: 10.11.2010).
19. Кобрицов Б. П., Ляшевская О. Н. Автоматическое разрешение семантической неоднозначности в Национальном корпусе русского языка // Труды международной конференции «Диалог 2004». Санкт-Петербург, 2004. С. 298-304.
20. Козеренко А. Д. Рубрикатор в борьбе со спамом // Труды международной конференции «Диалог 2004». Санкт-Петербург, 2004. С. 34-37.
21. Максаков А. Сравнительный анализ алгоритмов классификации и способов представления Web-документов // Российский семинар по Оценке Методов Информационного Поиска. Ярославль, 2005. С. 63-73.
22. Митрофанова О. А., Паничева П. В., Ляшевская О. Н. Статистическое разрешение лексико-семантической неоднозначности в контекстах для предметных имен существительных // Труды международной конференции «Диалог 2008». Москва, 2008. С. 368-375.
23. Панков С. В., Шебанин С. П., Рыбаков А. А. Тематическая классификация текстов // Российский семинар по Оценке Методов Информационного Поиска. Казань, 2010. С. 142-147.
24. Соловьев В. Д., Добров Б. В., Иванов В. В., Лукашевич Н. В. Онтологии и тезаурусы: Учебное пособие. Казань, Москва: Казанский государственный университет, МГУ им. М.В. Ломоносова, 2006. 157 с.
25. Сухоногов А. М., Яблонский С. А. Автоматизация построения англорусского WordNet '//"Труды международной конференции «Диалог 2005». Звенигород, 2005. С. 46-51.
26. Anagnostopoulos A., Broder A. Z., Gabrilovich Е. et al. Just-in-time contextual advertising // Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Toronto, Canada, 2007. P. 331-340.
27. Armstrong J. Programming Erlang Software for a Concurrent World. Pragmatic Bookshelf,-20071. ¡536 p.
28. Baker L. D., McCallum A. K. Distributional clustering of words for text classification // Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval. Melbourne, Australia, 1998. R 96-103.
29. Banerjee S., Pedersen T. An adapted Lesk algorithm for word sense disambiguation using WordNet // Lecture Notes in Computer Science. 2002. Vol. 2276. P. 117-171.
30. Banerjee S., Pedersen T. Extended gloss overlaps as a measure of semantic relatedness // Proceedings of the Eighteenth International Conference on Artificial Intelligence. Acapulco, Mexico, 2003. P. 805-810.
31. Barak L., Dagan I., Shnarch E. Text categorization from category name via lexical reference // Proceedings of Human Language Technologies. Boulder, CO, USA, 2009. P. 33-36.
32. Bay S. D. Nearest neighbor classifiers from multiple feature subsets // Intelligent data analysis. 1999. Vol. 3. P. 191-209.
33. Bentaallahe M. A., Malki M. WordNet based multilingual text categorization // INFOCOMP Journal of Computer Science. 2007. Vol. 6, No. 4. P. 52-59.
34. Berger A. Statistical Machine Learning for Information Retrieval. Carnegie Mellon University, 2001. 143 p.
35. Bloehdorn S., Hotho A. Boosting for Text Classification with Semantic Features // Proceedings of the MSW 2004 Workshop at the 10th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. Seattle, WA, USA, 2004. P. 70-87.
36. Brants T. TnT: A Statistical Part-Of-Speech Tagger // Proceedings ofthe sixth conference on Applied natural language processing. Seattle, WA, USA, 2000. P. 224-231.
37. Bryll R. Attribute bagging: improving accuracy of classifier ensembles by using random feature subsets // Pattern Recognition. 2003. Vol. 36. P. 1291-1302.
38. Budanitsky A., Hirst G. Semantic distance in WordNet: An experimental, application-oriented evaluation of five measures // Workshop on WordNet and other lexical resources. Pittsburgh, PA, USA, 2001. P. 76-81.
39. Cavnar W. B., Trenkle J. M. N-Gram-Based Text Categorization // Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, Nevada, USA, 1994. P. 161-175.
40. Cristianini N., Shawe-Taulor J. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000. 189 p.
41. Dietterich T. G. Machine learning research: four current directions // AI Magazine. 1997. Vol. 18. P. 97-136.
42. Edmonds P. SENSEVAL: The evaluation of word sense disambiguation systems // ELRA Newsletter. 2002. Vol. 7.
43. Elberrichi Z., Rahmoun A., Bentaalah M. A. Using WordNet for Text Categorization // The International Arab Journal of Information Technology. 2008. Vol. 5, No. 1. P. 16-24.
44. Ferretti E., Lafuente J., Rosso P. Semantic Text Categorization using the K Nearest Neighbours method // Proceedings of Workshop on Conceptual Information Retrieval, IICAI-2003. Hyderabad, India, 2003. P. 434-442.
45. Frakes B. Stemming algorithms // Information Retrieval: Data Structures and Algorithms. Prentice-Hall, Inc., 1992. P. 131-160.
46. Gabrilovich E., Markovitch S. Feature Generation for Text Categorization Using World Knowledge // International joint conference on Artificial Intelligence. 2005. Vol. 19. P. 1048-1053.
47. Gabrilovich E., Markovitch S. Computing semantic relatedness using Wikipedia-based Explicit Semantic Analysis // Proceedings of The 20th International Joint Conference on Artificial Intelligence (IJCAI). Hyderabad, India, 2007. P. 1606-1611.
48. Gomez J., de Buenaga M. Integrating a Lexical Database and a Training Collection for Text Categorization // Proceedings of ACL-EACL. Madrid, Spain, 1997. P. 112-123.
49. Gomez J. M., de Buenaga M., Urena L. A. et al. Integrating Lexical Knowledge in Learning-Based Text Categorization // Proceedings of the 6th International Conference on the Statistical Analysis of Textual Data. St. Malo, France, 2002. P. 410-419.
50. Gonzalo J., Verdejo F., Chugur I., Cigarrin J. Indexing with WordNet synsets can improve text retrieval // Proceedings of the COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems. Montreal, Canada, 1998. P. 38-44.
51. Hayes P. J., Weinstein S. P. Construe: A System for Content-Based Indexing of a Database of News Stories // Proceedings of the Second Annual Conference on Innovative Applications of Intelligence. Washington, DC, USA, 1990. P. 49-64.
52. Heaps H. S. Information Retrieval: Computational and Theoretical Aspects. Academic Press, 1978. 368 p.
53. Heckerman D. A. A Tutorial on Learning With Bayesian Networks // Learning in graphical models. 1999. P. 301-354.
54. Hotho A., Staab S., Stumme G. Wordnet improves Text Document Clustering // Proceedings of the SIGIR Semantic Web Workshop. Toronto, Canada, 2003. P. 541-544.
55. Hull D. A. Improving text retrieval for the routing problem using latent semantic indexing // Proceedings of SIGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval. Dublin, Ireland, 1994. P. 282-289.
56. Jiang J., Conrath D. Semantic similarity based on corpus statistics and lexical taxonomy // Proceedings of ROCLING X. Taiwan, 1997. P. 19-33.
57. Joachims T. Making large-Scale SVM Learning Practical // Advances in Kernel Methods — Support Vector Learning. MIT Press, 1999. P. 41-56.
58. Joachims T. Text categorization with support vector machines: learning with many relevant features // Proceedings of ECML-98, 10th European Conference on Machine Learning. Chemnitz, Germany, 1998. P. 137-142.
59. Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization // Proceedings of International Conference on Machine Learning. Nashville, Tennessee, USA, 1997. 143-151 p.
60. Koeling R., McCarthy D., Carroll J. Text Categorization for Improved Priors of Word Meaning // Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing. Mexico City, Mexico, 2007. P. 241-252.
61. Koller D., Sahami M. Hierarchically classifying documents using very few words // Proceedings of ICML-97, 14th International Conference on Machine Learning. Nashville, Tennessee, USA, 1997. P. 170-178.
62. Lam S. L., Lee D. L. Feature reduction for neural network based text categorization // Proceedings of DASFAA-99. Taiwan, 1999. P. 195-202.
63. Lankhorst M. Automatic Word Categorization with Genetic Algorithms // Proceedings of the ECAI'94 Workshop on Applied Genetic and other Evolutionary Algorithms. Berkeley, CA, USA, 1995. P. 5-9.
64. Lewis D. D. The Reuters-21578 text categorizationtest collection. URL: http://www.daviddlewis.com/resources/testcollections/ reuters21578/ (дата обращения: 12.12.2009).
65. Lewis D. D. Naive (Bayes) at forty: The independence assumption in information retrieval // Proceedings of ECML-98, 10th European Conference on Machine Learning. Chemnitz, Germany, 1998. P. 4-15.
66. Lewis D. D. An evaluation of phrasal and clustered representations on a text categorization task // Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval. Copenhagen, Denmark, 1992. P. 37-50.
67. Li Y. H., Jain A. K. Classification of Text Documents // The Computer Journal. 1998. Vol. 41, No. 8. P. 537-546.
68. Manning C., Raghavan P., Schutze H. Introduction to Information Retrieval. Cambridge University Press, 2008. 544 p.w l M i <» i .
69. Marshall R. J. Generation of Boolean classification rules // Proceedings of Computational Statistics. Utrecht, Netherlands, 2000. P. 355-360.
70. Meltzer T. SVD and its Application to Generalized Eigenvalue Problems. URL: http://www.prip.tuwien.ac.at/teaching/ws/StME/apponly. pdf (дата обращения: 01.10.2010).
71. Miller G. A., Charles W. G. Contextual correlates of semantic similarity // Language and Cognitive Processes. 1991. Vol. 6. P. 1-28.
72. Mitchell Т. M. Machine Learning. New York: McGraw Hill, 1997. 414 p.
73. Montoyo A., Palomar M., Rigau G. Method for WordNet Enrichment Using WSD // Text, Speech and Dialogue. 2001. Vol. 2166. P. 180-186.
74. Navigli R. Word Sense Disambiguation: A Survey // ACM Computing Surveys. 2009. Vol. 41, No. 2. P. 1-69.
75. Oza N. C., Turner T. Decimated input ensembles for improved generalization // Proceedings of the International Joint Conference on Neural Networks. Washington, DC, USA, 1999.
76. Paliouras G., Karkaletsis V., Spyropoulos C. D. Machine Learning and Its Applications: Advanced Lectures (Lecture Notes in Computer Science / Lecture Notes in Artificial Intelligence). Springer, 2001. 325 p.
77. Patwardhan S., Pedersen T. Using WordNet-based context vectors to estimate the semantic relatedness of concepts // EACL 2006 Workshop Making Sense of Sense. TYento, Italy, 2006. P. 1-8.
78. Quinlan J. Induction of decision trees // Machine Learning. 1986. Vol. 1, No. 1. P. 81-106.
79. Quinlan J. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993. 302 p.
80. Quinlan J. R. Bagging, Boosting, and C4.5 // Proceedings of Artificial, i i 11 > . • . ' '1.telligence Conference. Budapest, Hungary, 1996. P. 725-730.
81. Resnik P. Using information content to evaluate semantic similarity in ataxonomy // Proceedings of the 14th International Joint Conference on Artificial Intelligence. Montreal, Canada, 1997. P. 448-453.
82. Rocchio J. J. Relevance feedback in information retrieval // The SMART Retrieval System: Experiments in Automatic Document Processing. Prentice-Hall, Inc., 1971. P. 313-323.
83. Roget P. Roget's Thesaurus of English Words and Phrases: Body. URL: http://www.gutenberg.org/files/10681/10681-body.txt (дата обращения: 01.10.2010).
84. Rose T. G., Stevenson M., Whitehead M. The Reuters Corpus Volume 1 — from Yesterday's News to Tomorrow's Language Resources // Third International Conference on Language Resources and Evaluation. Las Palmas, Spain, 2002. P. 29-31.
85. Rubenstein H., Goodenough J. B. Contextual correlates of synonymy // Communications of the ACM. 1965. Vol. 8. P. 627-633.
86. Ruiz M., Srinivasan P. Hierarchical Text Categorization Using Neural Networks // Information Retrieval. 2002. Vol. 5, No. 1. P. 87-118.
87. Salton G., Buckley C. Term-Weighting Approaches in Automatic Text Retrieval // Information Processing and Management. 1988. P. 513-523.
88. Schütze H. Automatic word sense discrimination // Computational Linguistics. 1998. Vol. 24. P. 97-123.
89. Scott S., Matwin S. Feature engineering for text classification // Proceedings of ICML-99. San Francisco, CA, USA, 1999. P. 379-388.
90. Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. Vol. 34, No. 1. P. 1-47.
91. Sebastiani F. Text Categorization // Text Mining and Its Applications. WIT Press, 2005. P. 109-129.
92. Semantic Networks in Artificial Intelligence, Ed. by F. Lehmann. Perga-mon Press, 1992. 768 p.
93. Spearman C. Proof and measurement of association between two things // American Journal of Psychology. 1904. Vol. 15. P. 72-201.
94. Sussna M. .Word Sense. Disambiguation for Free-text Indexing Using a Massive Semantic Network // Proceedings of CIKM'93. Washington, DC, USA, 1993. P. 67-74.
95. Vossen P. EuroWordNet: A Multilingual Database with Lexical Semantic Networks // Computational Linguistics. 2003. Vol. 25, No. 4. P. 628-630.
96. Voutilainen A. Part-of-Speech Tagging // The Oxford Handbook of Computational Linguistics. Oxford University Press, 2005. P. 219-232.
97. Witten I. H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques. Second edition. Morgan Kaufmann, 2005. 525 p.
98. Wong M. L., Cheung K. S. Data Mining Using Grammar Based Genetic Programming and Applications. Kluwer Academic Publishers, 2002. 228 p.
99. WordNet: An electronic lexical database, Ed. by C. Fellbaum. Cambridge, MA: MIT Press, 1998. 422 p.
100. WSD — Word Sense Disambiguation: Algorithms and Applications, Ed. by E. Agirre, P. Edmonds. Springer, 2006. 364 p.
101. Yang Y., Chute C. G. An example-based mapping method for text categorization and retrieval // ACM TYans. Inform. Syst. 1994. Vol. 12, No. 3. P. 252-277.
102. Yang Y., Liu X. A re-examination of text categorization methods // Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval. Berkeley, CA, USA, 1999. P. 42-49.
103. Yang Y., Pedersen J. O. A comparative study on feature selection in text categorization // Proceedings of ICML-97, 14th International Conference on Machine Learning. Nashville, Tennessee, USA, 1997. P. 412-420.
104. Zelaia A., Arregi O., Sierra B. UBC-ZAS: a k-NN based multiclassifier system to perform WSD in a reduced dimensional vector space // Proceedings of the 4th International Workshop on Semantic Evaluations. Prague, 2007. P. 358-361.
-
Похожие работы
- Разработка и исследование модели текста для его категоризации
- Диалоговые алгоритмы поиска и навигации в автоматизированной системе текстового документооборота металлургического предприятия
- Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов
- Модели и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа
- Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность