автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка и исследование алгоритмов сравнения стилей текстовых произведений
Автореферат диссертации по теме "Разработка и исследование алгоритмов сравнения стилей текстовых произведений"
На правах рукописи
Шевелев Олег Геннадьевич
РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМОВ СРАВНЕНИЯ СТИЛЕЙ ТЕКСТОВЫХ ПРОИЗВЕДЕНИЙ
АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата
технических наук по специальности 05.13.18 — «Математическое моделирование, численные методы и комплексы программ»
Томск -2006
Работа выполнена в Томском государственном университете на кафедре прикладной информатики факультета информатики
Ведущая организация - Московский государственный университет.
Защита состоится 20 апреля 2006 г. в 14-00 на заседании диссертационного совета Д 212.267.08 в Томском государственном университете по адресу: г. Томск, пр. Ленина 36, корп. 2, ауд. 102.
С диссертацией можно ознакомиться в научной библиотеке Томского государственного университета.
Отзывы на автореферат (2 экз.), заверенные печатью, высылать по адресу: 634050, г. Томск, пр. Ленина, 36, ученому секретарю ТГУ.
Автореферат разослан 10 марта 2006 г.
Научный руководитель:
доктор технических наук, профессор Поддубный В.В.
Официальные оппоненты:
доктор технических наук, профессор Матросова А.Ю.
кандидат
физико-математических наук, доцент Новосельцев В.Б.
Ученый секретарь диссертационного совета, доктор технических наук, доцент
¿QOb±
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы
Проблема сравнения стилей текстовых произведений является актуальной в целом ряде областей человеческой деятельности. В исторических исследованиях сравнивать стили приходится для того, чтобы определить время написания того или иного исторического документа или установить личность его автора. В филологических дисциплинах -для изучения стилистических особенностей текстов или языка произведений различных жанров, авторов и т.д. В психологии и психиатрии сравнение стилей актуально при изучении мыслительной деятельности, тестировании и диагностике авторов текстов. Многие практические задачи сравнения стилей текстов возникают в криминалистике, например, для установления личности автора письменной угрозы или определения индивидуальных особенностей автора при проведении оперативно-розыскных мероприятий.
Количественные подходы к решению данных проблем в настоящее время особенно актуальны, так как они позволяют автоматизировать процедуру сравнения стилей текстов, дать формализованное объективное решение. Развитие этих подходов важно также и для информатики, поскольку с их помощью можно улучшить качество классификации и упорядочивания текстовых коллекций, что чрезвычайно актуально для поисковых систем и крупных хранилищ текстовых данных.
Сравнение стилей текстов проводится, как правило, на основе совокупности ряда признаков, отражающих свойства стилей текстов. Обычно рассматриваются частотные признаки (частоты появления определенных слов, буквосочетаний и др.), которые могут быть легко формализованы для проведения с их помощью количественного (частотного) анализа текстов.
На базе сравнения стилей текстовых произведений решаются три основные задачи: 1) проверка текстов на близость стилей или однородность по стилю, 2) кластеризация и 3) классификация текстов.
Проверкой текстов на близость стилей впервые занимались, в частности, Mendenhall Т.С., Морозов H.A., Фоменко Т.Г. и Фоменко В.П. Серьезный вклад в исследования по проверке однородности текстов внесли Morton A.Q., Ashford Т., Farringdon J.M., Ковалевский А.П. и др.
В рамках задачи кластеризации текстов применяются различные методы кластеризации (метод k-средних, метод ближайшего соседа, нейронные сети SOM и др.), а также их модификации. Иерархические методы кластеризации использовали в своих работах Leouski A.V., Croft W.B., Karger D.R., Pedersen J.O., Tukey J.W., Tantrum J., Murua A.,
РОС. НАЦИОНАЛЬНАЯ j библиотека J
I I1 *
Stuetzle W. Неиерархические методы кластеризации текстов исследовали Zhong S., Gosh J., Steinbach M., Karypis G., Kumar V. и др.
Наибольшее число работ в области сравнения стилей текстов посвящено задаче классификации текстов. Среди методов классификации рассматриваются нейронные сети (Matthews R., Merriam T., Kjell В., Tweedie F.J., Singh S., Holmes D.I., Lowe D., Matthews R.), метод опорных векторов (de Ve] O., Joachims T., Diederich J. J.), дискриминантный анализ (Baayen H., Tweedie F., Patton J.M., Can F.A, Peng R.D., Hengart-ner N.W.), метод сжатия данных (Frank E., Chui C., Witten I.H., Tea-han W.J., Хмелев Д., Benedetto D.), метод Хмелева Д., методы, основанные на извлечении правил (Apte С., Damerau F., Weiss S., Oakes M., Holden N., Freitas A.A.), и др.
В настоящее время существует ряд программных систем, позволяющих производить разнообразные виды анализа текстов. Наиболее известными среди таких систем являются «Лингвоанализатор» Д. Хмелева, информационная система «СМАЛТ», система «ВААЛ» 9.0, PolyAnalyst 4.6 (с модулем для работы с текстом TextAnalyst), система DICTUM.
Несмотря на множество работ по сравнению стилей текстов, имеется ряд не исследованных или мало исследованных областей. Нет работ по применению мер близости стилей текстов, основанных на точных статистических критериях сравнения частот появления признаков. Недостаточно исследованы зависимости качества классификации различными методами от объемов фрагментов и от числа классов. Нет исследований по сравнению качества классификации по сложным (в т.ч. грамматическим) признакам на размеченном и выверенном текстовом материале. Несмотря на то, что в ряде работ говорится об использовании свойств марковости текста, никто не проводил проверку последовательностей символов текста на марковость. В существующих программных продуктах нет механизма, обеспечивающего возможность задания признаков стилей текстов пользователем (а не выбора признаков из числа предлагаемых разработчиком). Наконец, имеющиеся программы анализа текстов не ориентированы на комплексное исследование и сравнение стилей текстов (для разных задач анализа стилей текстов с использованием различных методов их решения, различных частотных признаков, различного текстового материала и т.д.).
Решению задач, в той или иной степени заполняющих указанные пробелы, посвящена настоящая работа.
Цель работы
Целью работы является разработка алгоритмов и инструментария для сравнения стилей текстовых произведений. В рамках указанной цели поставлены и решены следующие задачи:
1) исследование качества работы ряда существующих методов математической статистики и искусственного интеллекта для сравнения стилей текстовых произведений по частотным признакам, задаваемым пользователем;
2) модификация известных и разработка новых мер сравнения частот для задач кластеризации и классификации текстов;
3) создание языка задания частотных признаков стилей текстовых произведений и его интерпретатора;
4) разработка и реализация программного комплекса для сквозного количественного анализа текстов от их первичной обработки до получения решений.
Методика исследований
Для решения задач, обеспечивающих достижение поставленной цели, использовались методы математической статистики, искусственного интеллекта, а также методы объектно-ориентированного программирования.
Научная новизна работы.
1. Предложены новые подходы для сравнения стилей текстов с использованием гипергеометрического критерия (двустороннего точного критерия Фишера) и критерия хи-квадрат по отдельным частотным признакам текстов, совокупности признаков, а также по их распределению.
2. Предложен новый подход к кластеризации текстов с использованием ранее не применявшихся в области обработки текстов таких мер сходства, как «частота рассогласования» (сложный признак) и интегральная мера рассогласования (совокупность признаков), получаемых на основе проверки гипотез о сходстве стилей текстов по частотным признакам.
3. Предложены модификации известного метода Хмелева классификации текстов по авторскому стилю с использованием для оценки расхождения частот мер Кульбака и хи-квадрат, а также модульных мер. Показано, что мера Хмелева является частным случаем меры Кульбака.
4. Доказана несостоятельность гипотезы о том, что последовательность символов текста обладает свойствами простой цепи Маркова.
5. Разработан оригинальный язык задания частотных признаков, позволяющий декларировать признаки и представлять их в виде шаблонов, пригодных для автоматического преобразования текстов к набору частот.
Практическая ценность работы
Разработанный программный комплекс «СтилеАнализатор» для анализа стилей текстов, обеспечивающий полный цикл проведения количественного анализа текстов, включающий предварительную обработку текстов, извлечение частотных признаков, их обработку и представление результатов в наглядном для человека виде, может быть широко использован специалистами в различных областях знаний (лингвистами, филологами, криминалистами, историками).
Положения, выносимые на защиту
1. Новые подходы для сравнения стилей текстов с использованием гипергеометрического критерия и критерия хи-квадрат по отдельным частотным признакам текстов, совокупности признаков, а также по их распределению.
2. Новый подход к кластеризации текстов на основе проверки гипотез о равенстве частотных признаков стилей текстов с использованием таких мер сходства, как «частота рассогласования» и интегральная мера рассогласования.
3. Модификации известного метода Хмелева с использованием для оценки расхождения частот мер Кульбака и хи-квадрат, а также модульных мер.
4. Доказательство несостоятельности гипотезы о том, что последовательность символов текста обладает свойствами простой цепи Маркова.
5. Язык задания частотных признаков стилей текстов.
6. Программный комплекс «СтилеАнализатор» для анализа стилей текстов.
Внедрение полученных результатов
Реализованный программный комплекс внедрен в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ.
Апробация работы
Результаты работы докладывались и обсуждались на следующих конференциях:
1. IV Межвузовская конференция студентов аспирантов и молодых ученых «Наука и образование», Томск, 2000.
2. V Общероссийская межвузовская конференция студентов, аспирантов и молодых ученных «Наука и образование», Томск, апрель 2001 г.
3. Нейроинформатика и ее приложения: XII Всероссийской семинар, Красноярск, октябрь 2004 г.
4. Информационные технологии и математическое моделирование:
III Всероссийская научно-практическая конференция, Анжеро-Судженск, декабрь 2004 г.
5. ХЫИ Международная научная студенческая конференция «Студент и научно-технический прогресс»: Информационные технологии, Новосибирск, апрель 2005 г.
6. XI Международная научно-практическая конференция студентов и молодых ученых «Современные техника и технологии СТТ2005», Томск, марта - апрель 2005 г.
7. IX Международная конференция студентов, аспирантов и молодых ученых «Наука и образование», Томск, апрель 2005 г.
8. Всероссийская научная конференция Квантитативная лингвистика: исследования и модели (КЛИМ - 2005), Новосибирск, июнь 2005 г.
9. Информационные технологии и математическое моделирование:
IV Всероссийская научно-практическая конференция, Анжеро-Судженск, ноябрь 2005 г.
Структура диссертации
Диссертация состоит из введения, основного текста, заключения, библиографического списка (135 наименований), и 5 приложений. Основной текст состоит из 3 глав и содержит 37 таблиц и 36 рисунков. Общий объем работы 176 страниц, включая 12 страниц приложений.
Публикации по теме работы
Основное содержание работы отражено в 16 публикациях, в т.ч. в 11 статьях.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
В первой главе диссертации проводится аналитический обзор имеющихся методов и программ количественного анализа текстов. Первые три пункта обзора касаются основных классов задач количественного анализа текстов - проверки текстов на близость стилей или однородность по стилю, кластеризации текстов и классификации текстов. Рассматриваются методы решения этих задач и исследования, в которых используются данные методы. Для исследований по возможности даются условия экспериментов: число классов, наборы признаков, используемый текстовый материал, приводятся результаты. В чет-
вертом пункте говорится о программных продуктах. В пятом - ставятся задачи исследования и разработок диссертации на основе выявленных не решенных проблем и их классификации.
Вторая глава посвящена алгоритмам и проведенным в работе исследованиям в области сравнения, кластеризации и классификации стилей текстов.
В п. 2.1 предлагаются подходы к сравнению стилей текстов на основе сравнения частот и распределений частот появления признаков стилей по статистическим критериям, предлагаются меры кластеризации, использующие результаты применения этих подходов.
Для сравнения стилей двух текстов по одному частотному признаку стиля предлагается использовать гипергеометрический критерий. В ходе сравнения стилей по данному критерию проверяется нулевая гипотеза о том, что тексты имеют одинаковый стиль по данному признаку, против альтернативы - тексты различаются по стилю. Достигнутый уровень значимости критерия рассчитывается по следующей формуле: пЦв.,')
Ро = Х1{Кх\^,п1,п2)<Н(т1 |^,и1,и2)},
х=тах(0,.у-л2)
где 5 = т1 + т2 , т1 и тг - числа появления признака в первом и втором тексте, щ и п2 - объемы текстов, Н(х |, «2 )=С* С*п~* /С^ +„2 —
гипергеометрическое распределение, х = тах(0,я -п7\ ттЦ, ж). Статистикой критерия является наблюдаемое значение х, то есть тх. Решение в пользу альтернативы принимается при значении достигнутого уровня значимости критерия меньше или равном альфа. При значении большем альфа оснований отвергнуть нулевую гипотезу нет.
Аналогичным образом предлагается делать сравнение стилей текстов по отдельным частотным признакам на основе критерия %2. Статистика критерия рассчитывается по формуле:
х2 _(т1-Е1У | {щ-т^-ЕгУ | (т2-ЕгУ ( (п2-т2-ЕАУ Е^ Е2 ¿'4
где Ег=(тх + т2)п1/п, Е2=(п-т1-т2)п1/п, Е3=(т1+тг)п2/п, Еа = («--тх -т2)п2/п - ожидаемые значения чисел событий при верной нулевой гипотезе. Достигнутый уровень значимости критерия вычисляется по формуле р0 = 1-/г(х2), где ^(х/ - интегральная функция распределения у} с одной степенью свободы при наблюдаемом значении статистики х2 •
С помощью критерия х предлагается также сравнение распределений частот признаков. Частоты признаков при этом должны соответствовать полной группе попарно несовместимых событий. Статистика критерия вычисляется по формуле:
N
Х2=1 (=1
/ / \ / >
щпг тЬ т2,
V , Щ, + Щ,, < П\ "2 , /
При верной распределение
нулевой гипотезе данная статистика имеет % -с числом степеней свободы, равным N -г -1, где х - число пар частот, в которых оба значения ть,тъ равны нулю.
Для проведения кластеризации набора из К текстов по отдельному признаку или распределению признаков предлагается следующий подход. Первоначально производится попарное сравнение всех текстов набора по одному из указанных выше критериев. В результате таких сравнений будет получено К2 достигнутых уровней значимости
\Poij >'1у = Эти значения размещаются в матрице, из которой при
индикаторная матрица у,.
>а>■ • гт!
состоящая из нулей
фиксированном допустимом уровне значимости критерия делается
= {°>Рои
[ Рву
и единиц. Нули в ней соответствуют принятию нулевой гипотезы, а единицы - альтернативы. Каждая строка этой матрицы представляет собой К-мерный булев вектор, компоненты которого характеризуют статистическую значимость различия вероятностей появления признака или распределений признаков для всех пар текстов. Далее, на основе меры расстояния строится матрица расстояний. В качестве меры расстояния между двумя текстами предлагается взять частоту несоответствия элементов строк этих текстов, вычисляемую по формуле:
гч
А к=1
где 1() - индикатор события, указанного в скобках. Эта мера обладает всеми свойствами расстояния, и на ее основе может быть корректно проведена кластеризация текстов (по расстоянию «частота несоответствия»), На основе матрицы расстояний производится иерархическая кластеризация текстов с помощью метода дальнего соседа. В результате получается дендрограмма кластеризации.
Дня кластеризации текстов по Ь различным признакам (не обязательно соответствующим полной группе попарно несовместимых событий) предлагается похожий подход, за тем исключением, что в ходе сравнений строится столько различных матриц, по скольким признакам производится сравнение, а в качестве меры используется мера интегрального рассогласования, которая вычисляется следующим образом: гу = уч . С использованием данной меры различие стилей
пары текстов определяется суммой всех различий (единиц) по всем индикаторным матрицам.
В завершение пункта по подходам к сравнению и кластеризации текстов по стилям в работе приводятся примеры кластеризации текстов по авторству. Показывается, что с помощью данных подходов можно получить группы текстов разной степени близости по стилю (рис. 1).
В п. 2.2 рассматривается использование деревьев решений для классификации текстов. В пп. 2.2.1-2.2.2 приводятся полученные формы алгоритмов построения деревьев решений и отсечения ветвей, удобные для реализации и применения в задачах классификации текстов по частотным признакам. Для построения дерева используется алгоритм С4.5. Для отсечения ветвей - алгоритм, основанный на статистическом тесте независимости, с использованием критерия х2.
В п. 2.2.3 приводятся результаты экспериментов по классификации текстов по авторству с помощью деревьев решений. В качестве текстового материала используются наборы художественных текстов 30, 20 и 10 авторов (русские классики и современники, общий объем примерно 50 Мб) и газетные статьи 10 журналистов (10 Мб). Для исследования зависимости качества классификации от объемов фрагментов рассматриваются различные наборы данных, в каждом из которых тексты разбиты на фрагменты определенной длины. Данные получены для трех наборов признаков: частот появления пар букв, частот появления 100 самых часто встречаемых словоформ из частотного словаря Шарова,
0 1 2 3 5 6 9 1011 1219
ДосгажФМ(О) ГончароеИА (9) ДостоееФМ (4) ДостоееФМ (б) ГончароеИА ЦЗ) ГончароеИА (11) ГончароеИА (6) ГончароеИА (7) ГончароеИА (8) ГончароеИА (10) -ГончароеИА (12) -ГончароеИА (14) • ГончароеИА (15) ДостоевФМ (1) ДостоевФМ (3) ■ ДостоевФМ (2) -ДоилагоеСД (16) ■ ДоолзговСД (20) -ДоелагоеСД (18) -ДоелагоеСД (19) -ДоелагоеСД (17) -
Рис. 1. Пример дендрограммы кластеризации
частот появления предложений с определенным числом слов. Длины фрагментов берутся в числах тех элементов, в которых задан признак (буквах, словах, предложениях). Всего рассматривается 146 наборов данных.
Качество классификации в ходе каждого эксперимента оценивается по частоте правильно классифицированных фрагментов на тестовой выборке. Каждый набор данных участвует в классификации 10 раз в соответствии с методом ¿-подмножеств. Суть метода состоит в разделении исходных данных на к равных частей и запуске (обучении и тестировании) алгоритма к раз, причем в ходе каждого запуска (А>1) частей участвует в обучении, одна - в тестировании, а тестовая часть постоянно меняется. В работе к выбрано равным 10.
Результатами тестирования в работе выступают средняя частота
рга правильных классификаций (среднее качество), полученное как среднеарифметическое каждого из к запусков алгоритма, и границы 95% интерквантильного интервала, задающие разброс частот. Для нормального распределения (а гипотеза о нормальности для исследуемых данных не отвергается) такие границы определяются интервалом
Рт ±2°-
Всего рассматривается 12 графиков зависимостей качества классификации от объемов текстовых фрагментов (3 набора признаков, 4 набора текстовых данных). Основной вывод состоит в том, что качество классификации растет в среднем с увеличением объемов фрагментов, причем на кривой роста четко выделяются две области: область быстрого роста при малых объемах фрагмента (меньше критического) и область практической стабилизации при больших объемах фрагментов (больше критического). Критическое значение объема имеет порядок 30000-40000 символов или 5000-6000 слов, или 400-600 предложений. В целом, по рассмотренным признакам деревья решений довольно плохо классифицируют тексты: даже в самом лучшем случае (10 классов) частота правильных классификаций сильно колеблется и в среднем не превышает 80%.
В п. 2.2.4 приведены графики зависимостей качества классификации от порога отсечения. Рассмотрено 11 различных порогов для разных комбинаций признаков и наборов данных и установлено, что на рассмотренных данных выбранный алгоритм отсечения не дает существенного увеличения частоты правильных классификаций.
В п. 2.2.5 приводятся исследования качества классификации текстов по жанровым типам с помощью деревьев решений. В качестве текстового материала взят грамматически размеченный корпус русских
газет конца XX века. Корпус предоставлен лабораторией общей и компьютерной лексикологии и лексикографии филологического факультета МГУ. Статьи корпуса сгруппированы в работе по жанровым типам, полученные массивы разбиты на фрагменты по 40000 символов и 6000 слов. Всего рассматривается 4 жанровых типа. Классификация производится по 14 наборам признаков: 5 - уровня букв, 5 наборов грамматических признаков и 4 набора словарных признаков. Вывод: деревья решений дают почти одинаковые низкие показатели частот правильных классификаций (примерно 50%±20%) по жанровым типам ядерного корпуса на любом из рассмотренных наборов признаков.
В п. 2.2.6 по тем же наборам признаков и на том же газетном корпусе проведены эксперименты по классификации текстов по 10 источникам газет. С учетом большего числа классов качество классификации с помощью деревьев решений по источникам газет заметно выше качества классификации по жанровым типам.
В п. 2.2.7 рассматривается подход к оценке индивидуальной информативности признаков на основе значения количества информации, используемого при построении деревьев решений. Получены 10 наиболее информативных признаков (в плане различения авторов) из 3-х рассмотренных наборов для разного числа авторов.
В п. 2.3 рассматривается перспективный метод Хмелева для классификации текстов. В ряде работ при упоминании данного метода нередко говорится о последовательности символов текста как о простой цепи Маркова. Но на деле это утверждение никем не проверено. Для его проверки в п. 2.3.1 предлагается два алгоритма проверки гипотезы о марковости последовательности символов текста - с применением критерия х2 и критерия доверительных интервалов - для сравнении матриц частот в левой и правой частях уравнения Колмогорова-Чепмена. Показывается, что гипотеза о марковости последовательности символов текста отвергается на уровне значимости, меньшем 5%, при объеме фрагментов 10-15 Кб для критерия х2 и 100-200 Кб для метода доверительных интервалов на большом количестве художественных текстов.
В п. 2.3.2 подробно рассматривается метод Хмелева. Ключевой идеей метода Хмелева является подсчет и обработка парных сочетаний элементов текста (например, букв). Обучение алгоритма производится на текстах заданного множества классов. Для каждого класса подсчи-тывается матрица-эталон появления всех пар рассматриваемых элементов в его текстах. При классификации произвольного текста под-считывается аналогичная матрица и сравнивается со всеми матрицами-эталонами. Рассматриваемый текст относится к классу с наиболее по-
хожей матрицей-эталоном. Сравнение матриц производится по мере Хмелева. В п. 2.3.2 показывается, что мера Хмелева является частным случаем меры Кульбака, а также предлагаются новые меры сравнения матриц частот появления признаков: безусловная мера Кульбака (далее, просто «мера Кульбака»), мера хи-квадрат и модульные варианты мер Хмелева и Кульбака. Особенностью данных мер является то, что они не используют специфическую информацию о частотах переходов, в отличие от меры Хмелева, поэтому могут работать с произвольными признаками.
В п. 2.3.3 приведены исследования по классификации текстов по авторству на том же материале, признаках и объемах, что и для деревьев решений, но для метода Хмелева и его модификаций. Найдены зависимости качества классификации от объемов фрагментов и числа классов. Показано, что использование метода Хмелева и мер Хмелева, модульной меры Кульбака и меры хи-квадрат дает примерно одинаковые результаты и позволяет с точностью до 100% классифицировать тексты по авторству. Меры же Кульбака (не модульная) и модульная Хмелева работают плохо. Качество классификации так же, как и для деревьев решений, растет в среднем с увеличением объемов фрагментов, но, начиная с критического значения, стабилизируется.
В п. 2.3.4 для метода Хмелева и его модификаций проведены исследования по классификации текстов по жанровым типам и источникам, аналогичные тем, что были проведены для деревьев решений. Выявлено, что меры Хмелева, хи-квадрат и модульная мера Кульбака работают примерно одинаково, мера Кульбака работает плохо. Метод Хмелева позволяет с довольно высоким качеством (75-100%) классифицировать газетные статьи по 4 жанровым типам. Наилучшие результаты классификации на всех наборах признаков достигнуты с использованием меры хи-квадрат. Метод Хмелева и некоторые его модификации позволяют с очень высоким качеством (99-100%) производить классификацию газетных статей по 10 источникам.
В п. 2.4 проведены эксперименты по классификации тех же текстов, что и для деревьев решений и метода Хмелева, по авторству с помощью нейронных сетей с различными параметрами сети. Выявлено, что на рассмотренном текстовом материале использование любого момента инерции или финального значения скорости обучения, меньшего единицы, почти всегда ухудшают качество классификации.
В п. 2.5 приводится сравнение рассмотренных методов классификации. Показывается, что метод Хмелева и его модификации выигрывают как в скорости обучения, так и в качестве классификации. Нейронные сети дают сопоставимое качество, но сильно проигрывают в ско-
роста. Деревья решений обеспечивают наихудшее качество классификации, но при этом дают наглядный вид решения и по ходу производят отбор самых информативных признаков.
В третьей главе диссертации приводится описание разработанного языка задания частотных признаков, его интерпретатора и разработанной программы анализа стилей текстов «СтилеАнализатор».
В п. 3.1 дается описание языка. В основе разработанного языка лежит взаимодействие с элементами текста, естественными для человека, такими как предложение, буква, слово и их последовательностями. Результаты выполнения запросов языка могут быть представлены в трех видах: таблице частотных данных, списке последовательностей данных, списке подходящих элементов. (
Запрос на разработанном языке состоит и набора признаков. При- '
знаки задаются набором однородных элементов. Элементы состоят из содержимого и свойств. В языке имеется три вида элементов: буквосочетания, слова, предложения. Содержимым элементов является последовательность элементов уровнем ниже. Свойства могут задавать общий вид элемента и указывать на позицию элемента в цепочке. Для элемента слова они могут задавать, например, длину слова в буквах, позицию слова в предложении.
Язык позволяет задавать как простые признаки (например, запрос для подсчета числа слов «он» в текстах), так и сложные, состоящие из нескольких элементов (например, запрос для подсчета предложений, включающих определенные слова). С помощью свойства «позиция по отношению к предыдущему элементу» можно задавать признаки появления связанных последовательностей элементов. Можно задавать сразу множество запросов с помощью механизма задания диапазонов (например, одним запросом можно задать сразу 1024 признака появления всех возможных сочетаний пар букв).
Интерпретатор языка реализован на Microsoft Visual С# .Net и является частью «СтилеАнализатора». В п. 3.1.3 дается описание устройства интерпретатора. Основными функциями интерпретатора являются: разбор строк запросов признаков и преобразование этих строк во внут- «
ренние структуры программы, просмотр текстов на предмет соответствия их элементов заданным признакам, формирование результатов в нужном для пользователя виде. В пункте описаны внутренние структу- •
ры программы, последовательность разбора отдельной строки запроса, процедура просмотра текста и формирования результатов.
В пп. 3.2-3.7 дается описание разработанного программного комплекса «СтилеАнализатор». Процесс исследований в «СтилеАнализа-торе» разделен на отдельные этапы. Каждый этап является относитель-
но независимым, предусматривает различные варианты исполнения, свой набор и формат представления данных, пригодные для использования на других этапах и в других программах. На первом, подготовительном этапе пользователь может сделать предварительную обработку текстов. Второй этап предусматривает извлечение частотных признаков текста или набора текстов. На третьем этапе исследователь, выбрав метод обработки, может привести к нужному виду или проанализировать полученные данные.
В программе можно работать как с обычными текстами, так и с размеченными, так называемыми вертикальными. Вертикальный текст, основная структура которого взята из программы DICTUM, помимо самого текста содержит служебную информацию и дополнительную информацию о словах (нормальную форму слова, грамматические характеристики). В «СтилеАнализаторе» можно просматривать вертикальный текст, редактировать его свойства, размечать диалоги, разбивать файл вертикального текста на отдельные тексты с различным видом группировок, разбивать текст на фрагменты по главам, частям, задавать сложные грамматические признаки на основе информации в вертикальном тексте.
Для извлечения частотных признаков в программе имеется диалоговое окно, где пользователь может выбрать текст или список текстов, добавить, удалить или изменить признак, очистить список, сохранить список признаков в файл и т.д. При добавлении признака открывается форма, которая для удобства задания признаков содержит кнопки-макросы. После запуска подсчета открывается форма, на которой отображается время начала подсчета, текущий обрабатываемый текст, фрагмент, время окончания подсчета.
При извлечении признаков одновременно с созданием таблицы результатов создается описание данных, представленное в виде небольшой базы данных XML. Эта база содержит информацию о текстах и фрагментах, такую как путь к файлу с текстом, имя автора, название, жанровый тип, дату публикации и источник публикации, номер фрагмента в тексте, размеры фрагмента и т.д. Эта информация используется в ходе анализа данных.
В программе имеется функции предобработки таблиц частотных данных и списка последовательностей данных. Можно преобразовывать списки частотных данных в таблицы, фильтровать таблицы по признакам (т.е. столбцам) с учетом информативности, фильтровать по блокам, разделять случайным образом данные на тестовую и обучающую выборки.
Исходными данными для анализа в программе являются таблицы частотных данных. Для проведения анализа имеется форма, в которой собраны все основные методы анализа. В данной форме можно выбрать анализируемые таблицы, задачу анализа, метод для решения данной задачи и его параметры, виды представления результата и т.д.
Задачи анализа разделены на две большие подгруппы: решаемые с помощью одношаговых и многошаговых алгоритмов. На базе одноша-говых алгоритмов реализованы задачи сравнения частот появления признаков по различным критериям, иерархическая кластеризация текстов, классификация текстов с помощью деревьев решений, классификация на основе метода Хмелева и его модификаций.
На базе многошаговых алгоритмов реализована классификация тек- '»
стов на основе нейронных сетей прямого распространения. В программе имеется возможность задания числа слоев и нейронов сети, этапов обучения сети, числа итераций, скорости обучения и т.п.
В заключении подводятся итоги проделанной работы.
1. Предложены новые подходы для сравнения стилей текстов по частотным признакам с использованием гипергеометрического критерия (двустороннего точного критерия Фишера) и критерия хи-квадрат.
2. Предложен новый подход к кластеризации текстов с использованием мер сходства «частота рассогласования» и интегральная мера рассогласования, получаемых на основе проверки гипотез о сходстве стилей текстов по частотным признакам.
3. Проведены исследования зависимости от объемов текстовых фрагментов качества классификации текстов по авторству с помощью деревьев решений. Показано, что качество классификации сначала растет в среднем с увеличением объемов фрагментов, а затем стабилизируется.
4. Проведены исследования по классификации с помощью деревьев решений текстов газетных статей по жанровым типам, источникам и различным наборам признаков. Установлено, что качество классификации с помощью деревьев решений является в целом не высоким, ела- 4 бо зависит от набора признаков и по источникам несколько выше, чем
по жанровым типам.
5. Предложены модификации метода Хмелева с использованием для оценки расхождения частот мер Кульбака и хи-квадрат, а также модульных мер. Показано, что мера Хмелева является частным случаем меры Кульбака.
6. Показано, что последовательность символов текста не обладает свойствами простой цепи Маркова.
7. Проведены исследования качества классификации текстов по авторству с помощью метода Хмелева и его модификаций в зависимости от объемов фрагментов. Показано, что, как и в случае использования деревьев решений, качество классификации сначала растет в среднем с увеличением объемов фрагментов, а затем стабилизируется.
8. Проведены исследования по классификации с помощью метода Хмелева и его модификаций текстов газетных статей по жанровым типам и источникам. Показано, что их применение позволяет с высоким качеством производить классификацию и по жанровым типам (75100%), и по источникам (99-100%).
9. Произведено сравнение рассмотренных методов классификации текстов. Показано, что нейронные сети и метод Хмелева дают примерно одинаковые высокие показатели качества, а деревья решений - самые низкие показатели качества.
10. Разработан язык задания частотных признаков и реализован интерпретатор с этого языка.
11. Создан программный комплекс «СтилеАнализатор» для анализа стилей текстов.
В приложениях приводится список рассмотренных в работе наборов признаков стилей текстов, список авторов, текстов и объемов текстов из набора 156 художественных произведений, список журналистов, число и общий объем их статей из набора 5697 газетных текстов, использованных в главе 2 диссертации, количественные характеристики реализации программного комплекса «СтилеАнализатор», а также акты о внедрении и использовании разработанного комплекса.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Поддубный В.В., Шевелев О.Г. Кластеризация объектов по мерам сходства частот событий // Обработка данных и управление в сложных системах: Сборник статей / Под ред. А.Ф. Терпугова. -Томск: Изд-во Том. ун-та, 2005. - Вып. 7. - С. 175-185.
2. Поддубный В. В., Шевелев О. Г. О мерах расстояния при кластеризации текстов по частотным признакам // Обозрение прикладной и промышленной математики, 2005, Т. 12. - Вып. 2. - С. 478.
3. Поддубный В.В., Шевелев О.Г. Кластеризация объектов по частотам событий // IV Всероссийская ФАМ конференция (25-27 февраля 2005 г.): Тезисы докладов / Под ред. к.ф.-м.н. Д.В. Семеновой. - Красноярск: Красноярский гос. ун-т, 2005. - С. 67-68.
4. Поддубный В. В., Шевелев О.Г. Образует ли последовательность символов текста простую цепь Маркова? // Информационные технологии и математическое моделирование (18-19 ноября 2005 г.):
Материалы IV Всероссийской научно-практической конференции, Ч. 2. - Томск: Изд-во Том. ун-та, 2005. - С. 14-16.
5. Поддубный В.В., Шевелев О.Г. Сравнение и кластерный анализ текстов по частотным признакам на основе гипергеометрического критерия // Квантитативная лингвистика: исследования и модели (КЛИМ -2005, 6-10 июня 2005 г.): Материалы Всероссийской научной конференции. - Новосибирск: Изд-во НГПУ, 2005. - С. 205-217.
6. Поддубный В.В., Шевелев О.Г. Сравнение стилей текстовых произведений по частотному признаку на основе гипергеометрического критерия // Теоретическая и прикладная информатика: Сборник статей / Под ред. А.Ф. Терпугова. - Томск: Изд-во Том ун-та, 2004, Вып. 1.-С. 101-110.
7. Поддубный В.В., Шевелев О.Г. Сравнительный анализ стилей ' текстов по частотным признакам на основе гипергеометрического критерия // Информационные технологии и математическое моделирование (11-12 декабря 2004 г.): Материалы III Всероссийской научно-практической конференции, Ч. 2. - Томск: Изд-во Том. ун-та, 2004. -
С. 48-51.
8. Тютерев В.В., Шевелев О.Г., Анализ текстов с помощью семантических карт нейронных сетей топографического отображения // Ней-роинформатика и ее приложения: Материалы ЕХ Всероссийского семинара / Под ред. А.Н. Горбаня; Отв. за выпуск Г.М. Цибульский. - Красноярск: ИПЦ КГТУ, 2001. -С. 199-200.
9. Тютерев В.В., Шевелев О.Г. Использование нейронных сетей вТМ для редукции многомерных пространств // V Общероссийская межвузовская конференция студентов, аспирантов и молодых ученных «Наука и образование» (23-26 апреля 2001 г.): Материалы конференции в 5 т., Т. 1. - Томск: Изд-во Томского государственного педагогического университета, 2003. - С. 188-192.
Ю.Шевелев О.Г. Анализ частоты встречаемости различных длин предложений в литературном тексте как возможной характеристики авторского стиля с помощью самоорганизующихся карт Кохонена // Нейроинформатика и ее приложения (1-3 октября 2004 г.): Материалы 4
XII Всероссийского семинара / Под ред. А.Н. Горбаня, Е.М. Миркеса. - Красноярск: ИВМ СО РАН, 2004. - С. 177-178.
П.Шевелев О.Г., Бурков Д.В. Предобработка текстов для целей лингвистического анализа. // IX Всероссийская конференция студентов, аспирантов и молодых ученых «Наука и образование» (25-29 апреля 2005 г.): Материалы конференции в 6 т., Т.1, 4.2: Естественные и точные науки, инновационные технологии. - Томск: Изд-во ТГТ1У, 2005.-С. 53-58.
12. Шевелев О.Г. Общая схема программного комплекса для проведения стилеметрических исследований II Материалы XLIII Международной научной студенческой конференции «Студент и научно-технический прогресс»: Информационные технологии. - Новосибирск: Новосибирский гос. ун-т, 2005. - С. 244-245.
13. Шевелев О.Г. Представление набора текстов в реляционной базе данных для целей лингвистического анализа // Вестник Томского государственного университета, 2004, № 284. - С. 225-229.
14. Шевелев О.Г. Преобразование текстов к набору частотных признаков для проведения лингвистических исследований // XI Международная научно-практическая конференция студентов, аспирантов и молодых ученых «Современные техника и технологии» (29 марта - 2 апреля 2005 г.): Труды конференции в 2-х т. - Томск: Изд-во Томского политехи, ун-та, 2005. - Т.2. - С. 264-267.
15. Шевелев О.Г., Тютерев В.В. Многослойные персептроны в задаче разрешения спорного авторства текста // Сборник трудов научно-технической конференции «Нейроинформатика-2003» (29-31 января 2003 г.), 4.2. - М.: МИФИ, 2003. - С. 206-212.
16. Шевелев О.Г. Энтропийный отбор входов нейронной сети в задаче классификации текстов по авторству // Нейроинформатика и ее приложения (7-9 октября 2005 г.): Материалы XIII Всероссийского семинара / Под ред. А.Н.Горбаня, Е.М. Миркеса. - Красноярск: ИВМ СО РАН, 2005.-С. 131-132.
Отпечатано на участке оперативной полиграфии Редакционно-издательского отдела ТГУ Лицензия ПД №00208 от 20 декабря 1999 г.
Заказ № 33 от " 06" ОЪ 2006 г. Тираж 100 экз.
¿û06A
5635
Оглавление автор диссертации — кандидата технических наук Шевелев, Олег Геннадьевич
Введение.
1. Обзор методов и программ количественного анализа текстов и постановка задач исследований и разработок.
1.1. Проверка текстов на близость стилей или однородность по стилю.
1.2. Кластеризация текстов.
1.3. Классификация текстов.
1.4. Программные продукты.
1.5. Постановка задач исследований и разработок.
2. Методы и алгоритмы сравнения стилей текстов по частотным признакам.
2.1. Сравнение стилей текстов по частотам появления признаков на основе статистических критериев.
2.1.1. Гипергеометрический критерий (двусторонний точный критерий Фишера).
2.1.2. Критерий хи-квадрат.
2.1.3. Сравнение распределений по критерию хи-квадрат.
2.1.4. Метод кластеризации текстов по частотным признакам.
2.1.5. Примеры анализа текстов.
2.2. Классификация текстов с помощью деревьев решений.
2.2.1. Алгоритм построения дерева решений.
2.2.2. Оверфиттинги отсечение.
2.2.3. Классификация по авторству. Влияние объемов фрагментов.
2.2.4. Классификация по авторству. Влияние порога отсечения.
2.2.5. Классификация по жанровым типам.
2.2.6. Классификация по источникам газет.
2.2.7. Оценка информативности признаков.
2.3. Классификация текстов с помощью метода Хмелева и его модификаций.
2.3.1. Проверка марковости текстов.
2.3.2. Мера Хмелева и альтернативные ей меры.
2.3.3. Классификация по авторству. Влияние объема фрагментов.
2.3.4. Классификация по жанровым типам.
2.3.5. Классификация по источникам газет.
2.4. Классификация текстов с помощью нейронных сетей прямого распространения.
2.4.1. Нормализация данных.
2.4.2. Алгоритм обучения.
2.4.3. Классификация по авторству. Вычислительные эксперименты.
2.5. Сравнение рассмотренных методов классификации.
2.6. Выводы.
3. Инструментарий анализа стилей текстов «СтилеАнализатор».
3.1. Язык задания частотных признаков.
3.1.1. Схема извлечения частотных признаков текстов.
3.1.2. Формат запроса. Язык задания частотных признаков.
3.1.3. Устройство интерпретатора языка.
3.2. Общая схема количественного анализа текстов в программе «СтилеАнализатор».
3.3. Работа с вертикальным текстом.
3.4. Предварительная обработка текстов.
3.5. Извлечение частотных признаков текстов.
3.5.1. Пользовательский интерфейс.
3.5.2. Привязка количественных данных к фрагментам текстов.
3.6. Предварительная обработка количественных данных.
3.7. Анализ частотных данных.
3.8. Выводы.
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Шевелев, Олег Геннадьевич
Текст, как и многие другие виды представления информации, поддается анализу. Одной из возможных форм анализа текста является анализ его стиля.
Проблема анализа и сравнения стилей текстовых произведений является актуальной в филологических дисциплинах, изучающих стилистические особенности как текстов вообще, так и языка литературных произведений различных жанров, различных авторов, языковых диалектов и т.д., а также в психологии и теории искусственного интеллекта при изучении и моделировании мыслительной деятельности. Многие практические задачи сравнения стилей текстовых документов возникают в судебной практике и криминалистике.
Сравнивать стили текстов приходится в исторических исследованиях, чтобы определить время написания того или иного исторического документа, установить личность его автора. Наиболее известные среди этих исследований - атрибуция писем и эпиграмм Платона, анализ двенадцати спорных статей из «Бумаг республиканцев» (Federalist papers), автором которых может быть как Дж. Мэдисон, так и А. Гамильтон.
В литературоведческой практике сравнение стилей также необходимо для установления спорного авторства литературных произведений. Широко известен, например, спор об авторстве «Тихого Дона», произведений Шекспира. Не установлено точно авторство некоторых анонимных и псевдонимных публицистических статей, автором которых предположительно является Ф.М. Достоевский, ставится под сомнение авторство некоторых текстов М. Е. Салтыкова-Щедрина и т.д.
Алгоритмы сравнения стилей текстов важны также для информатики, поскольку с их помощью можно улучшить качество классификации и упорядочивания текстовых коллекций, что чрезвычайно актуально для постоянно расширяющейся сети Интернет.
Сравнение стилей текстов проводится, как правило, на основе совокупности ряда признаков («авторских инвариантов» и т.п.), отражающих свойства стилей текстов. Некоторые из этих признаков носят качественный характер и плохо поддаются формализации, хотя могут и обладать мощной разделительной способностью. Такие признаки условно назовем вербальными. Многие другие признаки (например, частоты появления определенных слов, знаков препинания, различных буквосочетаний) могут быть формализованы, что позволяет производить с их помощью количественный (частотный) анализ текстов.
АКТУАЛЬНОСТЬ РАБОТЫ
На базе сравнения стилей текстовых произведений решаются задачи проверки текстов на близость стилей или однородность по стилю, задача классификации и задача кластеризации текстов.
Проверкой текстов на близость стилей, в частности, занимались Mendenhall Т.С. [109], Морозов Н.А. [21], Фоменко Т.Г. и Фоменко В.П. [48]. Исследования по проверке однородности текстов проводили Morton A.Q. [112], Ashford Т. [68], Farringdon J.M. [86], Ковалевский А.П. [12] и др.
В рамках задачи кластеризации текстов в существующих публикациях рассмотрены различные известные методы кластеризации (метод k-средних, метод ближайшего соседа, метод центроидов, нейронные сети SOM и др.), а также их модификации. Иерархические методы кластеризации, в частности, использовали в своих работах Leouski
A.V., Croft W.B. [105], Beil F., Ester M., Xu X. [71], Cutting D. R., Karger D. R., Pedersen J. O., Tukey J. W. [79], Tantrum J., Murua A., Stuetzle W. [125]. Неиерархические методы кластеризации текстов исследовали в своих работах Zhong S., Gosh J. [135], Choudhary,
B., Bhattacharyya, P. [77], Steinbach M., Karypis G., Kumar V. [124] и др.
Наибольшее число работ в области сравнения стилей текстов посвящено задаче классификации текстов. В имеющихся публикациях рассматриваются различные методы классификации текстов. Среди них нейронные сети (Matthews R., Merriam Т. [107, 110], Kjell В. [100, 101, 102], Tweedie F.J., Singh S., Holmes D.I. [131], Lowe D., Matthews R. [106]), метод опорных векторов (de Vel О. [81], Joachims Т. [97], Diederich J. J. [82]), дискриминантный анализ (Baayen H., Tweedie F. [69], Patton J.M., Can F.A [116], Peng R.D., Hengartner N.W. [117]), метод сжатия данных (Frank E., Chui C., Witten I.H. [88], Teahan W.J. [126, 127], Хмелев Д. [49], Benedetto D. [73]), метод Хмелева Д. [18, 50], методы, основанные на извлечении правил (Apte С., Damerau F., Weiss S. [66, 67], Oakes M. [114], Holden N., Freitas A.A. [92]), и др.
Существует ряд программных систем, позволяющих производить разнообразные виды анализа текстов. Наиболее известными среди таких систем являются «Лингвоана-лизатор» Д.Хмелева [50], информационная система «СМАЛТ» [35, 37, 38], система «ВААЛ» 9.0 [34], PolyAnalyst 4.6 [39] (с модулем для работы с текстом TextAnalyst [40]), система DICTUM [103].
Несмотря на множество работ по сравнению стилей текстов, имеется ряд областей исследований, которые не затрагивались в других публикациях.
В сфере проверки текстов на близость стилей и кластеризации текстов неисследованным остается применение мер близости, основанных на точных статистических критериях сравнения частот появления признаков стилей.
В сфере классификации текстов остаются недостаточно исследованными зависимости качества классификации различными методами от объемов фрагментов, от числа классов. Нет исследований по сравнению качества классификации по различным сложным (в том числе грамматическим) признакам на размеченном и выверенном текстовом материале, исключающем ошибки разметки.
Несмотря на то, что в ряде работ говорится об использовании свойств марковости текста, никем не проводилось исследование того, является ли последовательность символов текста действительно реализацией простой цепи Маркова.
Все существующие программные реализации методов анализа текстов используют встроенный набор признаков стилей текстов, что не позволяет гибко менять признаки в ходе исследований и исключает возможность задания признаков пользователем, а не разработчиком. В частности, это относится и к одной из лучших программных реализаций систем классификации текстов - «Лингвоанализатора» Хмелева. Поэтому актуальным является создание механизма (лучше всего специализированного языка), обеспечивающего возможность задания пользователем любых желаемых признаков стилей текстов из достаточно широкого класса признаков.
Наконец, имеющиеся программные реализации систем анализа текстов не ориентированы на комплексное исследование и сравнение стилей текстов (для разных задач анализа текстов, с использованием различных методов их решения, различных частотных признаков, различного текстового материала). Поэтому актуальным является создание программной системы, позволяющей проводить подобные исследования.
ЦЕЛЬ РАБОТЫ
Целью работы является разработка алгоритмов и инструментария для сравнения стилей текстовых произведений. В рамках указанной цели поставлены и решены следующие задачи:
1) исследование качества работы ряда существующих методов математической статистики и искусственного интеллекта для сравнения стилей текстовых произведений по частотным признакам, задаваемым пользователем;
2) модификация известных и разработка новых мер сравнения частот для задач кластеризации и классификации текстов;
3) создание языка задания частотных признаков стилей текстовых произведений и его интерпретатора;
4) разработка и реализация программного комплекса для сквозного количественного анализа текстов от их первичной обработки до получения решений.
МЕТОДИКА ИССЛЕДОВАНИЙ
Для решения задач, обеспечивающих достижение поставленной цели, использовались методы математической статистики, искусственного интеллекта, а также методы объектно-ориентированного программирования.
НАУЧНАЯ НОВИЗНА РАБОТЫ
1. Предложены новые подходы для сравнения стилей текстов с использованием гипергеометрического критерия (двустороннего точного критерия Фишера) и критерия хи-квадрат по отдельным частотным признакам текстов, совокупности признаков, а также по их распределению.
2. Предложен новый подход к кластеризации текстов с использованием ранее не применявшихся в области обработки текстов таких мер сходства, как «частота рассогласования» (сложный признак) и интегральная мера рассогласования (совокупность признаков), получаемых на основе проверки гипотез о сходстве стилей текстов по частотным признакам.
3. Предложены модификации известного метода Хмелева классификации текстов по авторскому стилю с использованием для оценки расхождения частот мер Кульбака и хи-квадрат, а также модульных мер. Показано, что мера Хмелева является частным случаем меры Кульбака.
4. Доказана несостоятельность гипотезы о том, что последовательность символов текста обладает свойствами простой цепи Маркова.
5. Разработан оригинальный язык задания частотных признаков, позволяющий декларировать признаки и представлять их в виде шаблонов, пригодных для автоматического преобразования текстов к набору частот.
ПРАКТИЧЕСКАЯ ЦЕННОСТЬ РАБОТЫ
Разработанный программный комплекс «СтилеАнализатор» для анализа стилей текстов, обеспечивающий полный цикл проведения количественного анализа текстов, включающий предварительную обработку текстов, извлечение частотных признаков, их обработку и представление результатов в наглядном для человека виде, может быть широко использован специалистами в различных областях знаний (лингвистами, филологами, криминалистами, историками).
ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ
1. Новые подходы для сравнения стилей текстов с использованием гипергеометрического критерия и критерия хи-квадрат по отдельным частотным признакам текстов, совокупности признаков, а также по их распределению.
2. Новый подход к кластеризации текстов на основе проверки гипотез о равенстве частотных признаков стилей текстов с использованием таких мер сходства, как «частота рассогласования» и интегральная мера рассогласования.
3. Модификации известного метода Хмелева с использованием для оценки расхождения частот мер Кульбака и хи-квадрат, а также модульных мер.
4. Доказательство несостоятельности гипотезы о том, что последовательность символов текста обладает свойствами простой цепи Маркова.
5. Язык задания частотных признаков стилей текстов.
6. Программный комплекс «СтилеАнализатор» для анализа стилей текстов.
ВНЕДРЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ
Реализованный программный комплекс внедрен в лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ.
ПУБЛИКАЦИИ ПО РАБОТЕ
Основное содержание работы отражено в 16 публикациях, в т.ч. в 11 статьях [25, 29-31, 45, 54-55, 57-60] и в 5 докладах на конференциях [26-28, 44, 56].
АПРОБАЦИЯ РАБОТЫ
Результаты работы докладывались и обсуждались на следующих конференциях:
1. IV Межвузовская конференция студентов аспирантов и молодых ученых «Наука и образование», Томск, 2000.
2. V Общероссийская межвузовская конференция студентов, аспирантов и молодых ученных «Наука и образование», Томск, апрель 2001 г.
3. Нейроинформатика и ее приложения: XII Всероссийской семинар, Красноярск, октябрь 2004 г.
4. Информационные технологии и математическое моделирование: III Всероссийская научно-практическая конференция, Анжеро-Судженск, декабрь 2004 г.
5. XLIII Международная научная студенческая конференция «Студент и научно-технический прогресс»: Информационные технологии, Новосибирск, апрель 2005 г.
6. XI Международная научно-практическая конференция студентов и молодых ученых «Современные техника и технологии СТТ'2005», Томск, марта - апрель 2005 г.
7. IX Международная конференция студентов, аспирантов и молодых ученых «Наука и образование», Томск, апрель 2005 г.
8. Всероссийская научная конференция Квантитативная лингвистика: исследования и модели (КЛИМ - 2005), Новосибирск, июнь 2005 г.
9. Информационные технологии и математическое моделирование: IV Всероссийская научно-практическая конференция, Анжеро-Судженск, ноябрь 2005 г.
БЛАГОДАРНОСТИ
Автор выражает глубокую благодарность научному руководителю Поддубному В.В. за сотрудничество, помощь и поддержку в работе, Тютереву В.В. за сотрудничество на ранних этапах работы, Поликарпову А А., Кукушкиной О.В., Макарову А.Г. за обсуждение результатов работы и предоставление грамматически размеченного газетного корпуса, Сущенко С.П., Фукс И.Л. за поддержку, Скворцова А.В. за помощь и ценные советы, ФедякинаМ.В. за предоставление набора газетных текстов и обсуждение результатов.
Заключение диссертация на тему "Разработка и исследование алгоритмов сравнения стилей текстовых произведений"
3.8. Выводы
1. Разработан оригинальный язык задания частотных признаков, позволяющий декларировать сложные (в том числе грамматические) признаки элементов и последовательностей элементов текста различного уровня (букв, слов, предложений) и представлять эти признаки в виде шаблонов, пригодных для автоматического преобразования текстов к набору частот (пункт 3.1.2).
2. Разработан и реализован интерпретатор языка задания частотных признаков (пункт 3.1.3).
3. Создан программный комплекс для сравнения стилей текстов «СтилеАнализа-тор» (пункты 3.2-3.8), позволяющий проводить полный цикл анализа текстов, включая предварительную обработку текстов и их приведение к количественному виду (путем задания частотных признаков на разработанном языке), обработку полученных количественных данных, анализ этих данных с помощью различных методов (иерархического кластерного анализа по различным мерам, деревьев решений, метода Хмелева и его модификаций, нейронных сетей прямого распространения), представление в различных удобных для анализа видах, сохранение и загрузку промежуточных и конечных результатов обработки.
ЗАКЛЮЧЕНИЕ
Подробные выводы представлены в работе по главам. Здесь приведем только основные результаты.
1. Предложены новые подходы для сравнения стилей текстов по частотным признакам с использованием гипергеометрического критерия (двустороннего точного критерия Фишера) и критерия хи-квадрат.
2. Предложен новый подход к кластеризации текстов с использованием мер сходства «частота рассогласования» и интегральная мера рассогласования, получаемых на основе проверки гипотез о сходстве стилей текстов по частотным признакам.
3. Проведены исследования зависимости от объемов текстовых фрагментов качества классификации текстов по авторству с помощью деревьев решений. Показано, что качество классификации сначала растет в среднем с увеличением объемов фрагментов, а затем стабилизируется.
4. Проведены исследования по классификации с помощью деревьев решений текстов газетных статей по жанровым типам, источникам и различным наборам признаков. Установлено, что качество классификации с помощью деревьев решений является в целом не высоким, слабо зависит от набора признаков и по источникам несколько выше, чем по жанровым типам.
5. Предложены модификации метода Хмелева с использованием для оценки расхождения частот мер Кульбака и хи-квадрат, а также модульных мер. Показано, что мера Хмелева является частным случаем меры Кульбака.
6. Показано, что последовательность символов текста не обладает свойствами простой цепи Маркова.
7. Проведены исследования качества классификации текстов по авторству с помощью метода Хмелева и его модификаций в зависимости от объемов фрагментов. Показано, что, как и в случае использования деревьев решений, качество классификации сначала растет в среднем с увеличением объемов фрагментов, а затем стабилизируется.
8. Проведены исследования по классификации с помощью метода Хмелева и его модификаций текстов газетных статей по жанровым типам и источникам. Показано, что их применение позволяет с высоким качеством производить классификацию и по жанровым типам (75-100%), и по источникам (99-100%).
9. Произведено сравнение рассмотренных методов классификации текстов. Показано, что нейронные сети и метод Хмелева дают примерно одинаковые высокие показатели качества, а деревья решений - самые низкие показатели качества.
10. Разработан язык задания частотных признаков и реализован интерпретатор с этого языка.
11. Создан программный комплекс «СтилеАнализатор» для анализа стилей текстов. I
Библиография Шевелев, Олег Геннадьевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Аптон Г. Анализ таблиц сопряженности. М.: Финансы и статистика, 1982. - 144 с.
2. Головин Б.Н. Язык и статистика. М.: Изд-во «Просвещение», 1971.- 189с.
3. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. Изд. 4-е. М.: Наука (Гл. ред. физ.-мат. лит.), 1962. - 1100с.
4. Жамбю М. Иерархический кластер-анализ и соответствия. М.: Финансы и статистика, 1988.-342 с.
5. Журавлев А.П. Фонетическое значение. Л.: Изд-во Ленингр.ун-та, 1974. -160с.
6. Закс Л. Статистическое оценивание. М.: Статистика, 1976. - 600 с.
7. Нейман Ю. Вводный курс теории вероятностей и математической статистики. М.: Наука (Гл. ред. физ.-мат. лит.), 1968. - 448 с.
8. Кендэлл М. Дж., Стьюарт А. Теория распределений. М.: Наука (Гл. ред. физ.-мат. лит.), 1968. - 588 с.
9. Кемени Дж., Снелл Дж. Конечные цепи Маркова. М.: Наука, 1982.
10. Короткий С. Нейронные сети: алгоритм обратного распространения Электронный ресурс. Режим доступа: http://www.orc.ru/~stasson/n2.zip, свободный.
11. Крамер Г. Математические методы статистики. М.: Мир, 1976. - 648 с.
12. Красноперова М.А. Модели лингвистической поэтики. Ритмика. -JL: Ленинградский университет, 1989. 87 с.
13. Короткий С. Нейронные сети: алгоритм обратного распространения Электронный ресурс. Режим доступа: http://www.orc.ru/~stasson/n2.zip, свободный.
14. Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. 2001. - Т. 37. - Вып. 2. - С.96-109.
15. Кульбак С. Теория информации и статистика. М.: Наука, 1967.
16. Марков А.А. Об одном применении статистического метода. // Известия Имп. Акад.наук. серия VI. - Т.Х. - N4. - 1916. - с.239.
17. Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного неизвестного автора. Стилеметриче-ский этюд. // Известия отд. русского языка и словесности Имп. Акад.наук. Т.ХХ. -кн.4. -1915.
18. Олдендерфер М.С., Блашфилд Р.К. Кластерный анализ // В кн.: Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989. -216 с.
19. Поддубный В.В. Максимально правдоподобное полиномиальное сглаживание рядов эмпирических частот //Обработка данных и управление в сложных системах. Вып. 5 /Под ред. проф. А. Ф. Терпугова. Томск: Изд-во Томск, ун-та, 2003. - 2003. - С. 171-182.
20. Поддубный В.В., Шевелев О.Г. Кластеризация объектов по мерам сходства частот событий // Обработка данных и управление в сложных системах: Сборник статей 024 / Под ред. А.Ф. Терпугова. Томск: Изд-во Том. ун-та, 2005. - Вып. 7. -175-185 с.
21. Поддубный В. В., Шевелев О. Г. О мерах расстояния при кластеризации текстов по частотным признакам // Обозрение прикладной и промышленной математики, 2005, Т. 12. Вып. 2. - С. 478.
22. Поддубный В.В., Шевелев О.Г. Кластеризация объектов по частотам событий // IV Всероссийская ФАМ конференция: Тезисы докладов, 25-27 февраля 2005 г. / под ред. к.ф.-м.н. Д.В. Семеновой. Красноярск: Красноярский гос. ун-т, 2005.- С. 67-68.
23. Программа «Худломер» Электронный ресурс. Режим доступа: http://teneta.rinet.ru/hudlomer/, свободный.
24. Прохоров А.В. Маркова цепь // Математический энциклопедический словарь. М.: Советская Энциклопедия, 1988. - С. 336-337.
25. Психолингвистическая экспертная система «ВААЛ». Руководство пользователя, Москва 2002 Электронный ресурс. Режим доступа: http://www.vaal.ru/prog/guide.zip, свободный.
26. Сидоров Ю.В. Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров. Автореф. дис. канд. тех. наук. Петр-ск, 2002. -19 с.
27. Система PolyAnalyst. Описание Электронный ресурс. Режим доступа: http://www.megaputer.ru. свободный.
28. Система TextAnalyst. Описание Электронный ресурс. Режим доступа: http://www.megaputer.com/products/ta/index.php3, свободный.
29. Солганик Г.Я. Стилистика текста. М.: Наука, 2005. - 253 с.
30. Справочник по прикладной статистике / Под ред. Э.Ллойда, У.Ледермана. Том 1. М.: Финансы и статистика, 1989. - 512с.
31. Тютерев В.В., Новосельцев В.Б., Теория нейронных сетей, Томск: Изд. Томского государственного университета, 2000. - 56с.
32. Уоссермен Ф., Нейрокомпьютерная техника. М.: Мир, 1992.
33. Ежов А.А., Шумский С.А. Нейрокомпьютинг и его применения в экономике и бизнесе. М.: МИФИ, 1998. - 222 с.
34. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Предисловие А.Т. Фоменко // Фоменко А.Т. Новая хронология Греции: Античность в средневековье. Т. 2. М.: Изд-во МГУ, 1996. - С.168-820.
35. Хмелев Д.В. Классификация и разметка текстов с использованием методов сжатия данных. Краткое введение Электронный ресурс. Режим доступа: http://compression.graphicon.ru/download/articles/classif/intro.html, свободный.
36. Хмелев Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ. Сер.9: Филология. - №2. - 2000. -С. 115-126.
37. Хрулев О. Определение автора по тексту на естественном языке Электронный ресурс. Режим доступа: http://www.socionic.ru/articles/psycholingvistauthor.htm, свободный.
38. Цой Ю.Р., Спицын В.Г. Генетический алгоритм настройки искусственной нейронной сети // Тезисы докладов конференции-конкурса студентов, аспирантов и молодых ученых «Технологии Microsoft в информатике и программировании», Новосибирск, 2004. С. 131-133.
39. Шаров С.А. Частотный словарь Электронный ресурс. Режим доступа: http://www.artint.ru/projects/frqlist.asp, свободный.
40. Шевелев О.Г. Представление набора текстов в реляционной базе данных для целей лингвистического анализа // Вестник Томского государственного университета, 2004, № 284. С. 225-229.
41. Шевелев О.Г., Тютерев В.В. Многослойные персептроны в задаче разрешения спорного авторства текста // Сборник трудов научно-технической конференции «Нейроинформатика-2003», 29-31 января 2003 г., Москва. М.: МИФИ, 2003, 4.2. - С.206-212.
42. Электронная библиотека Максима Мошкова Электронный ресурс. Режим доступа: http://lib.ru, свободный.
43. Электронная библиотека Русский текст Электронный ресурс. Режим доступа: http://www.russiantext.com, свободный.
44. Apte C., Damerau F., Weiss S. Automated Learning of Decision Rules for Text Categorization // ACM Transactions on Information Systems, pp. 233-240, July 1994. http://citeseer.ist.psu.edu/apte94automated.html.
45. Apte С., Damerau F., Weiss S. Text mining with decision rules and decision trees // Proceedings of the Conference on Automated Learning and Discovery, CMU, June, 1998.
46. Ashford T. Computerised Determination of Disputed Authorship: The Cusum Method, 2001 61p.
47. Baayen H., van Halteran H., Neij't A., Tweedie F. An Experiment in Authorship Attribution // Journees internationales d'Analyse statistique des Donnees Textuelles, 2002, vol. 6.
48. Baronchelli A., Loreto V. Data Compression approach to Information Extraction and Classification. arXiv: cond-mat/0403233, 2004.
49. Beil F., Ester M., Xu X. Frequent Term-Based Text Clustering Электронный ресурс. Режим доступа: http://ifsc.ualr.edu/xwxu/publications/KDD02.pdf, свободный.
50. Bell Т.С., Cleary J.G., Witten I.H. Text compression. // Prentice resound, Engle-wood Cliffs, NJ, 1990, pp. 1-26.
51. Benedetto D., Caglioti E., Loreto V. Language Trees and Zipping // Physical Review Letters, vol. 88, No. 4, art. no. 048702, 2002.
52. Burges C.J.C. A Tutorial on Support Vector Machines for Pattern Recognition // Data Mining and Knowledge Discovery, vol. 2, No. 2, 1998, pp. 121-167.
53. Care M. Authorship attribution: a Comparison of three methods Электронный ресурс. Режим доступа: http://www.dcs.shef.ac.uk/teaching/eproj/msc2003/pdf/m2mc.pdf, свободный.
54. Cheeseman P., Kelly J., Self M., Stutz J., Taylor W., Freeman D. AutoClass: A Bayesian classification system // Proc. of 5th Int. Conf. on Machine Learning, 1988, pp. 54-64.
55. Choudhary В., Bhattacharyya P. Text clustering using semantics // Proceedings of the 11th International World Wide Web Conference, WWW2002, Honolulu, Hawaii, USA, 2002, http://www2002.org/CDRQM/poster/79.pdf.
56. Cilibrasi R., Vitanyi P.M.B. Clustering by compression // IEEE Trans. Information Theory, 2005, vol. 51, No. 4, pp. 1523-1545.
57. Cutting D.R., Karger D.R., Pedersen J.O., and Tukey J.W. Scatter/gather: A cluster-based approach to browsing large document collections // 15th Ann Int'l SIGR, 1992, pp. 318-329.
58. Diederich J.J., Kindermann J., Leopold E., Paass G. Authorship attribution with support vector machines // Applied intelligence, 2003, vol. 19, No. 1, pp. 109-123.
59. Dumais S. Т., Piatt J., Heckerman D., Sahami M. Inductive learning algorithms and representations for text categorization. // Proceedings of ACM-CIKM98, Nov. 1998, pp. 148-155.
60. Elman J.L. Finding Structure in Time // Cognitive Science, 1990, Vol. 14, pp. 179-211.
61. Farkas J. Document Classification and Recurrent Neural Networks Электронный ресурс. Режим доступа: http://www.cs.ubc.ca/local/reading/proceedings/cascon95/htm/english/abs/farkas.htm, свободный.
62. Farringdon J.M. Analyzing for Authorship: A Guide to the Cusum Technique, -Cardiff: University of Wales Press, 1996.
63. Fisher D. Knowledge acquisition via incremental conceptual clustering // Machine Learning, 1987, No. 2, pp. 139-172.
64. Frank E., Chui C., Witten I.H. Text categorization using compression models. // Proc Data Compression Conference, edited by J.A. Storer, et al., Snowbird, Utah, March. IEEE Press, Los Alamitos, pp. 555.
65. Goodman J. "Extended Comment on Language Trees and Zipping". arXiv: cond-mat/0202383. 1, 2002.
66. Hardcastle R.A. CUSUM: a credible method for the determination of authorship? // Science & Justice, 1997, No. 37, pp. 129-138.
67. Hersee M.S. Automatic Detection of Plagiarism: An approach Using the QSum Method, University of Sheffield, Department of Computer Science, 2001. - 67p.
68. Holden N., Freitas A.A. Web page classification with an ant colony algorithm // Parallel Problem Solving from Nature PPSN VIII, LNCS 3242, Springer-Verlag, September 2004, pp. 1092-1102.
69. Holmes D.I. The Evolution of Stylometry in Humanities Scholarship // Literary and Linguistic Computing, 1998, vol. 13, No. 3, pp. 111-117.
70. Honkela Т., Pulkki V., Kohonen T. Contextual Relations of Words in Grimm Tales, Analyzed by Self-Organizing Map // Proceedings of ICANN-95, International Conference on Artificial Neural Networks, EC2 et Cie, Paris, 1995, vol. 2, pp. 3-7.
71. Hoorn J., Frank S., Kowalczyk W., Ham F. van der. Neural network identification of poets using letter sequences // Literary and Linguistic Computing, 1999, vol. 14, No. 3, pp. 311-338.
72. Jain A.K., Murty M.N., Flynn P.J. Data Clustering: A Review // ACM Computing Surveys, 1999, vol. 31, No. 3, pp. 264-323.
73. Joachims T. Text categorization with support vector machines: learning with many relevant features // Proceedings of ECML-98, 10th European Conference on Machine Learning, 1998, pp. 137-142.
74. Sammon J.W. Jr. A nonlinear mapping for data structure analysis // IEEE Transactions on Computers, 1969, vol. 18, No. 5, May, pp. 401-409.
75. Khmelev D., Tweedie F. Using Markov Chains for Identification of Writers // Literary and Linguistic Computing, 2001, vol. 16, No. 4, pp.299-307.
76. Kjell B. Authorship attribution of text samples using neural networks and Bayesian classifiers // IEEE International Conference on Systems, Man and Cybernetics, San Antonio, TX, 1994., vol. 2, pp. 1660-1664.
77. Kjell B. Authorship determination using letter pair frequencies with neural network classifiers // Literary and Linguistic Computing, 1994, vol.9, No. 2, pp. 119124.
78. Kjell В., Woods W. A., Frieder O. Information retrieval using letter tuples with neural network and nearest neighbor classifiers // IEEE International Conference on Systems, Man and Cybernetics, Vancouver, ВС, 1995, vol. 2, pp. 1222-1225.
79. Kukushkina O.V., Polikarpov A.A. DicTUM-1, a system for dictionary-text universal manipulations and analysis Электронный ресурс. Режим доступа: http://www.philol.msu.ru/~lex/articles/dictum.htm, свободный.
80. Lin К., Kondadadi R. A word-based soft clustering algorithm for documents Электронный ресурс. Режим доступа: http://www.msci.memphis.edu/~linki/mypaper/CATA01.doc, свободный.
81. Leouski A.V., Croft W.B. An Evaluation of Techniques for Clustering Search Results Электронный ресурс. Режим доступа: http://people.ict.usc.edu/~leuski/publications/papers/ir-76.pdf, свободный.
82. Lowe D., Matthews R. Shakespeare vs. Fletcher: A Stylometric Analysis by Radial Basis Functions //Computers and the Humanities, 1995, No. 29, pp. 449-461.
83. Matthews R., Merriam T. Neural computation in stylometry I: An application to the works of Shakespeare and Fletcher // Literary and Linguistic Computing, 1993, No. 8, pp. 203-209.
84. Mendenhall T. A. A mechanical solution to a literary problem // Popular Science Monthly, 1901, No. 60, pp. 97-105.
85. Mendenhall T. A. The characteristic curves of composition // Science, 1887, No. 11, pp. 237-249.
86. Merriam Т., Matthews R. Neural computation in stylometry II: An application to the works of Shakespeare and Marlowe // Literary and Linguistic Computing, 1994, No. 9, pp. 1-6.
87. Moore A. Statistical data mining tutorials Электронный ресурс. Режим доступа: http://www-2.cs.cmu.edu/awm/tutorials/, свободный.
88. Morton A.Q. The Authorship of Greek Prose // Journal of the Royal Statistical Society (A), 1965, No. 128, pp. 169-233.
89. Mosteller F., Wallace D. L. Applied Bayesian and Classical Inference: The Case of the Federalist Papers // Addison-Wesley, 1964.
90. Oakes M. Ant colony optimization for stylometry: The federalist papers // Proceedings of the 5th International Conference on Recent Advances in Soft Computing, Nottingham Trent, pp. 86-91.
91. Pantel P., Lin D. Efficiently Clustering Documents with Committees Электронный ресурс. Режим доступа: http://citeseer.ist.psu.edu/pantel02efficiently.html, свободный.
92. Patton J.M., Can F.A. Stylometric Analysis of Yashar Kemal's "Ince Memed Tetralogy" Электронный ресурс. Режим доступа: http://www.users.muohio.edu/canf/papers/CHUM355Apr0504.pdf, свободный.
93. Peng R.D., Hengartner N.W. Quantitative analysis of literary styles // The American Statistician, 2002, vol. 56, No. 3, pp. 175-185.
94. Quinlan R. C4.5: Programs for Machine Learning // San Mateo, CA: Morgan Kaufmann, 1993.
95. Reuters 21578 corpus Электронный ресурс. Режим доступа: http://www.daviddlewis.com/resources/testcollections/reuters21578/, свободный.
96. Riboni D. Feature Selection for Web Page Classification // EURASIA-ICT 2002 Proceedings of the Workshop, Editor: A Min Tjoa, Austrian Computer Society, pp. 473-478.
97. Rocchio J.J. Jr. Relevance feedback in information retrieval. // The SMART Retrieval System: Experiments in Automatic Document Processing, Prentice Hall, 1971, pp. 313-323.
98. Stamatatos E., Fakotakis N., Kokkinakis G. Computer-Based Authorship Attribution without Lexical Measures // Computers and the Humanities, 2001, No. 35, pp. 193-214.
99. Steinbach M., Karypis G., and Kumar V. A comparison of document clustering techniques // KDD. Workshop on Text Mining, Boston, MA, August 2000, http://www.cs.cmu.edu/~dunja/KDDpapers/SteinbachIR.pdf.
100. Tantrum J., Murua A., Stuetzle W. Hierarchical Model-Based Clustering of Large Datasets Through Fractionation and Refractionation. Электронный ресурс. Режим доступа: http://bayes.stat.washington.edu/www/research/reports/2002/tr407.pdf, свободный.
101. Teahan W.J., Wen Y., McNab R., Witten I.H. A Compression-based Algorithm for Chinese Word Segmentation // Computational Linguistics, 2000, vol. 26, No. 3, pp. 375-393.
102. Teahan W.J., Harper D.J. Using compression-based language models for text categorization // J. Callan, B. Croft and J. Lafferty, editors, Workshop on Language Modeling and Information Retrieval, ARDA, Carnegie Mellon University, 2001, pp. 83-88.
103. Thaper N. Using compression for source based classification of text. Master's thesis, M.I.T., February 2001.
104. TREC: Text REtrieval Conference Электронный ресурс. Режим доступа: http://trec.nist.gov, свободный.
105. Tsuboi Y. Authorship Identification for Heterogeneous Documents. Master's thesis, Nara Institute of Science and Technology, 2002.
106. Tweedie F.J., Singh S., Holmes D.I. Neural Network Applications in Stylome-try: The Federalist Paper// Computers and the Humanities, 1996, No. 30 pp. 1-10.
107. Ukkonen, E. On-line construction of suffix trees // Algorithmica, vol. 14, No. 3, September 1995, pp. 249-260.
108. Zamir О. and Etzioni О. Web document clustering: A feasibility demonstration // Proceedings of the 21th International ACM SIGIR Conference, 1998, pp. 46-54.
109. Zhao Y., Zobel J. Effective and Scalable Authorship Attribution Using Function Words. Электронный ресурс. Режим доступа: http://www.cs.rmit.edu.au/~yizhao/zhaozobel.pdf, свободный.
110. Zhong S., Gosh J. Generative Model-based Document Clustering: A Comparative Study Электронный ресурс. Режим доступа: http://www.cse.fau.edu/~zhong/papers/comptext2.pdf, свободный.
-
Похожие работы
- Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет
- Исследование и разработка методов построения программных средств обнаружения текстового спама
- Система поиска текстовых документов на основе автоматически формируемого электронного каталога
- Метод автоматической кластеризации текстов, основанный на извлечении из текстов имен объектов и последующем построении графов совместной встречаемости ключевых термов
- Параметрическая и структурная адаптация систем распознавания текстовых меток на видеоизображениях
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность