Методика и программный комплекс для идентификации автора неизвестного текста

Романов, Александр Сергеевич

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Методика и программный комплекс для идентификации автора неизвестного текста

кандидата технических наук: Романов, Александр Сергеевич
город: Томск
год: 2010
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Методика и программный комплекс для идентификации автора неизвестного текста»

Автореферат диссертации по теме "Методика и программный комплекс для идентификации автора неизвестного текста"

Романов Александр Сергеевич

МЕТОДИКА И ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ИДЕНТИФИКАЦИИ АВТОРА НЕИЗВЕСТНОГО ТЕКСТА

Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени кандидата технических наук

-9 СЕН 2010

Томск-2010

004608007

Работа выполнена в Томском государственном университете систем управления и радиоэлектроники

доктор технических наук, профессор Шелупанов Александр Александрович (Томский государственный университет систем управления и радиоэлектроники)

доктор технических наук, профессор Ходашинский Илья Александрович (Томский государственный университет систем управления и радиоэлектроники)

кандидат технических наук, доцент Воловоденко Виталий Алексеевич (Национальный исследовательский Томский политехнический университет)

Ведущая организация: Московский государственный университет

приборостроения и информатики

Научный руководитель:

Официальные оппоненты:

Защита состоится «23» сентября 2010 г. в 15.15 на заседании диссертационного совета Д 212.268.02 при Томском государственном университете систем управления и радиоэлектроники по адресу: 634050, г. Томск, проспект Ленина, 40, ауд. 230.

С диссертацией можно ознакомиться в библиотеке Томского государственного университета систем управления и радиоэлектроники по адресу: 634050, г. Томск, ул. Вершинина, 74.

Автореферат разослан «20» 2010

г.

Ученый секретарь

диссертационного совета Д 212.268.02 кандидат технических наук, доцент

Мещеряков Р.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы. За более чем 120-летнюю историю развития вопроса идентификации автора неизвестного текста отечественными и зарубежными исследователями было предложено множество методов определения автора текста, начиная от простого подсчета количества определенных слов в сравниваемых текстах и заканчивая разработками в области искусственного интеллекта.

У экспертов, занимающихся проблемами идентификации автора неизвестного текста, до последнего времени популярностью пользовались методы, основывающиеся на предположении о том, что каждый автор обладает набором специфических стилистических приемов, характерными языковыми особенностями (лексическими, грамматическими, фразеологическими), прослеживающимися во всех произведениях, благодаря которым его можно опознать. Внимание экспертов также привлекала любая автобиографическая информация, содержащаяся в тексте, «любимые» слова и т.п. Трудность использования этих методов заключается в том, что характерных особенностей у текста, равно как и у автора, может и не быть. Кроме того, если текст имеет выраженные особенности то, существует вероятность подмены типичных особенностей индивидуального стиля автора. К недостаткам следует также отнести и тот факт, что выявление отличительных черт авторского стиля носит субъективный характер, так как зависит от личности исследователя.

Вопросами идентификации автора текста в России, в частности, занимались Морозов H.A., Марков A.A., Фоменко В.П. и Фоменко Т.Г., Хмелев Д.В., Хетсо Г., Рогов A.A., Сидоров Ю.В., Комиссаров А.Ю., Шевелев О.Г., Поддуб-ный В.В, Марусенко М.А.

Наиболее цитируемыми зарубежными авторами, занимавшимися вопросами определения авторства, являются Mendenhall Т.С., Morton A.Q., Farringdon J.M., Efron В., Thisted R., Teahan W. J., Chaski C.E., Stamatatos E., Juola P., Peng R.D., Joachims T., Diederich J.J., Apte С. Lowe D., Matthews R., Tweedie F.J., De Vel O., Argamon S., Levitan S., Zheng R.

В настоящее время наблюдается повышенный интерес к количественным методам анализа текстовой информации на основе слабо контролируемых человеком характеристик текста, общих для всех авторов.

Однако общепринятого мнения о том, какой набор характеристик дает лучший результат, не существует. Этот вопрос остается открытым, в частности, для русского языка, т.к. существует немного работ, в которых проводились исследования на представительных русскоязычных корпусах. Недостаточно внимания уделено идентификации автора на основе комплексных характеристик текста, написанного на русском языке.

Работоспособность большинства методов идентификации автора для русского языка проверена в рамках решения частных задач. Судить о точности тех или иных методов по результатам исследования для английского и др. языков не корректно в силу особенностей строения каждого языка.

Сравнительный анализ методов на представительных корпусах, приведенный в работах ряда авторов, показывает, что лучшим классификатором в на-

стоящее время является машина опорных векторов. Однако работ, посвященных исследованию данного метода для русского языка, нет.

Сопоставимые с машиной опорных векторов результаты дают искусственные нейронные сети. Шевелевым О.Г. установлено, что данный метод дает наиболее точные результаты, однако его использование затруднено в связи с большими временными затратами на подбор архитектуры сети и её обучение, поэтому полного исследования нейросетевого подхода проведено не было. В связи с этим актуальной становится задача исследования алгоритмов автоматического построения топологии нейронной сети.

Нерешенной задачей является идентификация авторства коротких текстов. Существующие методы работают с текстами объемом более 30000-40000 символов и большим количеством обучающих примеров (5-100 и более). Поэтому актуальной задачей является поиск решений для снижения требуемого объема выборок и их количества.

Существующие в настоящее время программные комплексы для идентификации автора, в числе которых «Штампомер» (JI.JI. Делицын), «Лингвоана-лизатор» (Москва, Д.В. Хмелев), «Атрибутор» (Москва, МГУ, Поликарпов A.A. и др.), «Лингвистический анализатор» (Самара, А. Львов), «СМАЛТ» (Петрозаводск, ПетрГУ, A.A. Рогов и др.), «Стилеанализатор» (Томск, 11 У, О.Г. Шевелев), «JGAAP» (США, Р. Juola), «Автор» (Москва, ВНИИСЭ, ЭКЦ УВД России) реализованы на основе методов идентификации авторства, математический и лингвистический аппарат которых не всегда гарантирует точный результат. Большинство программ носит демонстрационный характер или не предназначено для решения реальных практических задач. Объем текста, необходимого для работы программ, в лучшем случае составляет 30 000 символов, что также ставит под сомнение возможность их использования в случае атрибуции реальных спорных текстов. Существующие программы не ориентированы на работу с короткими текстами, имеющими свою специфику. Особенности русского языка при анализе авторства не учитываются. Современные машинные методы интеллектуального анализа данных реализованы в них лишь частично.

Таким образом, разработка методики, в которой учтены недостатки существующих подходов, и создание программного комплекса на её основе являются актуальными задачами.

Целью работы является разработка и исследование методики идентификации авторства текстов на русском языке, обеспечивающей повышение точности определения автора, уменьшение объема текстовой выборки и снижение временных затрат на принятие решения, и создание программного комплекса для идентификации авторства на её основе.

Задачи исследования. Для достижения поставленной цели были решены следующие задачи:

1) анализ существующих методов, характеристик текста, программных средств, используемых для идентификации автора отечественными и зарубежными исследователями;

2) анализ структуры текста и моделей его представления для целей идентификации автора;

3) разработка методики идентификации автора неизвестного текста и получения информативных параметров авторского стиля;

4) разработка алгоритмического и программного обеспечения для идентификации автора неизвестного текста. Моделирование параметров авторского стиля.

Объект и предмет исследования. Объектом исследования является печатный текст и его характеристики. Предметом исследования являются характеристики текста, описывающие авторский стиль и методы идентификации автора неизвестного текста.

Методы исследования. Для решения задач, сформулированных в работе, использовались методы математической статистики, вычислительного эксперимента и искусственного интеллекта. При разработке программной системы использовались методы объектно-ориентированного программирования.

Достоверность и обоснованность полученных результатов подтверждаются серией практических экспериментов по идентификации автора на представительном корпусе текстов, а также согласованностью полученных данных с результатами других авторов.

Научная новизна работы определяется следующим.

1. Разработана новая методика идентификации автора русскоязычного текста, в которой впервые для целей идентификации автора текста на русском языке применяются метод опорных векторов и нейронные сети каскадных корреляций, используются методы сглаживания вероятностей. Особенностью методики является принятие итогового решения об авторе текста несколькими классификаторами по принципу мажоритарного голосования.

2. Предложена теоретико-множественная модель текста, учитывающая его иерархическую структуру.

3. Разработано оригинальное алгоритмическое обеспечение для обработки текста, учитывающее особенности русского языка и электронных текстов, в том числе коротких электронных сообщений.

4. Получены экспериментальные зависимости точности идентификации автора на основе различных характеристик русскоязычного текста при 2, 5, 10, 50 предполагаемых авторах и использовании искусственных нейронных сетей и метода опорных векторов, с применением методов сглаживания вероятностей. Предложена комбинация информативных признаков текста для описания авторского стиля, включающая частоты появления отдельных букв, знаков пунктуации, наиболее частых триграмм символов и слов русского языка.

Практическая ценность

1. Предложенная методика и её программная реализация позволяют снизить временные затраты на 1-3 порядка, сократить требуемый для однозначной идентификации объем текста до 20000 символов, при этом повысить точность

идентификации автора неизвестного текста на 0,05-0,15 по сравнению с существующими подходами.

2. Разработанное алгоритмическое и программное обеспечение системы «Авторовед» может использоваться как непосредственно для идентификации автора неизвестного текста на русском языке, так и для проведения комплексных исследований характеристик текста в задаче идентификации автора.

3. Полученная методика идентификации автора, алгоритмическое и программное обеспечение, база данных и SQL-запросы к ней могут применяться при решении смежных задач: идентификации языка текста, пола и тендера, профессии, национальности, уровня образования автора, а также других задач, связанных с анализом текста.

4. Результаты диссертационной работы использовались при выполнении проекта «Программное обеспечение для исследования характеристик текста в задачах идентификации автора» программы ФСРМПНТ «У.М.Н.И.К.» (договор № КР 04/07 от 9.06.2007 г.; № 014/08 от 9.09.2009 г).

Внедрение результатов. Разработанные методика идентификации автора и программный комплекс «Авторовед» внедрены в воинской части 51952 и Центре Технологий Безопасности ТУСУР. Внедрение показало положительный результат, состоящий в повышении точности идентификации автора, снижении временных затрат на эксперименты за счет автоматизации процесса и применяемых подходов.

Результаты диссертационной работы используются в учебном процессе Томского государственного университета систем управления и радиоэлектроники при изучении дисциплин «Теория информации» и «Методы программирования».

Апробация результатов. Материалы работы докладывались и обсуждались на следующих конференциях и семинарах:

- Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Научная сессия ТУСУР», 2006 - 2010 гг., Томск;

- Международной научно-методической конференции, посвященной 90-летию высшего математического образования на Урале «Актуальные проблемы математики, механики, информатики», 2006 г., Пермь.

- Международной конференции «Interactive Systems and Technologies: The Problems of Human-Computer Interaction», 2007 г., Ульяновск.

- Седьмом Всероссийском конкурсе студентов и аспирантов по информационной безопасности «SIBINFO-2007», 2007 г., Томск;

- Международной научно-практической конференции «Электронные средства и системы управления», 2007 г., 2009 г. Томск.

- Научно-техническом семинаре «Интеллектуальные системы моделирования, проектирования и управления», 2007 - 2010 г., Томск;

- Всероссийской научной конференции «Техническая кибернетика, радиоэлектроника и системы управления», 2008 г., Таганрог.

- Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых с международным участием «Молодежь и современные информационные технологии», 2008 г., 2009 г., Томск.

- Всероссийской научно-практической конференции «Проблемы информационной безопасности государства, общества и личности, безопасность на-нотехнологий», 2009 г., Томск.

- Международной конференции по компьютерной лингвистике «Диалог 2009», 2009 г. Москва.

- Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования», 2010 г., Томск.

Основные научные положения, выносимые на защиту

1. Методика идентификации автора неизвестного текста позволяет определять автора с точностью 0,95-0,98, при этом снизить объем необходимого текста до 20000 символов и сократить временные затраты на принятие решения на 1-3 порядка по сравнению с существующими подходами.

2. Авторский стиль наиболее точно описывается комбинацией характеристик текста, включающей частоты появления отдельных букв, знаков пунктуации, высокочастотных триграмм символов и слов русского языка.

3. Разработанное алгоритмическое и программное обеспечение для идентификации автора письменной речи «Авторовед» позволяет производить полный цикл обработки текстов, исследований влияния характеристик текста, вида классификатора и его параметров на точность идентификации автора неизвестного текста, идентифицировать автора из множества возможных претендентов с помощью искусственных нейронных сетей и машины опорных векторов, проводить анализ потенциально заимствованного текста, подтверждать или опровергать авторство текста.

Публикации. По результатам выполненных исследований опубликовано 20 работ, в том числе 3 в журналах, рекомендованных ВАК. Получено свидетельство о регистрации программной системы «Авторовед» в объединенном фонде электронных ресурсов «Наука и Образование» Института научной информации и мониторинга, подтверждающее, что электронный ресурс отвечает требованиям новизны и приоритетности (свидетельство № 15146).

Структура и объем работы

Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы из 185 наименований и десяти приложений. Основная часть работы содержит 149 страниц, в том числе 24 рисунка и 8 таблиц. Общий объем приложений составляет 88 страниц.

Личный вклад автора

Постановка задачи осуществлялась совместно с научным руководителем д.т.н., профессором Шелупановым A.A.

Основные результаты диссертационной работы получены автором самостоятельно. Автором проведен анализ предметной области, разработана теоретико-множественная модель теста. Предложена методика идентификации автора русскоязычного текста, в которой применяются метод опорных векторов и нейронные сети каскадных корреляций, методы сглаживания вероятностей, принятие итогового решения об авторе текста осуществляется несколькими классификаторами. Проведено исследование методики. Предложена комбинация информативных признаков текста для описания авторского стиля, включающая частоты появления отдельных букв, знаков пунктуации, наиболее частых триграмм символов и слов русского языка. Автором предложена структура программного комплекса для идентификации автора письменной речи, разработано алгоритмическое обеспечение, проведена программная реализация.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, определены цель и задачи исследования, показаны научная новизна и практическая ценность работы, изложены научные положения, выносимые на защиту.

В первой главе рассматриваются основные методы идентификации авторства текста, применяющиеся отечественными и зарубежными исследователями.

Идентификацию автора текста определим как процесс установления автора по совокупности общих и частных признаков текста, составляющих авторский стиль.

Проблему идентификации автора текста при ограниченном наборе альтернатив сформулируем следующим образом. Имеется множество текстов r = {f„...,ft} и множество авторов А = {а],...,а1}. Для некоторого подмножества текстов Т'= {/t,...,im} с Т, где m < к - авторы известны, т.е. существует множество пар «текст-автор» (tt ,а;)е Ос TVA, где tt е Т\ а/g А. Необходимо установить, кто из множества А является истинным автором остальных текстов (анонимных или спорных) 7"'= 777".

В данной постановке задачу идентификации автора можно рассматривать как задачу классификации с несколькими классами. В этом случае множество А составляет множество предопределенных классов и их меток, D - обучающие примеры, а множество Т" - классифицируемые объекты. Целью является построение классификатора, решающего данную задачу, т.е. нахождение некоторой целевой функции F :ТхА^>[-1,1], относящей произвольный текст множества Т к его истинному автору. Значения функции интерпретируется как степень принадлежности объекта классу: 1 соответствует полностью положительному решению, -1 - отрицательному. При этом каждый текст рассматривается как вектор признаков X = ,...,*„}.

Классификация основных методов, рассмотренных в работе, представлена на рис. 1.

Рис. 1. Основные методы идентификации автора

По материалам первой главы формулируются следующие выводы:

1. Сравнительный анализ методов на представительных корпусах, приведенный в работах ряда авторов, показывает, что лучшим классификатором в настоящее время является машина опорных векторов. Сопоставимые результаты дают искусственные нейронные сети, но требуют существенных временных затрат на обучение.

2. Работ, посвященных использованию метода опорных векторов для идентификации автора русскоязычного текста, нет. Исследование нейросетево-го подхода было проведено не в полной мере.

3. Судить о точности методов применительно к русскому языку по результатам исследований для английского и др. языков не корректно в силу особенностей строения каждого языка. Выбор того или иного подхода зависит от языка текста, способа его исполнения и точности имеющихся анализаторов. Проблемы жанра, репрезентативности выборки и размера корпуса также накладывают свои ограничения на используемый метод.

4. Для русского языка высокой точности идентификации удается достичь на текстах объемом более 30000-40000 символов и большого количества обучающих примеров (от 5 до 100 и более). Эксперименты по идентификации автора коротких текстов на русском языке не проводились.

5. Общепринятого мнения о том, какой набор признаков текста дает лучший результат, не существует. В большинстве работ зарекомендовали себя такие характеристики текста, как биграммы и триграммы символов и слов, функциональные слова, наиболее частые слова языка, распределение слов по частям речи, наиболее частые слова языка, знаки пунктуации, распределение длины слова и длины предложения.

6. Исследований по применению сглаживающих моделей с целью уменьшения необходимого для идентификации объема текста не проводилось.

7. Необходимо ввести дальнейшие исследования, направленные на поиск новых, совершенствование или комбинирование уже имеющихся методов идентификации автора, а также проведение экспериментов, имеющих целью поиск характеристик, позволяющих уверенно разделять стили авторов русскоязычных текстов, с помощью которых станет возможным работа с малыми объемами выборки.

На основе анализа проблемы формулируются актуальные экспериментальные задачи в области идентификации авторства текста на русском языке и требования к разрабатываемому программному комплексу.

Во второй главе приводится описание разработанной методики идентификации автора и её ключевых параметров: теоретико-множественной модели текста, учитывающей его иерархическую структуру, моделей представления текста в виде наборов признаков для целей идентификации автора, параметры классификаторов.

Предлагаемая методика идентификации автора неизвестного текста представлена на рис. 2 в виде ГОЕРО диаграммы.

Рис. 2. Методика идентификации автора неизвестного текста

Методика включает последовательность следующих действий:

1. Выбор модели представления текстов в виде наборов признаков.

2. Выбор группы признаков для проверки и формирования из неё авторского инварианта.

3. Выбор классификаторов и их параметров.

4. Формирование модели авторского стиля, позволяющей разделять двух и более авторов на основе полученного авторского инварианта и обученного классиф икато ра.

5. Непосредственно определение авторства неизвестного текста.

6. Принятие итогового решения об авторе текста ансамблем классификаторов (комитетом), если удалось найти несколько информативных групп признаков текста и/или эффективных моделей классификаторов.

ШЕРО диаграмма процесса формирования модели авторского стиля показана на рис. 3.

Рис. 3. ГОЕРО диаграмма процесса формирования модели авторского стиля

Для определения отличий стилей авторов предлагается следующая последовательность действий:

1. Разбиение имеющегося множества текстов на две группы. Первая используется для обучения модели классификатора. Вторая - для проверки точности идентификации автора с помощью обученной модели.

2. Формирование вектора признаков текста из характеристик полученного авторского инварианта в соответствии с выбранной моделью представления текста.

3. Приведение значений признаков в единый диапазон с помощью операции нормирования.

Корректировка параметров классификатора, позволяющих обеспечить высокую разделяющую способность исследуемых авторов, путем обучения клас-

сификатора на нормированных векторах признаков группы обучающих текстов и проверки точности обученного классификатора на векторах признаков тестовой группы текстов. Первоначальное обучение классификатора происходит с параметрами по умолчанию.

Изменение перечня групп характеристик и/или признаков, составляющих группу, в случае, если изменением параметров классификатора достичь приемлемых результатов не удается.

Итогом является обученный классификатор, веса связей которого настроены так, чтобы классификатор был способен разделить стили авторов, на текстах которых он обучался при подаче на его входы подобранного набора признаков (авторского инварианта).

Разработанная методика помимо информативности признаков текста, анализируемых в статистических методах идентификации авторства, учитывает влияние общей способности классификатора к разделению данных и его точность, рассматривая его в виде «черного ящика».

Главной особенностью предложенного подхода является принятие итогового решения об авторе текста несколькими классификаторами (ансамблем классификаторов) по принципу мажоритарного голосования в случае, если удалось найти несколько информативных групп признаков текста.

Ключевыми параметрами методики, подлежащие тщательному исследованию и анализу, являются:

1. Модели представления текстовой информации в виде наборов признаков.

2. Характеристики текста, составляющие авторский инвариант.

3. Классификаторы и их параметры, алгоритмы обучения.

Характеристики текстового документа, потенциально применимые для

идентификации автора, показаны на рис. 4. В общем случае их можно разделить на лексические, синтаксические, структурные, контентно-специфические, идиосинкразические стилевые признаки, а также метаданные документа.

Текст, если из него убрать форматирование и рассматривать его вне системы, в которой он создан, можно анализировать на уровне символов, слов, предложений и т.д. с возможными промежуточными элементами. Минимальной неделимой единицей текста является символ. Определенные последовательности символов, входящих в алфавит языка, образуют морфемы, из которых в свою очередь состоят словоформы. Несколько словоформ, находящихся в синтаксических связях, образуют словосочетания. Словоформы и символы знаков препинания образуют предложения. Одно или более предложений, выделенных автором в отдельную группу и связанных общей темой, образуют абзац.

Рис. 4. Характеристики текстового документа

На основе анализа структуры текста была разработана теоретико-множественная модель текста.

Обозначим множество букв алфавита, цифр и разделителей Л = {а1,а2,—,ац}, множество возможных морфем М = {тх,т2,...,т\щ}, словарь языка }¥ множество словосочетаний С = {с1,с2)...,с|д}, множество предложений Я = {^.«г >—> множество абзацев Р = {РиР2>->Р\Р\}'

Тогда текст Т можно представить в виде последовательностей элементов следующим образом:

т=ед=кй==№={<},!- = {^Й ,

где а^А, тк&М, -м, еГ, с.еС, Л', - соответственно, количество символов, морфем, слов, словосочетаний, предложений, абзацев в тексте.

Каждый элемент текста описывается также вектором признаков, отражающим его свойства: {а',...,а,'} - для символов, {т[,...,т[} - для морфем, {и/,...,и»'} - для слов, - для словосочетаний, - для предложе-

ний, {р\,...,р[} - для абзацев. Так символы можно разделить на согласные и гласные буквы, знаки пунктуации, цифры, разделители и т.д. У слова, помимо длины и количества слогов в нем, можно определить часть речи, постоянные морфологические признаки (например, у существительных: род, склонение, разряд по значению и др.) и ряд переменных признаков (например, у существительных: падеж и число). У предложений выделяют ряд синтаксических признаков: по цели высказывания, в зависимости от наличия одного или двух главных членов в качестве организующих центров предложения, по наличию или отсутствию второстепенных членов, в зависимости от количества предикативных единиц или наличия всех необходимых членов данной структуры предложений.

Таким образом, текст можно рассматривать как иерархическую структуру и анализировать на любом уровне как последовательность отдельных составляющих его элементов, групп элементов длиной N или их признаков. При этом анализ структуры текста усложняется при использовании признаков более высоких уровней иерархии, и с каждым новым уровнем труднее поддается автоматизации. Поэтому в работе используются характеристики уровня символов и слов, позволяющие моделировать сложные связи внутри слов и предложений.

Модель использована на практике при разработке способа хранения текста в базе данных, удобного для проведения исследований.

Основные модели представления текста в виде наборов признаков, использующиеся в работе, приведены в табл. 1.

Таблица 1

Модели представления текста в виде наборов признаков

Модель Математическая запись

Ваг С^огсЬ! Í1 owUW . — , -т—¡1

Л'-граммы Ж,..,«,.-,) = C(*"7ÍW,); Р(а, | =

Сглаживание Лапласа 1

Продолжение таблицы 1

Модель Математическая запись

Сглаживание Гуда-Тьюринга PQt = —— j Р';Т = С* = (С+1)-^-ат N N Nc

Сглаживание Катца рклп(а, |а,_„+1,...,ам) = = \Р * (а, | в,_„+1,...., аы), если C(e,_„+, ,...,<?,)> к jcr(a,_„tl,...,)рклп(А, | а,.„+2,...,а1Л), если 1 < С(а,_„+1 ,..., а,) <к.

ft— факт наличияу'-ого элемента /-го текста в словаре W; a, w - символ и слово ; V - словарь или алфавит языка; п - длина JV-граммы; С(-) - число появлений элемента в тексте; /(■) -относительная частота элемента в тексте; Р( ) — вероятность появления элемента в тексте; N— общее количество рассматриваемых элементов текста ; А'с - количество элементов текста, встретившихся ровно С раз; С* - дисконтированная оценка Гуда-Тьюринга; Padu , Per, Ркап - оценки Лапласа, Гуда-Тьюринга, Катца; к - пороговое значение; «(■) - весовой коэффициент;

Предлагается использовать частоты появления в тексте одиночных символов и слов, их последовательностей длиной N или некоторое их ограниченное количество из словаря. Для работы с текстами малых объемов предлагается использовать частоты элементов текста, сглаженные методами Лапласа, Гуда-Тьюринга и Катца, позволяющими оценить вероятности ненаступивших событий.

Техники сглаживания при решении задачи идентификации автора русскоязычного техника используются впервые.

В качестве инструментов для идентификации автора в данной работе были выбраны искусственные нейронные сети архитектуры многослойные перцеп-трон (MLP) и сети каскадной корреляции (CCN), а также аппарат машины опорных векторов (SVM). CCN позволяют снизить временные затраты на обучение по сравнению с перцептроном за счет алгоритма автоматического построения топологии сети. SVM является наиболее точным из существующих в настоящее время методов классификации и в то же время наименее затратным по времени.

Метод опорных векторов и нейронные сети каскадных корреляций для целей идентификации автора русскоязычного текста применяются впервые.

Сделан вывод о необходимости проведения экспериментов по моделированию параметров авторского стиля с помощью предложенной методики.

В третьей главе описываются эксперименты, направленные на определение характеристик текста, позволяющих уверенно разделять авторские стили (авторского инварианта), с помощью предложенной методики. Приводятся результаты применения методики в практике специализированных учреждений для определения авторства коротких сообщений.

Основные результаты получены на корпусе, состоящем из 215 прозаических текстов 50 русских писателей. Тексты взяты из электронной библиотеки

М. Мошкова. Размер каждого текста составляет более 100000 символов. В экспериментах с этим корпусом количество обучающих примеров в экспериментах выбиралось исходя из потребностей при решении реальных задач идентификации авторства, когда количество материала ограничено. Использовались выборки объемом 1000-100000 символов (-200-20000 слов). Количество обучающих примеров каждого автора бралось равным 3, для тестирования использовалось по 1 выборке автора.

Шаги алгоритма проведения экспериментов для оценки точности классификации:

1. Выбор классификатора и его параметров, параметров алгоритма обучения. Выбор характеристик текста для исследований.

2. Применение к каждому тексту операции «склеивания»: все слова приводятся к нижнему регистру, буква «ё» заменяется буквой «е», из текста удаляются все символы форматирования и пунктуации, включая пробел (за исключением случая, когда пунктуация рассматривает как самостоятельный признак). Формирование подмножеств сочетаний классов необходимой мощности (без повторений) из всего множества авторов.

3. Для каждого автора из текущей пары формируется по 3 обучающие выборки необходимого объема и одна тестовая. Выборки извлекаются из разных текстов автора.

4. Подсчет интересующих параметров в выборках.

5. Нормирование параметров выборок в диапазон [-1..1] минимаксным методом по формуле:

х1 — тш(;е) Х'""рм = тах(х) - тт(х)'

где где х, - г-й элемент вектора, тт(;с) и тах(х) - соответственно минимальный и максимальный элементы вектора.

6. Обучение классификатора.

7. Подача на вход обученной модели данных тестовых выборок, работа классификатора, считывание результатов.

8. Замена для каждого автора тестовой выборки на одну из обучающих.

9. Повтор с шага 8 до тех пор, пока каждая из четырех выборок автора не будет использована в качестве тестовой.

10. Увеличение объема выборки на заданный шаг, если предел не достигнут. Повтор с шага 5.

11. Повтор с шага 4 для следующего сочетания классов.

Всего было исследовано 30 различных признаков текста уровней символов, слов и предложений. Рассмотрены случаи 2, 5,10 и 50 предполагаемых авторов. В качестве результирующей точности по данному признаку и объему выборки подсчитывалась средняя частота правильных классификаций. Доверительные интервалы построены для доверительной вероятности 0,90.

В результате экспериментального сравнения нейронных сетей двух архитектур установлено, что время обучения сетей каскадных корреляций до 10 раз ниже, чем многослойного перцептрона (табл. 2). Преимущество усиливается

при увеличении количества входных данных. При этом точность классификации остается на том же уровне, что позволяет сделать вывод о целесообразности использования ИНС каскадных корреляций для идентификации автора.

Таблица 2

Время обучения классификаторов

Признах Размер вектора 2 автора 5 авторов 10 авторов

МЬР СШ БУМ МЬР СШ 5УМ МЬР СШ ЭУМ

УНИГРАММЫ 32 0,437 0,95 0,0002 1Д5 1,55 0,001 2,87 1,62 0,006

БИГРАММЫ 1024 2,32 0,21 0,0029 34,28 29,06 0,0139 57,97 53,66 0,044

БИГРАММЫ_ВЧ 300 1,66 4,24 0,0024 32,24 20,43 0,009 39,47 37,80 0,011

ТРИГРАММЫ 32768 63,72 25,8 0,1041 - - - - - -

ТРИГРАММЫЗОО 300 0,74 2,67 0,002 4,11 14,55 0,017 1 39,42 30,94 0,037

КОНТЕКСТСЛОВА 500 2,23 2,05 0,0042 14,68 13,40 0,011 31,84 14,03 0,025

длины_слов 20 0,25 0,75 0,0002 3,25 1,16 0,0012 4,48 1,389 0,005

ПУНКТУАЦИЯ 14 0,80 0,56 0,0001 3,49 0,79 0,001 22,00 7,89 0,013

ЧАСТИ_РЕЧИ 17 0,29 0,79 0.0003 3,23 1,45 0,012 4,01 1.9 0,021

Сравнение машины опорных векторов и искусственных нейронных сетей показало, что обучение модели БУМ происходит на 2-3 порядка быстрее, чем многослойного перцептрона и сетей каскадных корреляций. При увеличении сложности задачи, машина опорных векторов справляется с её решением лучше, чем нейронные сети и обладает большим запасом по точности (рис. 5-6).

О 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000

Объем выборки, символов

К1Р --»--ССИ -Э/М

Рис. 5. Результаты исследования точности идентификации на основе наиболее частых триграмм символов в случае 10 авторов

Объем выборки, сиюолов

HJ —»—CCN —* -SVM

Рис. 6. Результаты исследования точности идентификации на основе наиболее частых слов в случае 10 авторов

На примере триграмм символов и частотного словаря русского языка при идентификации автора из двух возможных претендентов показано, что использование большего количества признаков негативно сказывается на точности идентификации. Точность идентификации также снижается при использовании менее частотных признаков. Эксперименты для случая 2, 5 и 10 авторов показали, что наиболее информативными авторским признаками являются ограничения в 300-700 наиболее частотных триграмм и 500 наиболее частых слов (см. рис. 5-6). Автора можно определить с точностью в среднем 0,95-0,98 при объеме текстовой выборки 20000-25000 символов. При этом начиная с 10000 символов, машина опорных векторов показывает лучшие из трех исследуемых классификаторов результаты.

Установлено, что использование при идентификации автора комбинация частот букв русского языка, знаков пунктуации, наиболее частых триграмм символов и наиболее частых слов увеличивает точность идентификации в среднем на 0,06-0,12 на объемах текста до 10000 символов.

На примере биграмм и триграмм символов показано, что применение методов сглаживания вероятностей Гуда-Тьюринга и Катца негативно отражается на качестве идентификации - средняя точность ниже на 0,04-0,11, чем без их использования. Применение метода Лапласа дает небольшой прирост точности на малых объемах выборки - от 0,01 до 0,07.

Установлено, что использование ансамбля классификаторов позволяет увеличить точность идентификации автора от 0,02 до 0,15 на объемах выборки до 10000 символов.

На основе полученных результатов предложена итоговая методика идентификации авторства текста, включающая использование:

- нейросетевого подхода (многослойного перцептрона и сетей каскадных корреляций) и метода опорных векторов;

- наиболее информативных признаков текста: частот букв русского языка, знаков пунктуации, наиболее частых триграмм символов и наиболее частых слов;

- метода сглаживания Лапласа;

- принятие итогового решения об авторстве на основе объединения результатов классификаций по принципу мажоритарного голосования.

Разработанная методика позволила достичь точности классификации 0,98 при объеме выборки 20000 символов в результате обучения на трех примерах текстов автора (рис. 7). Такие показатели для русского языка достигнуты впервые.

2 0.7 ,

10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 Объем выборки, символов

-2 автора

- -я— 5 авторов

- -50 авторов

Рис. 7. Исследование ансамбля классификаторов БУМ

Полученные методики были применены на практике для идентификации автора коротких электронных сообщений во время внедрения разработанной методики и программного комплекса в деятельность воинской части 51952. Результаты показали, что авторство коротких текстов длиной 100 символов можно определить с точностью до 0,76±0,11 в случае двух потенциальных авторов.

В процессе внедрения результатов диссертационной работы в Центре Технологий Безопасности ТУСУР при решении частной задачи по определению автора сообщения интернет форума была достигнута точность 0,89±0,08.

В четвертой главе описываются структура программного комплекса для идентификации автора письменной речи «Авторовед», модель базы данных для хранения текста и его характеристик, алгоритмическое обеспечение программы. Рассмотрены и проанализированы программные разработки в области определения авторства текстов, проведен сравнительный анализ программного комплекса «Авторовед» с аналогами.

В соответствии с задачами исследований и требованиями к программному обеспечению был разработан программный комплекс для идентификации автора, структура которого представлена на рис. 8.

Метод и его параметры

На рис. 9. показан пример разработанного алгоритма - диаграмма состояний графа конечного автомата, предназначенного для определения границ предложений в коротких электронных сообщениях. В нем учтена такая особенность текстов, как использование эмотиконов. Началом предложения считается первый печатный символ текста. Концом предложения - последний символ сообщения, точка, вопросительный или восклицательный знак или их группа, а также любой эмотикон. Эмотиконы в большинстве случаев выражают законченность мысли и служат для придания написанным словам дополнительной эмоциональной окраски, тогда как в середине предложения употребляются редко. Также они используются в начале сообщения, чтобы выразить эмоции по отношению, например, к предыдущей фразе собеседника — в этом случае алгоритм не выделяет эмотикон как отдельное предложение, а включает его в состав первого предложения сообщения.

[Иначе] JMlUHe] [Последний символ строем или теесте]

Рис. 9. Алгоритм определения границ предложений в коротких сообщениях

На основе предложенной иерархической модели текста разработана база данных для хранения текста и его характеристик. Реализована возможность расширения перечня доступных пользователю характеристик без изменения программного кода за счет реализации характеристик в виде пакетов запросов к СУБД. Составлены запросы SQL для получения основных характеристик текста уровня символов, слов и предложений, а также реализованы техники сглаживания вероятностей Лапласа, Гуда-Тьюринга и Катца для биграмм и триграмм символов.

В табл. 3 приводятся основные характеристики разработанной программы в сравнении с программами-аналогами.

Отличительными характеристиками программы «Авгоровед» являются:

— учет особенностей русского языка при анализе авторского стиля: морфологической омонимии, особенностей словоизменения и др. Возможность использования морфологических и частотных словарей;

- учет особенностей электронных текстов, в том числе и коротких сообщений: отсутствия знаков препинания, использования эмотиконов, неправильно распознанных символов и т.д. Возможность автоматической или автоматизированной корректировки в процессе анализа.

— использование базы данных, основанной на предложенной иерархической модели, для хранения текста и его характеристик на уровне символов, слов, предложений. Возможность расширения перечня извлекаемых из базы данных характеристик за счет реализации их в виде SQL запросов;

- возможность использования методов MLP, CCN, SVM для идентификации автора и вынесения итогового решения на основе объединения результатов работы нескольких методов по принципу большинства голосов. При этом для достижения точности 0,95-0,98 необходимы текстовые образцы объемом 20000 символов, что стало возможным благодаря использованию в программе разработанной методики идентификации автора.

- возможность использования методов one-class SVM и QSUM для проверки текста на однородность;

— возможность определения авторства как одного текста, так и проведения комплексных исследований по идентификации автора для множества текстов и разных объемов текстовых выборок.

Таблица 3

Сравнение программных средств для идентификации авторства текста

Название Методы Изменение параметров метода Средства Анализа текстов Расширение перечня характеристик Необходимый объем текста Точность Применимость к решению реальных задач

«Штампомер» Расстояние Евклида Нет Стат. анализ Нет >30000 символов Не известно Нет

«Лингвоанали-затор» Энтропийный подход, марковские цепи Нет Графем., стат. анализ Нет 40000100000 символов 0,85-0,9 Нет

«Атрибутор» Марковсие цепи Нет Стат. анализ Нет >20000 символов Не известно Нет

«Лингвистический анализатор» Отклонения от средних значений Нет Графем., морф., стат. анализ Нет 10000 слов 0,84-0,98 Нет

«СМАЛТ» Критерии Стъюдента, Колмогорова- Смирнова, кластерный анализ, сети Хэмминга Нет Графем., морф., синт., стат. анализ, поддержка дореволюционной орфографии Нет 500 слов для определения однородности Не известно Да

«Стилеанали-затор» Марковские цепи, нейронные сети, деревья решений, мери расстояния Да Графем., стат. анализ, работа с размеченными текстами Да 3000040000 символов 0,9-0,98 Да

«Автор», «Лексика» Критерии Стъюдента, Колмогорова- Смирнова, Манна-Уитаи Нет Графем., морф., стат. анализ Нет 300-500 слов для определения од-нродности Не известно (0,37) Да (морально устарели]

■ЮААР Энтропийный подход, Марковские цепи, Байесовский классификатор, метод главных компонент, дискриминант-ный анализ Нет Графем., стат. анализ Нет >10000 символов англ.язык 0,65 Да

Продолжение таблицы 3

Название Методы Изменение параметров метода Средства Анализа текстов Расширение перечня характеристик Необходимый объем текста Точность Применимость к решению реальных задач

«Авторовед» Нейронные сети, метод опорных векторов, (^ЦМ Да Графем., морф., стат. анализ Да 2000025000 символов 0,95-0,98 Да

100 символов 0,76

В заключении сформулированы основные научные и практические результаты:

1. Проведен анализ существующих методов, характеристик текста, программных средств, используемых для идентификации автора отечественными и зарубежными исследователями. Определены актуальные направления исследований и разработок.

2. Проведен анализ структуры текста. На его основе предложена теоретико-множественная модель и модель БД для хранения текста и его характеристик, учитывающие иерархическую структуру текста.

3. Предложена обобщенная методика идентификации автора неизвестного текста, включающая использование нейросетевого подхода и метода опорных векторов для принятия решений об авторстве, Л'-граммных и сглаженных Л'-граммных моделей, признаков текста, позволяющих разделять авторские стили. Особенностью предложенного подхода является принятие итогового решения об авторе текста несколькими классификаторами (ансамблем классификаторов) по принципу мажоритарного голосования. Впервые для целей идентификации автора русскоязычного текста применяются метод опорных векторов и нейронные сети каскадных корреляций, используются методы сглаживания вероятностей. Для достижения точности 0,95-0,98 необходимы текстовые образцы объемом 20000 символов.

4. Проведены исследования групп характеристик текста в задаче идентификации автора. По результатам исследований наиболее точным из классификаторов показал себя метод опорных векторов. Показано, что информативными признаками авторского стиля являются наиболее частые триграммы символов и наиболее частые слова. Установлено, что использование при идентификации автора комбинации частот букв русского языка, знаков пунктуации, наиболее частых триграмм символов и наиболее частых слов увеличивает точность идентификации в среднем на 0,06-0,12 на небольших объемах текста. Показано, что применение методов сглаживания вероятностей Гуда-Тьюринга и Катца негативно отражается на качестве идентификации. Использование метода Лапласа дает небольшой прирост точности на малых объемах выборки — от 0,01 до 0,07. Установлено, что использование ансамбля классификаторов позволяет увеличить точность идентификации автора от 0,02 до 0,15 на малых объемах выборки.

5. Разработано алгоритмическое и программное обеспечение для идентификации автора неизвестного текста, позволяющее идентифицировать автора

неизвестного русскоязычного текста и проводить комплексные исследования характеристик текста в задаче идентификации автора, учитывать особенности русского языка, особенности электронных текстов, в том числе и коротких сообщений.

6. Полученные результаты внедрены в практику работы специализированных учреждений.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

В журналах, рекомендованных ВАК:

1. Романов A.C. Структура программного комплекса для исследования подходов к идентификации авторства текстов / A.C. Романов // Доклады Томского государственного университета систем управления и радиоэлектроники. -Ч. 1.-2008.-№2(18).-С. 106-109.

2. Романов A.C. Модель базы данных для хранения текстов и их характеристик / A.C. Романов // Доклады Томского государственного университета систем управления и радиоэлектроники. - 2008. - № 1 (17). - С. 70-73.

3. Романов A.C. Методика идентификации автора текста на основе аппарата опорных векторов / A.C. Романов // Доклады Томского государственного университета систем управления и радиоэлектроники. — Ч. 2. — 2009. — №1(19). -С. 36-42.

Другие публикации:

4. Романов A.C. Идентификация авторства текста / A.C. Романов // Научная сессия ТУСУР - 2006: Материалы докладов Всероссийской научно - технической конференции студентов, аспирантов и молодых ученых, Томск, 4-7 мая, 2006 г. - Ч. 3. - Томск : Издательство «В - Спектр», 2006. - С. 115-117.

5. Романов A.C. Структура программного обеспечения идентификации автора текста / A.C. Романов // Актуальные проблемы математики, механики, информатики: материалы Международной научно-методической конференции, посвященной 90-летию высшего математического образования на Урале / Перм. гос. ун-т; под ред. JI.H. Лядовой, В.И. Яковлева, Л.Н. Ясницкого. -Пермь : Издательство Перм. гос. ун-та, 2006. - С. 210-211.

6. Романов A.C. Исследование влияния характеристик текста на результативность определения авторства неизвестного текста / A.C. Романов // Научная сессия ТУСУР - 2007: Материалы докладов Всероссийской научно - технической конференции студентов, аспирантов и молодых ученых. Тематический выпуск «Системная интеграция и безопасность»: Томск, 3-7 мая, 2007 г. -Ч. 2. - Томск : Изд-во «В - Спектр», 2007. - С.183-185.

7. Романов A.C. Безопасность информационных систем при биометрической аутентификации / A.C. Романов, Е.Ю. Костюченко, Р.В. Мещеряков// Электронные средства и системы управления. Опыт инновационного развития: Доклады Международной научно-практической конференции (31 окт. - 3 ноябр. 2007г.). - Ч. 2. - Томск: Издательство «В-Сектр», 2007. - С. 197-198.

8. Romanov A.S. The analysis of identification methods of Text's Authors / A.S. Romanov // Interactive Systems and Technologies: The Problems of HumanComputer Interaction. Collection of scientific papers. - Ulyanovsk : U1STU, 2007. -P. 270.

9. Романов A.C. Подходы к идентификации авторства текста на основе п-грамм и нейронных сетей / A.C. Романов // Молодежь и современные информационные технологии. Сборник трудов VI Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых. Томск, 26-28 февраля 2008 г. - Томск : Издательство ТПУ, 2008. - С. 145-146.

10. Романов A.C. Обзор программного обеспечения для идентификации авторства текстов / A.C. Романов // Научная сессия ТУСУР-2008: Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых. Тематический выпуск «Системная интеграция и безопасность». Томск, 5-8 мая 2008 г.: В пяти частях. — Ч. 3 - Томск : Издательство «В-Спектр», 2008. - С. 182-184.

11. Романов A.C. Подсистема сбора статистической информации программного обеспечения для идентификации авторства текстов / A.C. Романов // Электронные средства и системы управления. Итоги реализации программы развития электроники и IT-технологий в Томской области: Материалы молодежной пятой научно-практической конференции. - Томск : В-Спектр, 2009. -С. 58-60.

12. Романов A.C. Анализ характеристик текста для целей выявления плагиата / A.C. Романов // IX Всероссийская научная конференция «Техническая кибернетика, радиоэлектроника и системы управления»: Тезисы докладов. -Таганрог : Издательство ТТИ ЮФУ, 2008. - С. 126-127.

13. Романов A.C. Оценка возможности применения нейронных сетей каскадной корреляции для решения задачи идентификации автора / A.C. Романов, A.A. Шелупанов // Молодежь и современные информационные технологии. Сборник трудов VII Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии». Томск, 25 - 27 февраля 2009 г. - Ч. 1. - Томск : Изд-во СПБ Графике, 2009. - С. 319-320.

14. Романов A.C. Энтропийный подход к идентификации автора и языка короткого электронного сообщения / A.C. Романов, C.B. Голубев, Р.В. Мещеряков // Научная сессия ТУСУР-2009: Материалы докладов Всероссийской научно—технической конференции студентов, аспирантов и молодых ученых. 12-15 мая 2009 г.: В пяти частях. -Ч.З. Тематический выпуск «Системная интеграция и безопасность». - Томск : В-Спектр, 2009. - С. 156-159.

15. Романов A.C. Метод аддитивного сглаживания в решении задачи идентификации автора текста / A.C. Романов // Научная сессия ТУСУР-2009: Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых. 12-15 мая 2009 г.: В пяти частях. - Ч.З. Тематический выпуск «Системная интеграция и безопасность». — Томск: В-Спектр, 2009. - С. 219-222.

16. Романов A.C. Классификатор на основе машины опорных векторов / A.C. Романов // Научная сессия ТУСУР-2009: Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых уче-ных.12-15 мая 2009 г.: В пяти частях. - Ч.З. Тематический выпуск «Системная интеграция и безопасность». - Томск: В-Спектр, 2009. - С. 222-225.

17. Романов A.C. Идентификация автора текста с помощью аппарата опорных векторов / A.C. Романов, Р.В. Мещеряков // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). - М. : РГГУ, 2009. -Вып. 8 (15).-С.432-437.

18. Романов A.C. Программная система для идентификации автора письменной речи «Авторовед» / A.C. Романов // Хроники объединенного фонда электронных ресурсов «Наука и образование». - 2009. - №7. - С. 7.

19. Романов A.C. Методика формирования модели отличий авторских стилей / A.C. Романов, A.A. Шелупанов // Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых "Научная сессия ТУСУР-2010". Томск, 4-7 мая 2010 г.( В пяти частях). - Ч. 3. -Томск : Изд-во «В-Спектр», 2010. - С. 193-194.

20. Романов A.C. Идентификация авторства коротких текстов методами машинного обучения / A.C. Романов, Р.В. Мещеряков // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). - М. : Изд-во РГГУ, 2010. - Вып. 9 (16). - С. 407-413.

Тираж 100. Заказ № 768. Томский государственный университет систем управления и радиоэлектроники 634050, г. Томск, пр. Ленина, 40

Оглавление автор диссертации — кандидата технических наук Романов, Александр Сергеевич

ВВЕДЕНИЕ.

1 Обзор подходов к идентификации автора неизвестного текста.

1.1 Первые количественные методы.

1.2 Методы статистического анализа.

1.2.1 Статистические критерии.

1.2.2 Методы теории информации.

1.2.3 Метод накопительных сумм.

1.2.4 Метод главных компонент и линейный дискриминантный анализ

1.3 Методы машинного обучения.

1.3.1 Генетические алгоритмы.

1.3.2 Метод к ближайших соседей.

1.3.3 Деревья решений.

1.3.4 Наивный байесовский классификатор.

1.3.5 Искусственные нейронные сети.

1.3.6 Машина опорных векторов.

1.4 Сравнительный анализ методов идентификации автора.

1.5 Выводы по главе 1.

1.6 Постановка задач исследований и разработок.

2 Методика идентификации автора неизвестного текста.

2.1 Обобщенная методика идентификации автора текста и формирования модели авторского стиля.

2.2 Модели представления текста в виде наборов признаков.

2.2.1 Модель «Мешок слов».

2.2.2 yV-граммные модели.

2.2.3 Сглаживающие модели.

2.3 Анализ структуры и характеристик текста.

2.3.1 Характеристики текста, использующиеся для идентификации автора.

2.3.2 Модель иерархической структуры текста.

2.4 Параметры классификаторов.

2.5 Выводы по главе 2.

3 Моделирование параметров авторского стиля.'.

3.1 Общее описание экспериментов. Алгоритм проведения экспериментов.

3.2 Влияние количества и частотности признаков на точность идентификации автора.

3.3 Выбор типа ядрового преобразования машины опорных векторов.

3.4 Исследование характеристик текста в случае двух альтернатив.

3.5 Исследование характеристик текста в многоклассовых задачах.

3.6 Сравнение времени обучения классификаторов.

3.7 Исследование точности идентификации на основе сочетаний характеристик текста.

3.8 Исследование техник сглаживания.

3.9 Объединение полученных результатов. Использование ансамблей классификаторов.

3.10 Решение практических задач на основе разработанной методики (результаты внедрения). Идентификация автора короткого электронного сообщения.

3.10.1 Идентификация автора короткого электронного сообщения.

3.10.2 Пример решения частной задачи идентификации автора.

3.11 Рекомендации по практическому применению методики.

3.12 Выводы по главе 3.

4 Программный комплекс для идентификации автора письменной речи «Авторовед».

4.1 Структура программного комплекса.

4.1.1 Подсистема сбора статистической информации.

4.1.2 База данных для хранения текстов и их характеристик.

4.1.3 Подсистема формирования файлов для исследований.

4.1.4 Аналитическая подсистема.

4.1.5 Подсистема представления результатов.

4.2 Алгоритмическое обеспечение.

4.2.1 Общий алгоритм работы подсистемы сбора статистической информации.

4.2.2 Алгоритм автоматического определения кодировки текста.

4.2.3 Алгоритм корректировки текста.

4.2.4 Алгоритмы разбора текста.

4.2.4.1 Алгоритмы определения границ предложения.

4.2.4.2 Алгоритм разбора предложения.

4.2.5 Алгоритм морфологического анализа.

4.2.6 Алгоритмическое обеспечение Подсистемы формирования файлов.

4.2.6.1 Алгоритм выполнения подготовленных запросов для извлечения характеристик текста из БД.

4.2.6.2 Алгоритм формирования подготовленных для исследований файлов.

4.3 Сравнение программного комплекса «Авторовед» с аналогами.

4.3.1 Анализ программного обеспечения в области определения авторства текстов.

4.3.2 Сравнение программного комплекса «Авторовед» с аналогами.

4.4 Выводы по главе 4.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Романов, Александр Сергеевич

Современное информационное общество использует вычислительные машины различного рода практически во всех сферах жизнедеятельности и, прежде всего, в научных исследованиях.

В своем современном воплощении компьютеры и сопутствующие им информационные системы представляют собой идеальное техническое решение для задач обработки больших объемов статистических данных и решения сложных вычислительных задач, необходимых, в частности, в образовательном процессе, лингвистических и криминалистических исследованиях для идентификации авторства текста, а также для решения более общей задачи - классификации текстовой информации.

Идентификацию автора текста определим как процесс установления автора по совокупности общих и частных признаков текста, составляющих авторский стиль.

Под авторским стилем будем понимать «набор свойств (параметров), характеризующих состав, способы объединения и статистико-вероятностные закономерности употребления речевых средств, образующих данную разновидность языка» [21].

Важность задачи идентификации автора печатного текста обуславливается повсеместным переходом от рукописного письма к печатному способу набора. При возникновении ситуации спорного авторства, при криминалистическом исследовании печатного текста развитые методы идентификации по почерку могут оказаться бесполезными. Кроме того, почерковедческая экспертиза позволяет определить лишь исполнителя, но не автора текста. Различные способы идентификации авторства текста являются на сегодняшний день эффективными инструментами в криминалистике для разрешения вопросов о спорном авторстве, плагиате, установления авторства анонимных текстов, пола автора, психологического портрета и т.д. Проведение автороведческой экспертизы осуществляется с привлечением экспертов, имеющих соответствующее образование в области лингвистики и филологии. Эффективных же количественных методик и инструментов автоматического определения авторства текстов для русского языка не разработано.

В области лингвистических исследований данные методики могут использоваться для изучения феномена авторства. Интерес здесь представляет отличие в стиле того или иного писателя; черты, которые делают его речь легко узнаваемой; индивидуальность или общность каких-либо характеристик. Существует ряд неатрибутированных литературных текстов, а также произведений, авторство которых до сих пор находится под сомнением. Так многие скептики приписывают авторство как минимум нескольких глав романа «Тихий Дон» М.А. Шолохова менее знаменитому казацкому писателю Ф.Д. Крюкову. И, несмотря на то, что почерковедческая экспертиза подтвердила, что черновики романа написаны рукой Шолохова, вопрос о том, пользовался ли он при этом какими-либо источниками, остается открытым. Аналогично, зарубежные исследователи подвергают сомнению авторство ряда произведений, приписанных У. Шекспиру. Очевидно, что существование точных количественных методов идентификации автора, методик и программного обеспечения на их основе могли бы разрешить большинство спорных вопросов в области литературоведения и истории.

Ещё одной сферой применения методик является сфера образования. Школьники и студенты с появлением глобальной сети Интернет всё реже сами выполняют рефераты, курсовые и доклады, предпочитая не тратить на это время и просто скачать готовые работы из сети Интернет. Использование подходов для определения авторства в этом случае позволит более объективно оценивать учащихся.

Эффективные методики идентификации на основе устойчивых характеристик можно применять и для решения ряда смежных задач: идентификации пола и тендера, профессии, национальности, уровня образования автора и т.д.

АКТУАЛЬНОСТЬ РАБОТЫ

За более чем 120-летнюю историю развития вопроса идентификации автора неизвестного текста отечественными и зарубежными исследователями было предложено множество методов определения автора текста, начиная от простого подсчета количества определенных слов в сравниваемых текстах и заканчивая разработками в области искусственного интеллекта.

У экспертов, занимающихся проблемами идентификации автора неизвестного текста, до последнего времени популярностью пользовались методы, основывающиеся на предположении о том, что каждый автор обладает набором специфических стилистических приемов, характерными языковыми особенностями (лексическими, грамматическими, фразеологическими), прослеживающимися во всех произведениях, благодаря которым его можно опознать. Внимание экспертов также привлекала любая автобиографическая информация, содержащаяся в тексте, «любимые» слова и т.п. Трудность использования этих методов заключается в том, что характерных особенностей у текста, равно как и у автора, может и не быть. Кроме того, если текст имеет выраженные особенности то, существует вероятность подмены типичных особенностей индивидуального стиля автора. К недостаткам следует также отнести и тот факт, что выявление отличительных черт авторского стиля носит субъективный характер, так как зависит от личности исследователя.

Вопросами идентификации автора текста в России, в частности, занимались Морозов Н.А., Марков А.А., Фоменко В.П. и Фоменко Т.Г., Хмелев Д.В., Хетсо Г., Рогов А.А., Сидоров Ю.В., Комиссаров А.Ю., Шевелев О.Г., Поддуб-ный В.В, Марусенко М.А.

Наиболее цитируемыми зарубежными авторами, занимавшимися вопросами определения авторства, являются Mendenhall Т.С., Morton A.Q., Farringdon J.M., Efron В., Thisted R., Teahan W. J., Chaski C.E., Stamatatos E., Juola P., Peng R.D., Joachims Т., Diederich J.J., Apte C. Lowe D., Matthews R., Tweedie F.J., De Vel O., Argamon S., Levitan S., Zheng R.

В настоящее время наблюдается повышенный интерес к количественным методам анализа текстовой информации на основе слабо контролируемых человеком характеристик текста, общих для всех авторов.

Однако общепринятого мнения о том, какой набор характеристик дает лучший результат, не существует. Этот вопрос остается открытым, в частности, для русского языка, т.к. существует немного работ, в которых проводились исследования на представительных русскоязычных корпусах. Недостаточно внимания уделено идентификации автора на основе комплексных характеристик текста, написанного на русском языке.

Работоспособность большинства методов идентификации автора для русского языка проверена в рамках решения частных задач. Судить о точности тех или иных методов по результатам исследования для английского и др. языков не корректно в силу особенностей строения каждого языка.

Сравнительный анализ методов на представительных корпусах, приведенный в работах ряда авторов, показывает, что лучшим классификатором в настоящее время является машина опорных векторов. Однако работ, посвященных исследованию данного метода для русского языка, нет.

Сопоставимые с машиной опорных векторов результаты дают искусственные нейронные сети. Шевелевым О.Г. установлено, что данный метод дает наиболее точные результаты, однако его использование затруднено в связи с большими временными затратами на подбор архитектуры сети и её обучение, поэтому полного исследования нейросетевого подхода проведено не было. В связи с этим актуальной становится задача исследования алгоритмов автоматического построения топологии нейронной сети.

Нерешенной задачей является идентификация авторства коротких текстов. Существующие методы работают с текстами объемом более 30000-40000 символов и большим количеством обучающих примеров (5-100 и более). Поэтому актуальной задачей является поиск решений для снижения требуемого объема выборок и их количества.

Существующие в настоящее время программные комплексы для идентификации автора, в числе которых «Штампомер» (JI.JI. Делицын), «Лингвоана-лизатор» (Москва, Д.В. Хмелев), «Атрибутор» (Москва, МГУ, Поликарпов А.А. и др.), «Лингвистический анализатор» (Самара, А. Львов), «СМАЛТ» (Петрозаводск, ПетрГУ, А.А. Рогов и др.), «Стилеанализатор» (Томск, ТГУ, О.Г. Шевелев), «JGAAP» (США, P. Juola), «Автор» (Москва, ВНИИСЭ, ЭКЦ УВД России) реализованы на основе методов идентификации авторства, математический и лингвистический аппарат которых не всегда гарантирует точный результат. Большинство программ носит демонстрационный характер или не предназначено для решения реальных практических задач. Объем текста, необходимого для работы программ, в лучшем случае составляет 30 ООО символов, что также ставит под сомнение возможность их использования в случае атрибуции реальных спорных текстов. Существующие программы не ориентированы на работу с короткими текстами, имеющими свою специфику. Особенности русского языка при анализе авторства не учитываются. Современные машинные методы интеллектуального анализа данных реализованы в них лишь частично.

Таким образом, разработка методики, в которой учтены недостатки существующих подходов, и создание программного комплекса на её основе являются актуальными задачами.

ЦЕЛЬ РАБОТЫ

Целью диссертационной работы является разработка и исследование методики идентификации авторства текстов на русском языке, обеспечивающей повышение точности определения автора, уменьшение объема текстовой выборки и снижение временных затрат на принятие решения, и создание программного комплекса для идентификации авторства на её основе.

Для достижения поставленной цели были решены следующие задачи:

1) анализ существующих методов, характеристик текста, программных средств, используемых для идентификации автора отечественными и зарубежными исследователями;

2) анализ структуры текста и моделей его представления для целей идентификации автора;

3) разработка методики идентификации автора неизвестного текста и получения информативных параметров авторского стиля;

4) разработка алгоритмического и программного обеспечения для идентификации автора неизвестного текста. Моделирование параметров авторского стиля.

ОБЪЕКТ И ПРЕДМЕТ ИССЛЕДОВАНИЯ

Объектом исследования является печатный текст и его характеристики. Предметом исследования являются характеристики текста, описывающие авторский стиль и методы идентификации автора неизвестного текста.

МЕТОДЫ ИССЛЕДОВАНИЯ

Для решения задач, сформулированных в работе, использовались методы математической статистики, вычислительного эксперимента и искусственного интеллекта. При разработке программной системы использовались методы объектно-ориентированного программирования.

НАУЧНАЯ НОВИЗНА РАБОТЫ

1. Разработана новая методика идентификации автора русскоязычного текста, в которой впервые для целей идентификации автора текста на русском языке применяются метод опорных векторов и нейронные сети каскадных корреляций, используются методы сглаживания вероятностей. Особенностью методики является принятие итогового решения об авторе текста несколькими классификаторами по принципу мажоритарного голосования.

2. Предложена теоретико-множественная модель текста, учитывающая его иерархическую структуру.

3. Разработано оригинальное алгоритмическое обеспечение для обработки текста, учитывающее особенности русского языка и электронных текстов, в том числе коротких электронных сообщений. и

4. Получены экспериментальные зависимости точности идентификации автора на основе различных характеристик русскоязычного текста при 2, 5, 10, 50 предполагаемых авторах и использовании искусственных нейронных сетей и метода опорных векторов, с применением методов сглаживания вероятностей. Предложена комбинация информативных признаков текста для описания авторского стиля, включающая частоты появления отдельных букв, знаков пунктуации, наиболее частых триграмм символов и слов русского языка.

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ РАБОТЫ

1. Предложенная методика и её программная реализация позволяют снизить временные затраты на 1-3 порядка, сократить требуемый для однозначной идентификации объем текста до 20000 символов, при этом повысить точность идентификации автора неизвестного текста на 0,05-0,15 по сравнению с существующими подходами.

2. Разработанное алгоритмическое и программное обеспечение системы «Авторовед» может использоваться как непосредственно для идентификации автора неизвестного текста на русском языке, так и для проведения комплексных исследований характеристик текста в задаче идентификации автора.

3. Полученная методика идентификации автора, алгоритмическое и программное обеспечение, база данных и SQL-запросы к ней могут применяться при решении смежных задач: идентификации языка текста, пола и тендера, профессии, национальности, уровня образования автора, а также других задач, связанных с анализом текста.

4. Результаты диссертационной работы использовались при выполнении проекта «Программное обеспечение для исследования характеристик текста в задачах идентификации автора» программы ФСРМПНТ «У.М.Н.И.К.» (договор № КР 04/07 от 9.06.2007 г.; № 014/08 от 9.09.2009 г).

ДОСТОВЕРНОСТЬ И ОБОСНОВАННОСТЬ

Достоверность и обоснованность полученных результатов подтверждаются серией практических экспериментов по идентификации автора на представительном корпусе текстов, а также согласованностью полученных данных с результатами других авторов.

ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ

1. Методика идентификации автора неизвестного текста позволяет определять автора с точностью 0,95-0,98, при этом снизить объем необходимого текста до 20000 символов и сократить временные затраты на принятие решения на 1 -3 порядка по сравнению с существующими подходами.

2. Авторский стиль наиболее точно описывается комбинацией характеристик текста, включающей частоты появления отдельных букв, знаков пунктуации, высокочастотных триграмм символов и слов русского языка.

3. Разработанное алгоритмическое и программное обеспечение для идентификации автора письменной речи «Авторовед» позволяет производить полный цикл обработки текстов, исследований влияния характеристик текста, вида классификатора и его параметров на точность идентификации автора неизвестного текста, идентифицировать автора из множества возможных претендентов с помощью искусственных нейронных сетей и машины опорных векторов, проводить анализ потенциально заимствованного текста, подтверждать или опровергать авторство текста.

ВНЕДРЕНИЕ

Разработанные методика идентификации автора и программный комплекс «Авторовед» внедрены в воинской части 51952 и Центре Технологий Безопасности ТУСУР. Внедрение показало положительный результат, состоящий в повышении точности идентификации автора, снижении временных затрат на эксперименты за счет автоматизации процесса и применяемых подходов.

Результаты диссертационной работы используются в учебном процессе Томского государственного университета систем управления и радиоэлектроники при изучении дисциплин «Теория информации» и «Методы программирования».

АПРОБАЦИЯ РАБОТЫ

Материалы работы докладывались и обсуждались на следующих конференциях и семинарах: