Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик

Суровцова, Татьяна Геннадьевна

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик

кандидата технических наук: Суровцова, Татьяна Геннадьевна
город: Петрозаводск
год: 2008
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик»

Автореферат диссертации по теме "Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик"

На правах рукописи

СУРОВЦОВА ТАТЬЯНА ГЕННАДЬЕВНА

МНОГОМЕРНЫЙ КОЛИЧЕСТВЕННЫЙ АНАЛИЗ

И КЛАССИФИКАЦИЯ ТЕКСТОВ НА ОСНОВЕ ЛИНГВОСТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК

05.13.18 — математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание учёной степени

кандидата технических наук

Петрозаводск - 2008

003453048

Работа выполнена в государственном образовательном учреждении высшего профессионального образования

ПЕТРОЗАВОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Научный руководитель: доктор технических наук, профессор А. А. Рогов,

Официальные оппоненты: доктор физико-математических наук, профессор А. М. Камачкин, кандидат физико-математических наук, доцент В. Т. Вдовицын, Ведущая организация:

ГОУ ВПО «Карельский государственный педагогический университет»

Защита диссертации состоится «12. »декабря 2008 года в /3 часов на заседании диссертационного совета Д 212.190.03 при Петрозаводском государственном университете по адресу: 185910, г. Петрозаводск, пр. Ленина, д. 33.

С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета.

Автореферат разослан « ^ » 2008 года.

Ученый секретарь диссертационного Д 212.190.03

В. В. Поляков

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Выполнение разбиения на группы текстов, написанных на естественном языке, на основании лингвос-татистических характеристик является одной из актуальных задач автоматической обработки текстов. Можно выделить две близкие проблемы — классификации и кластеризации. Первая состоит в том, чтобы отнести каждый из набора текстов к определенной категории, вторая — разбить набор текстов на группы, близкие в некотором смысле. Задачи автоматической классификации и кластеризации текстов имеют большое практическое значение, применяются при обработке информационных потоков, таких как электронная почта и новости, рекламные объявления, создании каталогов в Интернете, а также при автоматическом реферировании и аннотировании, атрибуции текстов.

Несмотря на большое количество исследований в этой области, существует потребность в надежных и научно-обоснованных методах, в первую очередь способных работать с текстами небольшого объема, а также чувствительных к определению авторского стиля в случае литературных произведений. Для выявления наиболее эффективных алгоритмов классификации и кластеризации текстов необходимо сравнение результатов их работы на едином тестовом материале. Существующие методы используют отдельные характеристики текста, что в некоторых случаях приводит к противоречивым результатам.

Темой исследования является комплексный подход к решению задачи классификации и кластеризации текстов на основе лингвостатистических характеристик на базе единого тестового материала.

Целью исследования является нахождение более эффективных методов решения проблемы классификации и кластеризации текстов на основе их лингвостатистических характеристик.

Задачи исследования: • Проанализировать существующие методики классификации и кластеризации текстов с целью определения границ применимости и формулировки рекомендаций по использованию.

Провести их программную реализацию и апробацию на имеющемся материале.

• Рассмотреть возможность применения метода, основанного на индуктивном построении классификаторов, для решения задачи классификации и кластеризации текстов.

• Выявить наиболее информативные лингвостатистические характеристики текста, определяющие стиль писателя.

• Разработать комплексную оценку результатов, полученных с использованием различных методов.

• Спроектировать и разработать информационно-аналитическую систему для анализа лингвостатистических характеристик литературных произведений.

• Разработать описание морфологического и синтаксического разбора текстов с использованием языка XML.

• Провести апробацию разработанной системы для атрибуции ряда произведений из раздела Dubia1 Ф. М. Достоевскому.

Методы исследования. При решении перечисленных задач использовались методы теории вероятностей и математической статистики, теории распознавания образов, прикладного статистического анализа, теории графов, теории баз данных.

Научная новизна. Предложено применение метода, основанного на индуктивном построении классификаторов, для классификации текстов и групп текстов. Разработан метод для многомерного количественного анализа и комплексной оценки различий лингвостатистических характеристик текстов.

Определены границы применимости и даны рекомендации по использованию метода «сильного графа», методов кластерного и иерархического кластерного анализа для синтаксической структуры текста.

Обоснована разработка информационно-аналитической системы, которая позволяет проводить классификацию и кластеризацию текстов на основе лингвостатистических характеристик, и дает возможность сравнить методы на едином тестовом материале,

1 Dubia (лат. «сомнительное») — произведения, предположительно приписываемые тому или иному автору.

выявить наиболее эффективные, комплексно учитывать результат работы нескольких методов.

Разработана спецификация на основе языка XML для описания морфологического и синтаксического разбора текста в соответствии с грамматикой русского языка. Основные результаты, выносимые на защиту

1. Предложен метод для многомерного количественного анализа лингвостатистических характеристик текстов, основанный на индуктивном построении классификаторов с построением статистического критерия, который демонстрирует хорошие результаты при классификации текстов и групп текстов, эффективен при работе с короткими текстами, имеет возможность выделения наиболее информативных признаков, учитывает несколько лингвостатистических характеристик в одном критерии.

2. Выявлен ряд ограничений для методов, основанных на проверке статистических гипотез, кластерного анализа и «сильного графа» при их применении для классификации и кластеризации текстов и групп текстов.

3. Реализована информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений. В нее включены методы, позволяющие проводить классификацию и кластеризацию текстов и групп текстов, а также проводить расчет лингвостатистических признаков для исследуемых произведений.

4. Разработана спецификация на основе языка XML, позволяющая хранить морфологический и синтаксический разбор текста в виде файлов в формате, доступном для обработки большинству информационных систем.

Основные практические результаты работы. Рассмотренные в данной работе методы для классификации и кластеризации текстов и групп текстов на основании лингвостатистических характеристик реализованы в виде информационно-аналитической системы, которая может быть использована при проведении филологических исследований, зарегистрирована в Отраслевом

фонде алгоритмов и программ под № 10481, дата регистрации 22.04.2008.

Была проведена атрибуция ряда произведений из раздела Dubia Ф. М. Достоевскому с использованием метода, основанного на индуктивном построении классификатора, и статистического критерия. Были выявлены наиболее информативные лингво-статистические характеристики стиля Ф. М. Достоевского. Способ построения статистического критерия на основе классификатора может быть использован не только для классификации текстов, но и в других областях.

Спецификация на основе языка XML для описания морфологического и синтаксического разбора текста в соответствии с грамматикой русского языка может быть использована для хранения разборов текстов в виде «плоских» файлов.

Реализация. При проведении данного исследования был использован размеченный корпус, в основе которого лежат тексты 60—70-х гг. XIX века — публицистические статьи из журналов «Время», «Эпоха», «Современник», «Гражданин» и других в оригинальной орфографии дореволюционной России. Информационная поддержка осуществляется с использованием программного комплекса «Статистические методы анализа литературного текста» (ПК «CMAJ1T»). Проект поддержан грантами РГНФ № 02-04-12015в, № 05-04-12418в, № 08-04-12418в, руководитель Рогов А. А.

Информационно-аналитическая система, расширяющая возможности ПК «CMAJ1T», реализована с использованием плат-формонезависимого и свободнораспространяемого программного обеспечения: сервера баз данных Oracle 10g ХЕ, с помощью которого осуществляется хранение и обработка информации, и браузера Mozilla Firefox 2 со стороны клиента. Интерфейс создан с помощью технологии Web 2.0. Интернет-адрес проекта: http://smalt.karelia.ru.

Апробация работы. Результаты диссертации были представлены на XI международной конференции серии «Нелинейный мир»: «Языки науки — языки искусства» (Пущино, 2006), 13 международной конференции «Математика. Компьютер. Образова-

ние» (Пущино, 2007), международной конференции «Диалог 2007» (Бекасово, 2007), XIII Всероссийской конференции «Математические методы в распознавании образов» (Зеленогорск, 2007), ежегодном международном научном семинаре АМ1СТ'2007 (Петрозаводск, 2007), международной конференции «Проблемы компьютерной лингвистики — 2008» (Воронеж, 2008), всероссийской научной конференции «1ЮЭЬ'2008» (Дубна, 2008), на научных семинарах кафедры математического моделирования систем управления ПетрГУ.

Публикации. По результатам выполненных исследований опубликовано двенадцать печатных работ, список которых приведен в конце автореферата.

Объем и структура диссертации. Диссертация состоит из введения, трех глав, заключения и списка литературы, содержащего 100 наименований. Общий объем работы, изложенный на 136 страницах машинописного текста, включает 18 страниц приложений, 16 таблиц и 13 рисунков.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертации, дается историческая справка и обзор современного состояния исследуемой области. Указывается место проблематики, рассматриваемой в диссертации, среди других задач близкой тематики, определяются объект и предмет исследования. Также во введении сформулирована цель работы, описана ее структура и представлены результаты, выносимые на защиту.

В первой главе рассказывается о математических методах, которые были использованы в работе для классификации и кластеризации текстов и групп текстов, среди них можно выделить: статистические методы, изучение переходов между составляющими единицами текста, арифметические методы, методы распознавания образов и искусственного интеллекта. Все они основаны на анализе лингвостатистических (числовых) характеристик, вычисляемых по тексту. Можно выделить следующие характеристики, которые могут быть получены для письменного текста и доступны для последующего анализа: 1. Легко вычисляемые по

тексту: длина предложений и слов, средняя длина предложений и слов; 2. Однородность текста (распределение по тексту составляющих единиц текста); 3. Грамматические конструкции языка; 4. Морфологические конструкции языка; 5. Синтаксические конструкции языка; 6. Лексика (богатство лексики, частотные словари, наличие определенных слов); 7. Переходы между составляющими единицами текста; 8. Анализ дополнительных признаков текста (сокращений, пунктуации, «смайликов», ошибок).

Методы кластерного анализа и иерархического кластерного анализа позволяют разбить множество объектов на несколько групп, на основании имеющегося набора признаков. В нашем случае объектами выступают тексты или предложения. Для каждого объекта рассчитывается набор характеризующих его лин-гвостатистических характеристик, на основании которого и происходит выделение групп текстов. При этом может рассматриваться любой набор признаков.

При выполнении классификации выбирается текст, который может быть построен особым способом, например, включать все произведения одного автора, или близкие по жанру тексты и т. п. Если другие тексты попадают с ним в один кластер, то считаем их близкими в пространстве выбранных признаков, если нет, то они относятся к другому классу.

Методы для исследования переходов между составляющими единицами текста на основании переходов между единицами текста: предложениями, словами, буквами, при развертывании его слева направо, позволяют выявлять группы текстов, имеющих близкую структуру переходов. Был рассмотрен метод «сильного графа», в его основе лежит построение графа «сильных связей», конструируемого по матрице относительных частот парной встречаемости единиц текста. Для получения такой матрицы необходимо: выбрать единицу текста, для которой будут рассматриваться переходы; выбрать систему классов, к которой можно отнести каждую единицу текста; перекодировать последовательность единиц текста в последовательность соответствующих обозначений классов; подсчитать частоты парной встречаемости для каждой пары классов с учетом направления развертывания текста

слева направо. По полученной матрице строится взвешенный ориентированный граф, структуру которого можно проанализировать, выделив некоторые общие детали с графами, построенными на основе других текстов или групп текстов.

Кроме того, рассмотрен метод подсчета отличий между матрицами переходов. Сначала определяется матрица относительных частот парной встречаемости классов единиц текста, как и в случае метода «сильного графа». Затем вводится индекс различия Р, который вычисляется для пары текстов или групп текстов как сумма мер различия по всем соответствующим элементам двух матриц. Получая близкие значения индекса различия Р, можем сделать вывод о близости текстов в некотором смысле.

Методы проверки статистических гипотез основаны на проверке гипотез о значимости различий распределений лингвос-татистических характеристик для сопоставляемых произведений или групп произведений. В результате применения выявляются группы текстов, имеющие близкое распределение рассматриваемых признаков, или существенно отличающееся.

Для проверки однородности распределения наблюдаемых признаков текста с текстами из контрольной группы используются следующие статистические критерии: критерий Стьюдента, критерий хг, непараметрический критерий Колмогорова-Смирнова. В отличие от стандартной процедуры проверки гипотезы в качестве критического значения а,,, для заданного уровня значимости берется максимальная величина из значений, полученных на текстах, безусловно принадлежащих исследуемому автору. В результате проверка каждого критерия дает положительный или отрицательный результат о близости текстов или групп текстов.

В диссертации рассмотрены проверка статистических гипотез об однородности распределения следующих лингвостатистиче-ских характеристик: 1. Общее распределение частей речи, на различных позициях предложения; 2. Средняя длина слова в буквах; 3. Общее распределение длины слова; 4. Средняя длина предложения в словах; 5. Общее распределение длины предложения; 6. Лексический спектр текста на уровне словаря; 7. Лексический спектр текста на уровне текста; 8. Индекс разнообразия лексики.

Особое внимание было уделено общему распределению частей речи на различных позициях предложения, так как предпочтительное использование в тексте определенных частей речи влияет на его стиль. Так употребление глаголов придает стилю произведения стремительный, динамичный характер, тогда как частое применение имен существительных является типичной чертой стиля произведений, посвященных философским и абстрактным темам. Был проведен анализ следующих позиций: 1. Общее распределение частей речи в первых двух и в последних трех позициях предложения; 2. Распределение частей речи в первой и второй позициях предложения; 3. Сочетание частей речи в первых двух позициях предложения; 4. Распределение частей речи в третьей с конца, предпоследней и последней позиции предложения; 5. Сочетание частей речи в последних трех позициях предложения.

Метод, основанный на индуктивном построении систем правил, вида «ЕСЛИ ... ТО ...» с весами по обучающей выборке. Правила используются при создании классификатора, позволяющего провести классификацию текстов или групп текстов. Классификаторы, основанные на правилах, имеют хорошую интерпретируемость решений. При классификации текст относится к тому классу, к которому было отнесено большинство из составляющих его предложений.

Введем обозначения. Пусть х=(xt,x2,...,xn) — набор номинальных признаков, который может быть получен для каждого предложения текста, где х, ={*„,x,2,...,x,ri /,/ = 1,2...« — множество возможных значений признака X,.

Существует к классов, по которым проводится классификация текстов. Обозначим Y — классовый признак с множеством возможных значений £) = {0,}, к >2. Предполагается существование неизвестного совместного распределения Р(х,у) признаков хх,Хг,...,Xn,Y. Из распределения Р(х,у) имеется обучающая выборка © = {(Wl),(W2),...,(W;)}.

Строим правила вида "ЕСЛИ <предпосылка> ТО <заключение> <с весом и>>", где предпосылка имеет С вид:

где 1,2,...,л, Д = 1,2,...,/;, < = 1,2,...,л, то есть рассматриваем цепочки конъюнкций длины Г, состоящие из упорядоченных пар «признак-значение», перебирая все возможные комбинации и исключая рассмотрение в одной цепочке одного признака с разными значениями, обычно предпосылка рассматривается при г = 1 и г — 2 .

Заключение имеет вид: с = {у =,},; е д то есть классовый признак в случае выполнения «предпосылки» принимает определенное значение классового признака. Вес ™е(0,1) является мерой влияния предпосылки правила на заключение.

Получаются правила вида с => С' < н> >. Если существует два

правила с одним и тем же заключением, то для вычисления общего веса правил пользуемся формулой для комбинации весов:

щФи'2=---. П)

Если — множество правил, то функция комбинации весов применяется к весам всех правил, входящих в 9?, для которых имеется одинаковое заключение. Получаем композиционный вес для множества правил и'(с']с,91) = ®апа ■ Тогда множество правил

9? индуцирует некоторый классификатор : х д который относит предложение, х = (х„х2,...,хп)еХ, определяемое набором

признаков, к тому классу, для которого композиционный вес максимальный:

/„(*) = аг8шах ]У(С:\С(Х),Ъ\). (2)

В множестве правил 9? нас интересуют только те, которые по обучающей выборке показали статистически значимые отличия распределения классового признака.

Сравнение методов и их совместное применение. Не исключена возможность, когда классификация текстов дает проти-

воречивые результаты. В этом случае можно воспользоваться комитетами классификаторов. Существует несколько способов объединения: выбор большинства, взвешенная линейная комбинация, динамический выбор, динамическая комбинация классификаторов. В разработанной информационной системе использован первый из возможных подходов — выбор большинства, который, по мере накопления результатов экспериментов, можно будет усовершенствовать.

Для наблюдения за несколькими лиигвостатистическими характеристиками в одном критерии в работе предложен способ построения статистического критерия на основе классификатора. Пусть Х = (Х1,Х2,...,ХП) — набор номинальных признаков, который может быть получен для каждого предложения текста, где х,={х1),х12,...,х1Г1 }, / = 1,2...п —множество возможных значений признака хг Обозначим через F — классовый признак с множеством возможных значений D = {0,1,... ,к -1}, к >2. Предположим, что определен некоторый классификатор /: X D. Предположим также, что существует неизвестное совместное распределения Р(х,у) признаков X13X2,...,X„,Y. Обозначим

I](x) = P(x\Y - 0 условное распределение вектора признаков

X при данном Y = /.

Пусть ©0 = {x,,x2,...,xw} — случайная выборка из одного из распределений /J(jc),/ = 0,1,...,£-1. Через #0 обозначим нулевую гипотезу: ®0 является выборкой из распределения рп(х) ■ Альтернативная гипотеза Я,: ®0 является выборкой одного из распределений Р{(х), / * 0.

Предположим, что X — случайный вектор признаков из распределения рп(х) . Через Ро обозначим вероятность ошибочной

классификации X, то есть, Рй = p{f(X) ф 0|#о } и пусть н, — количество элементов х выборки <£>„ таких, что /(х) ^ 0. Предположим, что нулевая гипотеза #0 верна, тогда случайная вели-

чии-на м распределена по биномиальному закону с параметрами N и рп, то есть:

Р(М/=к) = С^ра\\-р0)"-1,к = N. (3)

Естественно отвергнуть #0 если «намного» больше, чем можно было бы ожидать в случае истинности нулевой гипотезы

доопределим статистический критерий проверки нулевой гипотезы #„ против альтернативы я,. Пусть а — некоторое число такое, что 0 < а < 1. Через И0 такое, что

(4)

* = *„

Тогда критерий для проверки нулевой гипотезы Н0 определяется критической областью {л:: Л^ > }, то есть, если N у > Ы0, то гипотеза Н0 отвергается.

Рассмотрим реализацию описанного выше подхода в задаче атрибуции авторства. Пусть © = {(>,, V,),(х2,у2),...,(х,,>>,)}

обучающая выборка. В этом случае дг.,/ = 1, 2,...,/ является некоторым вектором лингвостатистических признаков, описывающих предложение, и у. еП представляет собой метку, указывающую на автора предложения. Далее строим некоторый классификатор / посредством индукции по обучающей выборке ©

и оцениваем значение р0 по тестовой выборке.

Пусть теперь Ф0 — {х,, х,,..., х у} —множество векторов признаков, описывающих литературный текст, состоящий из N предложений, имеющий спорное авторство. Вычисляем тестовую статистику N/, заменяем значение р0 его статистической оценкой, и используем статистический критерий (4) для проверки нулевой гипотезы //0: «текст, описываемый Ф0 был написан автором с меткой О».

Использование этой методики для многомерного количественного анализа лингвостатистических характеристик текстов позволяет при проверке гипотезы об авторстве произведения учесть влияние всех рассматриваемых лингвостатистических характеристик, а не отдельных, как это происходит при обычной процедуре проверки статистических гипотез.

Вторая глава содержит описание представленной автором информационно-аналитической системы для анализа лингвостатистических характеристик литературных произведений, которая является частью ПК «СМАЛТ».

Корпус электронных документов, поддерживаемый ПК «СМАЛТ», включает морфологические и синтаксические разборы литературных произведений и является ценным тестовым материалом для проведения экспериментов связанных с апробацией имеющихся математических методов классификации текстов и сравнения эффективности их применения. Особое внимание в работе уделено методам, позволяющим проводить анализ авторства произведения, а также работе с короткими текстами, представляющими особую сложность при определении авторства.

Для проведения анализа в информационно-аналитической системе предлагаются следующие группы методов: 1. Разбиение анализируемых текстов на группы с использование кластерного анализа; 2. Проверка статистических гипотез об однородности распределения частотных характеристик текстов; 3. Метод «сильного графа» для оценки парной связи грамматических и синтаксических классов.

Каждый из тестов может давать положительное или отрицательное заключение о близости групп произведений, поэтому введена комплексная оценка, которая учитывает все результаты и выдает единый результат. В процессе работы накапливается информация, позволяющая определить методы, которые обеспечивают более эффективную работу, то есть провести некоторое ранжирование методов.

Система имеет архитектуру «клиент-сервер», интерфейс реализован с использованием технологии Web 2.0. В качестве сервера был использован сервер баз данных Oracle 10g ХЕ, с помощью

которого осуществляется храпение и обработка данных. Клиент работает с системой удаленно с использованием браузера.

Особое внимание было уделено созданию пользовательского интерфейса. Введено понятие проекта, в котором пользователь проводит формирование групп текстов и выбирает необходимые для проведения исследования методы. Для облегчения работы их модификации оформлены в виде шаблонов, что позволяет избежать ввода большого числа входных параметров.

С целью унификации хранения данных был разработан формат — описание, которое позволяет хранить информацию о синтаксическом и морфологическом разборе текста в виде понятном как человеку, так и большинству программных систем, размечая «плоские» тексты с использованием языка разметки XML (extensible Markup Language). Результатом является DTD (Document Type Definitions), в котором описаны правила, в соответствии с которыми производятся эти разборы.

Таким образом, информационно-аналитическая система служит инструментом для проведения исследований с использованием имеющейся коллекции литературных произведений. Позволяет сравнивать результаты работы различных методов на едином тестовом материале.

В третьей главе описаны исследования, которые были выполнены с использованием информационно-аналитической системы. Приведены результаты апробации метода, основанного на индуктивном построении классификаторов, и методики построения статистического критерия на основе классификатора для атрибуции произведений.

Методы кластерного анализа, были применены для исследования синтаксической структуры произведений, так как этот уровень языка ярко характеризует индивидуальность писателя. Было предложено выделить синтаксические характеристики, которые были бы характерны для стиля Ф. М. Достоевского, а также определить группы текстов близких в некотором смысле.

Классы объектов, которые получились в результате, не дали четкого разделения по авторам произведений. Выяснилось, что размер текста влияет на выбранные для анализа характеристики,

поэтому происходит разделение текстов маленького и большого размера, что может влиять на результаты атрибуции. Таким образом, рассмотренные методы могут быть использованы для выделения групп текстов и их дальнейшей классификации, но необходимо анализировать тексты разной длины отдельно.

Для всех текстов было проведено исследование переходов между предложениями. Сложные синтаксические связи, присутствующие в любом произведении, были приведены к виду, в котором их можно сравнивать формальными способами. Но в результате применения метода «сильного графа» и метода подсчета отличий между матрицами не удалось получить устойчивой зависимости получаемых результатов от значений параметров, используемых при построении графов.

Проверка статистических гипотез позволила выделить группы текстов, в которых распределение рассматриваемых лингвостати-стических характеристик отлично от контрольной группы текстов, составленной из произведений Ф. М. Достоевского, а также показала необходимость использования дополнительных методов анализа, так как рассмотрение каждой лингвостатистической характеристики выполняется независимо, а не в комплексе.

Метод, основанный на индуктивном построении классификаторов, был использован для проведения атрибуции ряда произведений Ф. М. Достоевского, входящих в раздел Dubia. Основываясь на обучающей выборке, были построены правила с использованием программной системы «СТАТКОП», затем была проведена классификация текстов. Далее построенный классификатор был использован для построения статистического критерия и проверки гипотезы об авторстве произведений. Эксперименты показали, что предложенный подход достаточно работоспособен даже в случае коротких литературных текстов, когда применение других методик малооправдано. Были выявлены наиболее информативные признаки, характеризующие стиль Ф. М. Достоевского.

В заключении сформулированы основные результаты диссертационной работы, выводы, рекомендации и направления дальнейших исследований.

В приложениях представлены статьи, являющиеся материалами для исследования. Описана структура базы данных. Приведены результаты классификации и кластеризации произведений при применении рассмотренных в работе методов для многомерного количественного анализа лингвостатистических характеристик текстов.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи

1. Суровцова, Т. Г. Использование экспертной системы для выявления скрытых количественных характеристик литературных произведений / Т. Г. Суровцова // Системы управления и информационные технологии. - 2007. - № 3.3(29). - С. 392396.

2. Рогов, А. А. Информационно-аналитическая система «СМАЛТ» / А. А. Рогов, Ю. В. Сидоров, А. И. Солопова, Т. Г. Суровцова // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007», Бекасово, 30 мая - 3 июня 2007. - М.: Издательский центр РГГУ, 2007. - С. 470-474.

3. Рогов, А. А. Количественный анализ и полипараметрическая классификация групп текстов при помощи экспертной системы / А. А. Рогов, Ю. В. Сидоров, Т. Г. Суровцова // Проблемы компьютерной лингвистики: сборник научных трудов - Вып. 3. - Воронеж : Издательско-полиграфический центр Воронежского государственного университета, 2008. - С. 256-262.

4. Суровцова, Т. Г. Анализ синтаксического разбора публицистических произведений Ф. М. Достоевского / Т. Г. Суровцова // Труды Петрозаводского государственного университета. Сер. Прикладная математика и информатика. - Петрозаводск, 2006.-Вып. 12.-С. 72-82.

5. Суровцова, Т. Г. Использование метода «сильного графа» при анализе синтаксического разбора публицистических произведений Ф. М. Достоевского / Т. Г. Суровцова // Труды Петрозаводского государственного университета. Сер. Прикладная математика и информатика. - Петрозаводск, 2006. - Вып. 12. -С. 83-91.

6. Суровцова, Т. Г. Описание синтаксического и морфологического разбора текста с использованием XML / Т. Г. Суровцова // Математика. Компьютер. Образование: сборник научных трудов, Пущино, 22-27 января 2007. - Том 2. - М.-Ижевск : НИЦ «Per. и хаот. Динамика», 2007. - С. 254-261.

7. Суровцова, Т. Г. Экспертная система для выявления скрытых количественных характеристик литературных произведений / Т. Г. Суровцова // Информационные технологии моделирования и управления. - 2007. - № 6 (40). - С. 650-655.

8. Рогов, А. А. Математические методы атрибуции литературных текстов небольшого объема / А. А. Рогов, Ю. В. Сидоров, Т. Г. Суровцова // Материалы XIII Всероссийской конференции «Математические методы в распознавании образов». -М. : МАКС Пресс, 2007. - С. 525-528.

9. Chistiakov, S. P. On One Approach to the Authorship Attribution of Literary Works / S. P. Chistiakov, T. G. Surovtsova // Proceedings of the AMICT'2007, Petrozavodsk, 21-23 August 2007. -Petrozavodsk: PetrSU Press, 2008. - P. 215-224.

10. Рогов, А. А. Программный комплекс «CMAJIT» / А. А. Рогов, Г. Б. Гурин, А. А. Котов, Ю. В. Сидоров, Т. Г. Суровцова // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Десятой Всероссийской научной конференции «RCDL'2008», Дубна, 7-11 октября 2008 г. - Дубна : ОИЯИ, 2008. - С. 155-160.

Тезисы докладов

11. Суровцова, Т. Г. Статистический анализ литературных текстов / Т. Г. Суровцова // Языки науки — языки искусства: сборник тезисов XI международной конференции серии «Нелинейный мир», Пущино, 3 -7 июня 2006. - Пущино, 2006. -С. 89.

12. Суровцова, Т. Г. Описание синтаксического и морфологического разбора текста с использованием XML / Т. Г. Суровцова // Математика. Компьютер. Образование: сборник тезисов 13 международной конференции, Пущино, 22-27 января 2007. - М.: R&C Dinamics, 2007. - С. 99.

Подписано в печать 28.10.2008. Формат 60x84 1/16. Бумага офсетная. 1 уч.-изд.л. Тираж 100 экз. Изд. № 250.

Государственное образовательное учреждение высшего профессионального образования ПЕТРОЗАВОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Типография Издательства ПетрГУ 185910, г. Петрозаводск, пр. Ленина, 33.

Оглавление автор диссертации — кандидата технических наук Суровцова, Татьяна Геннадьевна

ВВЕДЕНИЕ.

ГЛАВА 1. МАТЕМАТИЧЕСКИЕ МЕТОДЫ ДЛЯ ВЫДЕЛЕНИЯ ГРУПП ТЕКСТОВ.

§ 1 Использование кластерного анализа.

1.1 Метод кластеризаърш.

1.2 Метод иерархической кластеризации.

1.3 Классификация на основе полученных кластеров.

§2 Методы для исследования переходов между составляющими единицами текста.

2.1 Метод "сильного графа".

2.2 Метод подсчета отличий между матрицами переходов.

§3 Методы, основанные на проверке статистических гипотез.

3.1 Общее распределение частей речи.

3.2 Средняя длина слова в буквах, вычисляемая на основании выборок размерол1 в 500 слов.

3.3 Общее распределение длины слова.

3.4 Средняя длина предложения в словах, вычисляелшя на основании выборок размером в 30 предложений.

3.5 Общее распределение длины предложения.

3.6 Лексический спектр текста на уровне словаря.

3.7 Лексический спектр текста на уровне текста.

3.8 Индекс разнообразия лексики.

§4 Метод, основанный на индуктивном построении классификаторов.

4.1 Описание метода.

§5 Сравнение методов и их совместное применение.

5.1 Комитеты классификаторов.

5.2 Методика построения статистического критерия на основе классификатора.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Суровцова, Татьяна Геннадьевна

Актуальность темы

Исследование языка в первую очередь вызвано интересом к естественному интеллекту человека [43, 49], поэтому такая форма существования языка как письменный текст, также является объектом пристального внимания. Наблюдается устойчивый интерес к работам, проводимым в этой области.

Задачи по автоматической обработке текста, включают в себя задачи информационного поиска, связанные с нахождением информации в электронных базах знаний, автоматическим извлечением данных и фактов по заданной тематике, автоматическим реферированием электронных документов. А также другие проблемы обработки естественного языка с использованием вычислительной техники, а именно понимание естественного языка, лингвистическое обеспечение информационных систем разных типов, машинный перевод.

При автоматической обработке текстов среди других задач возникают две близкие, а именно классификации и кластеризации текстов. Первая состоит в том, чтобы отнести текст к определенной категории. Вторая — разбить набор текстов на группы, близкие в некотором смысле.

Общая постановка задачи классификации может быть записана следующим образом. Задано множество документов D = {dvd1.d^ и множество категории С = {с„с2.с|с|}. Задана неизвестная функция F, которая определяет принадлежность документа определенной категории F:D х С —> {0,1}. Необходимо найти функцию F', максимально близкую к F, которая и будет классификатором.

Построение классификатора F' проводится на подмножестве документов D, которое называют обучающей выборкой, проверяется с использованием подмножества документов D, которое называют тестовой выборкой. Эффективность построенного классификатора можно оценить по количеству полученных на тестовой выборке совпадений.

При кластеризации текстов происходит попытка выяснить естественное выделение в группах текстов определенных групп с использованием соответствующих алгоритмов и визуализации. Для каждого текста в любом случае строится набор признаков.

Задача автоматической классификации и кластеризации текстов имеет большое практическое значение. Соответствующие процедуры применяются при обработке информационных потоков, таких как электронная почта и новости, рекламные объявления, создания каталогов в Интернете, при автоматическом реферировании и аннотировании.

Тесно связана с этим задача атрибуции текстов. Атрибуция (от лат. attributio — приписывание) — определение атрибутов. Существуют методы позволяющие проводить атрибуцию текста. А именно отнесение его к определенному жанру, стилю, времени написания и т. п. Но вероятно наиболее важной является задача атрибуции авторства произведения. Для нее могут быть использованы любые методы классификации и кластеризации текстов, но существуют и значительные отличия при проведении этих процедур. В первую очередь это связано с определением авторства литературных произведений, когда сомнению подвергается принадлежность автору известного произведения, или происходит попытка восстановить историческую справедливость, вернув миру имя неизвестного писателя.

Автоматическое установление авторства письменных текстов, помимо литературоведения, применяются в сфере безопасности и при защите авторских прав, уголовном и гражданском делопроизводстве, криминалистике. Задача достаточно актуальна, так как все больше текстов приходится анализировать в электронном виде, лишенном, тех характерных атрибутов, которые отличают тексты, написанные от руки. Например:

• послано электронное письмо от имени человека, который отказывается от послания, сказав, что письмо было написано с его рабочего места во время его отсутствия;

• сообщения в блогах пишутся одним автором под несколькими вымышленными именами;

• при подготовке электронных изданий было проведено изменение содержания.

С такими ситуациями приходится сталкиваться все чаще, так как доступ к рабочему месту за компьютером часто не защищен. До сих пор при расследовании таких случаев использовали такие методы, как снятие показаний, анализ почерка, отпечатков пальцев, ритм печатания текста на клавиатуре и другие. Сейчас ищут возможность извлечь информацию об авторе текста из самого текста.

Особую важность имеет работа по атрибуции (установлению авторства) анонимного или псевдонимного литературного произведения, так как это связано с этическими проблемами.

В общем случае в атрибуции литературного произведения может быть выделено два этапа:

• этап формирования гипотезы;

• этап проверки гипотезы и интерпретации результатов.

Этап формирования гипотезы выполняется при помощи традиционных филологических методов атрибуции с учетом как субъективных, так и объективных данных. На этом этапе может быть сформулирована гипотеза о принадлежности текста Mi писателю А. Может выдвигаться гипотеза о времени написания текста Mi на основе его языковых и стилистических связей с текстами М2, М3,. Мп писателя А, датировка которых известна, и т. п.

Проверка гипотезы выполняется с учетом как субъективных, так и объективных данных, а именно наличия свидетельств в документах архивов, письмах, анализе стиля автора и других. Атрибуция считается выполненной, когда имеется совпадение биографических, идеологических и стилистических данных произведения предполагаемого автора с полученными материалами.

Этап проверки гипотезы и интерпретации результатов может выполняться и методами прикладной лингвистики с использованием процедур статистико-вероятностного анализа, теории классификации, теории распознавания образов и других математических методов. Но при этом надо понимать, что статистико-вероятностные методы, применяемые при атрибуции, используются только для проверки гипотезы и никакой самостоятельной роли не играют.

Таким образом, положительное решение по вопросу атрибуции текста может быть принято только в случае совпадения результатов филологического и математико-статистического анализа. Этот подход используется в данной работе при рассмотрении результатов тех или иных методов при проведении атрибуции текстов.

Возможность применения математических методов при атрибуции авторства обеспечивает принятое в стилистике понятие стиля, которое исследовалось в частности академиком В. В. Виноградовым, по его мнению "стиль писателя должен изучаться как единая, внутренне целостная система функционально согласованных средств словесного выражения", в том числе и с использованием математических методов [12, 13, 14].

История и анализ современных методов

Истоки изучения текстов с использованием математики можно увидеть еще в занятиях кабалистов, которые видели скрытый смысл письменных знаков, если их отобразить цифрами.

Первым источником, в котором упоминается использование численных методов при исследовании литературных произведения, считается письмо шотландского математика Огастеса Моргана (Augustus De Morgan) написанное в 1851, в котором он рассказывает о своих вычислительных опытах, проводимых им при изучении Нового Завета, и делает предположение о том, что "один человек напишет о разных вещах более похоже, чем разные люди об одном и том же". Он предложил сравнить среднее число букв в греческом тексте "Послания к Евреям" (Epistle to the Hebrews) со средним значением в других посланиях Павла [79].

Таким образом, в то время основной интерес лежал в области определения авторства книг Ветхого и Нового завета, изучения произведений авторов школы Платона, Аристотеля, Гомера и Шекспира, и многое другое. Сравнивались легко вычисляемые характеристики, такие как длины слов, предложений, предпочтения в использовании служебных слов.

В восьмидесятые годы XIX века было предпринято множество попыток описания особенностей литературного стиля с помощью таблиц и графиков, самой заметной стало произведение американского физика Томаса Мандельхолл "Характеристические кривые композиции", в котором он рассматривал распределения длины слов и частоты букв в текстах Бэкона, Шекспира, Марлоу [85].

В опубликованной в 1944 году работе шотландского статистика Уд-ни Йеля "Статистическое исследование литературного словарного запаса" рассматривалось число встречаемости существительных как признак, по которому можно судить об авторстве произведений [99].

В качестве основных работ, которые были посвящены стилеметрии (stylometry), в России в докомпьютерный период для решения задач атрибуции, можно привести исследования начала XX века Николая Александровича Морозова (1854 -1946). В статье, вышедшей в 1915 году и названной "Лингвистические спектры", Н. А. Морозов характеризует свой метод как "средство для отличения плагиата от истинных произведений того или иного известного автора" [38]. Идею метода Морозов заимствует у немецких исследователей XIX века В. Диттербергера и К. Риттера, которые изучали спорные тексты (среди них тексты, приписываемые Платону, Гёте и др.) методами статистического анализа употребительности -отдельных речевых форм, слов, выражений, фразеологических оборотов и синонимов. Причем в качестве счетных единиц выбирались наиболее подвижные и легко заменяющиеся синонимами элементы языка. Интересна реакция на эту статью крупнейшего отечественного ученого А. А. Маркова, который, ссылаясь на свой опыт, изучения текста "Евгения J Онегина", а также на результаты повторенных им исследований тех же текстов, что служили материалом анализа для Н. А. Морозова, показал, что выводы последнего не достоверны, так как были получены на текстах недостаточного объема [36].

В русской и советской литературе много вопросов связанных с атрибуцией текстов. Например, древнерусские тексты, летописи, которые создавались в Древней Руси анонимными и псевдонимными летописцами.

30-е годы XIX века стали годами "восстания псевдонимов" из-за гонений связанных с восстанием декабристов, оставили миру целый ряд произведений с неизвестным и приписываемым авторством.

В конце XIX века русская публицистика также очень часто была анонимна или подписывалась псевдонимами. Тогда же появились первые "фабрики по производству романов", явление широко распространенное и в наши дни. В современной литературе наиболее известным вопросом остается авторство "Тихого Дона".

Большинство современных методов определения авторства, так или иначе, основаны на анализе лингвостатистических (числовых) характеристик, вычисляемых по тексту.

Можно выделить следующие характеристики, которые могут быть получены для письменного текста и доступны для последующего анализа:

1. легко вычисляемые по тексту: длина предложений и слов, средняя длина предложений и слов;

2. однородность текста (распределение по тексту составляющих единиц текста);

3. грамматические конструкции языка;

4. морфологические конструкции языка;

5. синтаксические конструкции языка;

6. лексика (богатство лексики, частотные словари, наличие определенных слов);

7. переходы между составляющими единицами текста;

8. анализ дополнительных признаков текста (сокращений, пунктуации, "смайликов", ошибок).

Полученные лингвостатистические характеристики подвергаются анализу с использованием различных математических методов, среди которых можно выделить следующие:

1. статистические методы [6, 11, 15, 17, 28, 51, 66, 91];

2. изучение переходов между составляющими единицами текста [9, 65, 67];

3. арифметические методы [63, 92];

4. методы распознавания образов и искусственного интеллекта [50, 87, 90].

Несмотря на большое количество работ посвященных методам автоматического определения авторства, к ним обнаруживается достаточно настороженное отношение, как со стороны математиков [36], так и филологов [24, 94], что не остается без внимания специалистов в области атрибуции, которые рассматривают критику как требование к систематизации уже накопленных материалов и создания базы для проведения дальнейших исследований [78, 93].

Постановка задачи и объект исследования

Изучение структуры литературного текста с использованием различных математических методов имеет богатую историю, а появление вычислительных машин расширило возможности проведения различных экспериментов.

Проведение подобных исследований предполагает наличие литературного материала, отобранного и подготовленного специалистами. Многие используемые электронные корпуса текстов обычно ориентированы на тексты XX века современного русского языка, есть корпуса, посвященные текстам средневековой Руси. В данном исследовании использован корпус, в основе которого лежат тексты 60-70-х гг. XIX века, а именно публицистические статьи из журналов "Время", "Эпоха", "Современник", "Гражданин" и других в оригинальной орфографии дореволюционной России.

Работа по созданию и поддержке корпуса ведется в Петрозаводском государственном университете с 1995 года. Информационная поддержка осуществляется с использованием программного комплекса "Статистические методы анализа литературного текста" (ПК "CMAJIT"). Проект был поддержан грантом РГНФ № 02-04-12015в, № 05-04-12418в, руководитель Рогов А. А. Адрес в Интернет, посвященный ресурсу: http://smalt.karelia.ru.

Информационная система имеет модульную структуру, для своей работы использует архитектуру клиент-сервер. В настоящее время реализованы модули, которые позволяют проводить наполнение базы информацией о литературных произведениях, проводить морфологический и синтаксический разбор произведения, осуществлять хранение и обработку полученной информации.

Было предложено разработать информационно-аналитическую систему, расширяющую возможности ПК "СМАЛТ", которая, опираясь на единый тестовый материал, позволит сравнить имеющиеся методы по классификации и кластеризации текстов, предложить новые, дать у. рекомендации по их применению.

В первую очередь нас интересовали методы, которые позволяют „ проводить атрибуцию текстов и работать с текстами небольшого объема, так как, несмотря на большое количество исследований в этой области, , существует потребность в надежных и обоснованных методах определения авторства [78].

Цель работы

Целью данной работы является разработка информационно-аналитической системы для анализа лингвостатистических характеристик литературных произведений, расширяющей возможности программного комплекса "Статистические методы анализа литературного текста" (ПК "СМАЛТ") [44].

Информационно-аналитическая система должна включать методы, позволяющие проводить классификацию и кластеризацию текстов и групп текстов, а также рассчитывать необходимые числовые характеристики, что позволяет сравнивать методы на едином тестовом материале.

Для достижения поставленной цели в ходе исследования были решены следующие задачи:

1. Проанализированы существующие методики для классификации и кластеризации текстов и групп текстов и предложена новая. Проведена их программная реализация и апробация на имеющемся материале. Созданы рекомендации по применению.

2. Спроектирована и разработана информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений.

3. Проведены исследования синтаксической структуры произведений.

4. Проведена атрибуция Ф. М. Достоевскому ряда произведений из раздела Dubia1.

5. Рассмотрены возможности комплексной оценки для результатов работы различных методов.

6. Исследованы возможности для описания морфологического и синтаксического разбора текстов с использованием языка XML.

При решении указанных задач использовались методы теории вероятностей и математической статистики, теории распознавания образов, прикладного статистического анализа, теории графов, теории баз данных.

Научная новизна

1. Обоснована разработка и реализована информационно-аналитическая система, входящая в ПК "CMAJIT", предназначенная для анализа лингвостатистических характеристик литературных произведений, которая позволяет проводить классификацию и кластеризацию текстов на основе рассчитываемых характеристик. Дает возможность сравнить

1 Dubia (лат. "сомнительное") — произведения, предположительно приписываемые тому или иному автору. методы на едином тестовом материале, выявить наиболее эффективные, комплексно учитывать результат работы нескольких методов.

2. Проведены исследования синтаксической структуры текста с использованием методов кластерного и иерархического кластерного анализа, а также метода "сильного графа". Даны рекомендации по использованию.

3. Предложено использование метода, основанного на индуктивном построении классификаторов, для классификации текстов и групп текстов, и методика построения статистического критерия на основе классификатора. Проведена их апробация при проведении атрибуции Ф. М. Достоевскому ряда произведений, относящихся к разделу Dubia.

4. Разработана спецификация на основе языка XML для описания морфологического и синтаксического разбора текста в соответствии с грамматикой русского языка.

Объем и структура диссертации

Диссертация состоит из введения, трех глав, заключения и списка литературы, содержащего 99 наименований. Общий объем работы, изложенный на 134 страницах машинописного текста, включает 18 страниц приложения, 16 таблиц и 13 рисунков.

Заключение диссертация на тему "Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик"

Основные выводы и рекомендации

В заключении сформулируем основные результаты работы:

1. Разработана информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений, входящая в ПК "СМАЛТ". В нее включены методы, позволяющие проводить классификацию и кластеризацию текстов и групп текстов, а также проводить расчет лингвостатистических признаков для исследуемых произведений. Сравнивать результаты работы на едином текстовом материале.

2. Предложено использование метода, основанного на индуктивном построении классификаторов, для классификации текстов и групп текстов. Апробация метода при атрибуции авторства произведений показала его эффективность при работе с короткими текстами, легкую интерпретируемость результатов, а также выделение наиболее информативных признаков.

3. Предложен способ построения статистического критерия на основе классификатора. Использование этой методики позволило при проверке гипотезы об авторстве произведения учесть влияние всех рассматриваемых лингвостатистических характеристик, а не отдельных, как это происходит при обычной процедуре проверки статистических гипотез.

4. Предложена спецификация на основе языка XML для описания морфологических и синтаксических разборов текстов, которая может быть использована для хранения разборов в виде "плоских" файлов.

5. При использовании методов кластерного и иерархического кластерного анализа выявлено влияние размера текста на выбранные для анализа характеристики, рекомендовано анализировать тексты разной длины отдельно.

6. Применение метода "сильного графа" не выявило возможности устойчивой зависимости получаемых результатов от значений параметров аир. При выборе значения а надо определять его в зависимости от длины рассматриваемого текста.

7. Использование методов, основанных на проверке статистических гипотез, показало необходимость использования дополнительных методов анализа, так как рассмотрение каждой лингвостатистической характеристики выполняется независимо.

Данное исследование может быть продолжено в дальнейшем, анализом новых методов, тестированием их на едином материале, выявлением существующих зависимостей между различными методами. Выявление наиболее перспективных с точки зрения классификации текстов и групп текстов. Информационно-аналитическая система может быть использована для проведения филологических исследований стиля писателя.

5.5 Заключение

Предложенный метод классификации текстов имеет некоторые преимущества перед другими широко используемыми в области атрибуции литературных текстов подходами, так как использование правил позволяет исследовать авторский стиль, они достаточно легко поддаются интерпретации.

При этом происходит выделение множества наиболее информативных признаков с точки зрения классификации текстов. Этот процесс можно сравнить с выделением наиболее значимых особенностей текста читателем литературного произведения при вынесении суждений об его авторстве и стиле, и т. п., происходящем в большинстве случаев неосознанно.

Были сделаны следующие выводы о рассматриваемых характеристиках:

• для построения классификатора из рассмотренных признаков информативными можно признать следующие восемь: 6, 7, 8, 14, 15, 16, 17, 20; из них можно выделить признаки 7, 8, 15, 16, как самые показательные;

• для признаков 9, 10, 11, 12, 18 различий в распределении классового признака не было обнаружено, поэтому их можно исключить из дальнейшего рассмотрения.

При построении и проверке гипотезы с использованием имеющего классификатора основным преимуществом является использование всех имеющихся лингвостатистических характеристик в одном критерии. Важно и то, что имеется возможность получить оценку мощности соответствующего критерия. Эксперименты показали, что предложенный подход работоспособен даже в случае коротких литературных текстов, когда применение других методик малооправдано.

Заключение к третьей главе

В третьей главе был рассмотрен опыт применения методов, описанных в главе 1, с использованием информационно-аналитической системы для анализа лингвостатистических характеристик литературных произведений, см. главу 2.

Представлены полученные результаты при использовании методов кластерного анализа и переходов между составляющими единицами текста для анализа синтаксической структуры произведения.

Методы, основанные на проверке гипотез, и методы, использующие индуктивное построение классификатора, были применены для проверки гипотезы об авторстве Ф. М. Достоевскому ряда произведений, входящих в раздел Dubia.

По всем использованным методам даны рекомендации по использованию, см. соответствующие параграфы. Полученные результаты переданы специалистам, занимающимся творчеством Ф. М. Достоевского. Планируется продолжить проверку методов на более обширной базе произведений.

Библиография Суровцова, Татьяна Геннадьевна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Адамов, С. Ю. Информатика в статистике: Словарь-справочник / С.Ю.Адамов, С.А.Айвазян. М. : Финансы и статистика, 1994. -208 с.

2. Айвазян, С. А. Прикладная статистика и основы эконометрики / С. А. Айвазян, В. С. Мхитарян. -М. : ЮНИТИ, 1998. 1022 с.

3. Алексеев, А. А. "Текстолог-квантификатор" и индивидуально-авторский стиль / А. А. Алексеев // Русская литература. 1995. - № 4. — С. 172-175.

4. Афифи, А. Статистический анализ: Подход с использованием ЭВМ / А. Афифи, С. Эйзен. М. : Мир, 1982. - 488 с.

5. Балакин, А. Ю. В плену "холодных чисел" / А. Ю. Балакин // Русская литература. 2003. - № 2. - С. 208-214.

6. Батов, В. И. Существует ли формула авторства? / В. И. Батов // Число и мысль. -М. : Знание, 1984. Вып. 7.-160 с.

7. Болыиев, JI. Н. Таблицы математической статистики / JI. Н. Болынев, Н. В. Смирнов. -М. : Наука, 1983. -415 с.

8. Боровиков, В. П. Statistica — Статистический анализ и обработка данных в среде Windows / В. П. Боровиков, И. П. Боровиков. М. : ИИД "Филин", 1998.-592 с.

9. Ю.Воронина, И. Е. Компьютерное моделирование лингвистических объектов / И. Е. Воронина. — Воронеж : Издательско-полиграфический центр Воронежского государственного университета, 2007. 177 с.

10. П.Вашак, П. Длина слова и длина предложения в текстах одного автора / П. Вашак, под ред. Б. Н. Головина // Вопросы статистической стилистики. -Киев, 1974.

11. Виноградов, В. В. Проблема авторства и теория стилей / В. В. Виноградов. М. : Государственное издательство художественной литературы, 1961.-613 с.

12. З.Виноградов, В. В. Сюжет и стиль / В. В. Виноградов. Л. : Издательство академии наук СССР, - 1963. - 190 с.

13. Н.Виноградов, В. В. Избранные труды. Язык и стиль русских писателей: от Гоголя до Ахматовой / В. В. Виноградов, отв. ред. А. П. Чудаков. -М. : Наука, 2003.-390 с.

14. В поисках потерянного автора: Этюды атрибуции / М. А. Марусенко и др.. СПб. : Филологический ф-т СПбГУ, 2001. - 216 с.

15. Голицын, Г. А. Информация — Логика — Поэзия // Число и мысль. -М.: Знание, 1984. Вып. 7. - 160 с.

16. Головин, Б. Н. Язык и статистика / Б. Н. Головин. М., 1971. - 192 с.

17. Дейт, К. Дж. Введение в системы баз данных / К. Дж. Дейт. -К.,М.,СПб. : Издательский дом "Вильяме", 2000. 848 с.

18. Дон, Ч. XQuery: язык запросов XML / Ч. Дон // Открытые системы. -2003.-№ 1.-С. 61-72.

19. Дюк, В. А. Компьютерная психодиагностика / В. А. Дюк. СПб. : Братство, 1994. — 364 с.

20. Дюран, Б. Кластерный анализ / Б. Дюран, П. Оделл. М. :Статистика, 1977.-128 с.

21. Кормилов, С. И. Математика на службе филологии / С. И. Кормилов // Вестник Московского Университета Сер. 9. Филология. — 2003. — № 5. — с. 223-231.

22. Милов, Л. В. От Нестора до Фонвизина. Новые методы определения авторства / Л. В. Милов и др.. М. : Издательская группа «Прогресс», 1994.-446 с.

23. Моль, А. Теория информации и эстетическое восприятие / А. Моль. -М. : Мир, 1966.-350 с.

24. Моль, А. Искусство и ЭВМ / А. Моль, под ред. Ф. Я. Фридмана. // Искусство и ЭВМ. -М. : Мир, 1975. 557 с.

25. Наумов, В. В. Лингвистическая идентификация личности /

26. B. В. Наумов. -М. : КомКнига, 2006.-240 с.

27. Орлов, Ю. К. Невидимая гармония / Ю. К. Орлов // Число и мысль. — М.: Знание, 1980. Вып. 3.-192 с.

28. Корбетт, Г. Г. Компьютерная лингвистика и типология / Г. Г. Корбетт // Вестник Московского Университета Сер. 9. Филология. 1997. - № 2.1. C. 122-140.

29. Лизоркин, Д. А. Язык запросов и совокупности XML-документов, соединенных при помощи ссылок языка XLink / Д. А. Лизоркин // Программирование. 2005. -№ 3. - С. 33-58.

30. Мартыненко, Г. Я. Основы стилеметрии / Г. Я. Мартыненко. Л. : Изд-во ЛГУ, 1988.-176 с.

31. Марков, А. А. Об одном применении статистического метода / А. А. Марков // Известия Императорской академии наук Сер. 6.-1916. -№4. с. 239-242.

32. Марусенко, М. А. Атрибуция анонимных и псевдоанонимных литературных произведений методами распознавания образов / М. А. Марусенко. Л. : Изд-во ЛГУ, 1990. - 168 с.

33. Москин, Н. Д. Теоретико-графовые модели фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация автореф. дис.канд. тех. наук : 05.13.18 / Москин Николай Дмитриевич. Петрозаводск, 2006. — 23 с.

34. Пиотровский, Р. Г. Математическая лингвистика / Р. Г. Пиотровский, К. Б. Бектаев, А. А. Пиотровская. М. : Высшая школа, 1977. - 383 с.41 .Питц-Моултис, Н. XML / Н. Питц-Моултис, Ч. Кирк. СПб. : БХВ-Петербург, 2000. - 736 с.

35. Пирс, Дж. Символы, сигналы, шумы / Дж. Пирс. М. : Мир, 1967. -332 с.

36. Потапова, Р. К. Речь: коммуникация, информация, кибернетика / Р. К. Потапова. М. : Радио и связь. - 1997. - 528 с.

37. Розенталь, Д. Э. Современный русский язык / Д. Э. Розенталь, И. Б. Голуб, М. А. Теленкова. М. : Айрис-пресс, 2002. - 448 с.

38. Рябцева, Н. К. Язык и естественный интеллект / Н. К. Рябцева. М. : Academia, 2005. - 640 с.

39. Севбо, И. П. Графические представления синтаксических структур и стилистическая диагностика / И. П. Севбо. Киев : Наук, думка, 1981. — 192 с.

40. Сидоров, Ю. В. Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров : автореф. дис.канд. тех. наук : 05.13.18 / Сидоров Юрий Владимирович. Петрозаводск, 2002. -21 с.

41. Синелева, А. В. Атрибуция «Романа с кокаином»: лингвостатистическое исследование / А. В. Синелева. Нижний Новгород : Изд-во Нижегородского госуниверситета им. Н.И. Лобачевского, 2000. - 92 с.

42. Степанов, А. А. Эвристика стиля атрибуция авторства / А. А. Степанов // Литературная учеба. - 1998. - № 2. - С. 155-160.

43. Суровцова, Т. Г. Статистический анализ литературных текстов / Т. Г. Суровцова // Языки науки — языки искусства: сборник тезисов XI международной конференции серии "Нелинейный мир", Пущино, 3 -7 июня 2006. Пущино, 2006. - С. 89.

44. Суровцова, Т. Г. Экспертная система для выявления скрытых количественных характеристик литературных произведений / Т. Г. Суровцова // Информационные технологии моделирования и управления. — 2007. — № 6(40). С. 650-655.

45. Суровцова, Т. Г. Использование экспертной системы для выявления скрытых количественных характеристик литературных произведений / Т. Г. Суровцова // Системы управления и информационные технологии.- 2007. № 3.3(29). - С. 392-396.

46. Уотермен, Д. Руководство по экспертным системам / Д. Уотермен. М. : Мир, 1989.-388 с.

47. Фоменко, В. П. Авторский инвариант русских литературных текстов /

48. B. П. Фоменко, Т. Г. Фоменко // Новая хронология Греции: Античность в средневековье. -М. : Изд-во МГУ, 1996. Т. 2. - С. 768-820.

49. Фрумкина, Р. М. Психолингвистика / Р. М. Фрумкина. М. : Издательский центр "Академия", 2001. - 320 с.

50. Фукс, В. По всем правилам искусства / В. Фукс, под ред. Ф. Я. Фридмана // Искусство и ЭВМ. М. : Мир, 1975. - 557 с.

51. Хетсо, Г. Принадлежность Достоевскому: К вопросу об атрибуции Ф. М. Достоевскому анонимных статей в журналах Время и Эпоха / Г. Хетсо. Oslo : Solum Forlag A.S., 1986. - 82 с.

52. Хмелёв, Д. В. Распознавание автора текста с использованием цепей А. А. Маркова / Д. В. Хмелёв // Вестник Московского университета. Сер. 9. Филология. -2000. -№2. -С. 115-126.

53. Хомский, А. Н. Язык и проблемы знания / А. Н. Хомский // Вестник МГУ.- 1995.-№4.-С. 130-157.

54. Хомский, А. Н. Язык и проблемы знания / А. Н. Хомский // Вестник МГУ. 1995. -№ 6. -С. 110-134.

55. Хомский, А. Н. Язык и проблемы знания / А. Н. Хомский // Вестник МГУ.-1996.-№2.-С. 103-121.

56. Чистяков, С. П. Применение метода структурной минимизации эмпирического риска при индуктивном построении баз знаний /

57. C. П. Чистяков // Труды ИПМИ КарНЦ РАН. 2002. - Вып. 3. - С. 213225.

58. Чернецкий, В. И. Математическое моделирование стохастических систем / В. И. Чернецкий. — Петрозаводск: Изд-во ПетрГУ, 1994. -488 с.

59. Экспертные системы. Принципы работы и примеры. — М. : Радио и связь, 1987.-224 с.

60. Berka, P. G. Automated Knowledge Acquisition for PROSPECTOR--like Expert Systems / P. G. Berka, I. A. Ivanek // Proceedings of ECML'94. -1994.-P. 339-342.

61. Chistiakov, S. P. On One Approach to the Authorship Attribution of Literary Works / S. P. Chistiakov, T. G. Surovtsova // Proceedings of the AMICT'2007, Petrozavodsk, 21-23 August 2007. Petrozavodsk : PetrSU Press, 2008.-C. 215-224.

62. CRI: Collaborative Research: Planning Proposal: Community Resources for Research in Automated Authorship Attribution Электронный ресурс. -Режим доступа: http://www.stat.rutgers.edu/~madigan/AUTHORID/cri-proposal-08-22b-04-main.pdf, свободный.

63. De Morgan, S. Е. Memoir of Augustus de Morgan by his Wife Sophia Elizabeth de Morgan With Selections From His Letters / S. E. De Morgan. -Elibron Classics, 2005. 464 p.

64. The DOT Language Электронный ресурс. Режим доступа: http://www.graphviz.org/doc/info/lang.html, свободный.

65. Duda, R. О. Model Design in the Prospector Consultant System for Mineral Exploration / R. O. Duda, J. E. Gashing // Expert system in the Micro Electronic Age. UK : Edinburg University Press, 1979. - P. 153-167.

66. Feuerstein, S. Oracle PL/SQL Programming / S. Feuerstein, B. Pribyl. USA : O'Reilly, 1997.- 1024 p.

67. Feuerstein, S. Oracle Built-in Packages / S. Feuerstein, C. Dye, J. Beresniewicz. USA : O'Reilly, 1998. - 952 p.

68. Kerber, R. Chimerge: Diskretization of numerical attributes / R. Kerber // Proceedings of the tenth National Conference on Artificial Intelligence, MIT Press, 1992. P. 123-128.

69. Mendenhall, T. The characteristic curves of composition / T. Mendenhall // Science. 1887. - Vol. 11. - P. 237-249.

70. Mozilla Firefox 2. Электронный ресурс. — Режим доступа: http://www.mozilla.com/en-US/, свободный.

71. Novak, J. Anti-Aliasing on the Web / J. Novak, P. Raghavan, A. Tomkins // WWW2004, New York, May 17-22, 2004. New York, USA, 2004. -Электронный ресурс. — Режим доступа: http://www.www2004.org/proceedings/docs/lp30.pdf, свободный.

72. Oracle Database 10g Express Edition. Электронный ресурс. - Режим доступа:http://www.oracle.com/technology/products/database/xe/index.html, свободный.

73. Hajek, P. Combining Functions for Certainty Factors in Consulting Systems / P. Hajek // Int. J. Man-Machine Studies. 1985. - Vol. 22. - P. 59-76.

74. Holmes, D. I. The Evolution of Stylometry in Humanities Scholarship / D. I. Holmes // Literary and Linguistic Computing. 1998. - Vol. 13, No. 3. -P. 111-117.

75. Hoover, D. Multivariate Analysis and the Study of Style Variation / David L. Hoover // Literary and Linguistic Computing. 2003. - Vol. 18, No. 4. -P. 341-360.

76. Hoover, D. Testing Burrows's Delta / David L. Hoover // Literary and Linguistic Computing. 2004. - Vol. 19, No. 4. - P. 453-475.

77. Juola, P. A Prototype for Authorship Attribution Studies / P. Juola, J. Sofko, P. Brennan // Literary and Linguistic Computing. 2006. - Vol. 21, No. 2. -P. 69-178.

78. Love, H. Authorship and attribution: an introduction / H. Love. Cambridge, United Kingdom: Cambridge University Press, 2002. - 271 p.

79. Pratt, P.J. A guide to SQL / P.J.Pratt. Canada: Thomson Course Technology. - 2005. - 294 c.

80. REC-CSS2-19980512. Cascading Style Sheets, level 2 — CSS2 Specification. Введен 12-May-1998. - Электронный ресурс. — Режим доступа: http://www.w3.org/TR/1998/REC-CSS2-19980512/cover.html, свободный.

81. Rusty, H. E. XML in a Nutshell / H. E. Rusty, M. W. Scott. USA : O'Reilly, 2003.-300 p.

82. Yule, G. U. The Statistical Study of Literary Vocabulary / U. G. Yule. -Cambridge : Cambridge University Press, 1944.1. МАТЕРИАЛЫ ИССЛЕДОВАНИЯ

Похожие работы

Информатика, вычислительная техника и управление
05.13.00