Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров

Сидоров, Юрий Владимирович

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров

кандидата технических наук: Сидоров, Юрий Владимирович
город: Петрозаводск
год: 2002
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров»

Оглавление автор диссертации — кандидата технических наук Сидоров, Юрий Владимирович

Введение.

Глава 1. Анализ методик исследования и полученных результатов, на основе параметров, предложенных Г. Хетсо. $ 1. Выбор параметров исследования. 2. Средняя длина слова в буквах.

§ 3. Общее распределение длины слова.

§ 4. Средняя длина предложения в словах.

§5. Общее распределение длины предложения.

§ 6. Лексический спектр текста на уровне словаря.

§ 7. Лексический спектр текста на уровне текста.

§ 8. Индекс разнообразия лексики.

Выводы к главе 1.

Глава 2. Использование методов прикладного статистического анализа для атрибуции. 1. Понятие и гипотеза об авторском инварианте.

§ 2. Принципы кодирования текстов.

§ 3. Компонентный анализ.

§ 4. Метод иерархической кластеризации.

4.1 Описание метода иерархической кластеризации.

4.2 Результаты применения метода иерархической кластеризации.

4.3 Сравнение иерархических деревьев.

4.4 Оценка коэффициентов близости иерархических деревьев.

4.5 Коэффициентов близости иерархических деревьев для исследуемых статей $5. Метод корреляционных плеяд.

Введение 2002 год, диссертация по информатике, вычислительной технике и управлению, Сидоров, Юрий Владимирович

Актуальность темы. Когда в 1851 году английский логик Август де Морган впервые предложил в письме другу использовать математический аппарат для решения задачи установления авторства (или задачи атрибуции), он невольно породил фактически бесконечную дискуссию о возможностях применения математических методов для решения подобных задач [4]. Этот спор продолжается вот уже более полутора веков, разгораясь снова и снова каждый раз, когда делаются попытки атрибутировать тот или иной анонимный или псевдонимный текст. Гипотезу де Моргана развил американский физик Томас Мандельхолл, опубликовав в 1880 году результаты своего исследования по изучению длин нескольких сотен тысяч слов из работ Бэкона, Марлоу и Шекспира, тем самым, положив начало количественным методам анализа текстов [7].

В настоящее время решение задачи количественного анализа текстов связано со многими, как прикладными историко-филологическими дисциплинами, так и с широким кругом естественно-технических наук, например, таких как, статистика и теория вероятностей, теория коммуникаций, теория искусственного интеллекта и др. Естественно, что с развитием вычислительной техники, появилась возможность использовать методы, требующие огромных вычислений, учитывая и варьируя различные лингвостатистические параметры.

Основная задача атрибуции заключается в установлении авторской принадлежности произведения, когда оно анонимно или подписано псевдонимом, а также в случае литературных мистификаций. Частным случаем атрибуции является атетеза - отрицание принадлежности данному автору произведения, ранее ему приписывающегося [58].

Задачи атрибуции с использованием методов количественного анализа текстов встречаются не только в литературоведении, но и в других областях знаний: искусствоведении, истории, психологии, 5 криминалистике, психопаталогии и т.п. [19, 50]. Особенно важное значение придается атрибуции в юриспруденции [29, 32, 47, 51]. Порой от заключения эксперта по атрибуции на судебных заседаниях зависят людские судьбы. Так, например, в известном деле по расследованию убийства журналиста газеты «Московский комсомолец» Дмитрия Холодова, следствию пришлось прибегнуть к помощи специалистов по атрибуции для установления возможного автора нескольких записок, имеющих непосредственное отношение к делу [34].

В настоящее время существуют десятки методик установления авторства, которые используют сотни различных параметров: морфологических, синтаксических, лексических. При помощи многих из них удалось атрибутировать некоторое количество анонимных и псевдонимных произведений. Но даже при наличии такого большого числа методик атрибуций, имеет место существенное ограничение на применение данных методик - это объем анализируемых произведений. Авторы большинства весьма успешных методик подчеркивают, что надежность их проверена только для текстов больших объемов. Вот здесь как раз и встает вопрос о поиске новых или синтезе уже имеющихся методик для установления авторства. Более того, очень часто приходится работать с текстами, объем которых достаточно мал, т.е. не превышает 1 страницу - это могут быть отрывки из дневников, записки, объявления в журналах и газетах и т.п. Особенно часто с данными проблемами сталкиваются в своей работе криминалисты.

Как раз малый объем текстов будет очень существенно влиять на полученные в данной работе результаты, где рабочим материалом являлись публицистические статьи, объемом от 200 до 13 ООО слов.

Ученые, занимающиеся данной проблематикой. Как было сказано выше, впервые о возможности использования математических методов для решения проблемы установления авторства заговорили во второй половине XIX века. После этого, еще большое число известных 6 зарубежных ученых занималось данной проблемой: англичанин Г. Йель (G. Udny Yule), американский лингвист Д. Зипф (G. Zipf), американские статистики Ф. Мостеллер (F. Mosteller) и Д. Уоллес (D. Wallace), Г. Хетсо (G. Kjetsaa) [89, 90], С. Густавссон (S. Gustavsson), Б. Бекман (В. Beckman), В. Фукс [5] и др. Среди тех, кто и сейчас занимается данной проблематикой и вносит значительный вклад в разработку новых методик атрибуций, в том числе и при помощи новейших компьютерных технологий, можно отметить Д. Холмса (D. Holmes) [6], Д. Барроуза (J. Burrows) [3], А. Мортона (A. Morton) [8], Р. Форсифа (R. Forsyth), С. Мартиндейла (С. Martindale), Д. МакКинзи (D. McKenzie), Ф. Твиди (F. Tweedie).

Первым отечественным ученым, использовавшим математический аппарат для решения задачи атрибуции считается H.A. Морозов [64]. Также данной проблематикой занимался крупнейший отечественный ученый A.A. Марков [57]. Методологическую основу современных методик атрибуций в начале 60-х гг. XX века заложили крупнейшие русские филологи, академики В.В. Виноградов [31] и Д.С. Лихачев [53].

Направлением, связанным с построением и анализом графов синтаксических связей в рамках типических фраз и предложений занимались И.П. Севбо, Е.М. Алешкина, Ю.И. Петунина, Е.Д. Галюта [7476].

Среди тех, кто занимается направлением, где упор делается на выявление той или иной закономерности во взаимосвязях между различного рода синтаксическими структурами, нужно выделить Г.Я. Мартыненко [58], М.А. Марусенко [59, 60].

Направлением, изучающим лексический уровень языка, занимались Ю.А. Тулдава [85] и Г.В. Ермоленко [40].

Известная научная школа по применению количественных методов в исторических исследованиях, в том числе и по атрибуции многих древнерусских литературных памятников, базировалась на кафедре 7 источниковедения Исторического факультета МГУ им. М.В. Ломоносова, где ее научный руководитель J1.B. Милов много лет вел спецсеминар и аспирантуру по проблемам атрибуции. В эту школу входили такие исследователи, как Л.И. Бородкин, Т.В. Иванова, Е.Н Балашова, Л.Е. Морозова и многие другие специалисты. Полученные ими основные результаты атрибуции древнерусских текстов и описание разработанной ими методики атрибуции были опубликованы в фундаментальном труде [67].

В работе Т.А. Якубайтис и A.C. Скляревич предложен способ атрибуции текстов определенной типологии (научно-технический или физико-математический, поэтический или драматический и т.д.) по числу повторений какой-то части речи [95]. В работе П.И. Браславского построен и реализован алгоритм для различения текстов по жанрам с использованием дискриминантного анализа и ранговом распределении частот появления слов в различных текстах [27].

Результаты В.В. Александрова и A.B. Арсентьевой при исследовании структуры диалога способствовали получению новых знаний о приложениях естественных языков при взаимодействии человека и компьютера [1,2, 11].

Интерес вызывает также опыт атрибуции текстов Батова В.И., Сорокина Ю.А. при помощи факторного анализа [15-17], Б.Н. Головина при помощи корреляционного анализа [35, 36], а также Шабаги И.Ю. [94].

В последнее время в МГУ развивается новый подход для определения авторства текста, основанный на формальной математической модели встречаемости последовательности элементов текста как реализации цепи Маркова [91, 92].

Известный специалист по вопросам определения авторства П. Вашак дал следующую классификацию методов атрибуции, выделив три основных [30]: 8

1. Метод документальный и фактический, основанный на информации двух категорий: a. исходящей от автора - например, рабочие тексты и автографы, переписка, дневники, автобиография и т. д.; b. данных «неавторских», т. е. исходящих от всех лиц и учреждений, участвующих прямо или вторично в процессе генезиса и фиксации произведений. Считается, что не существует никакого документа, однозначно доказывающего авторство.

2. Метод идейно-тематический, основанный на конфронтации идей, идейного направления и тематики атрибутированного текста (произведения) и произведений предполагаемых авторов (литературных школ и генераций, периодов времени, и т. д.).

3. Метод языковой и стилистический, исходящий из понятия индивидуального стиля и состоящий в конфронтации лингвостилистических качеств атрибутированного текста и произведений предполагаемых авторов (литературных школ, направлений, периодов времени, и т. д.) с сосредоточением на подсознательных качествах писания.

Метод 3 выглядит менее зависимым от различных субъективных факторов, присущим первым двум методам, так как он включает в себя лишь сравнение языка и стиля и заранее задает все параметры, по которым проводится сравнение. Характерным признаком этого лингвистико-статистического метода определения авторства является использование в качестве идентификаторов объективных характеристик. Установив, что предполагаемый автор имел возможность написать спорный текст (например, что он был в живых, когда текст был написан), следовало бы в его бесспорных произведениях найти как можно более инвариантных явлений, по которым можно было бы судить, соответствует ли спорный 9 текст в лингвистическом отношении его бесспорным произведениям. Если соответствует, то предполагаемый автор является претендентом на авторство спорного текста, а если не соответствует, то можно в дальнейшем исключить его из числа претендентов.

На этом подходе и построена данная работа.

Постановка задачи и объект исследования. Одним из самых известных споров по поводу авторства является спор об авторстве некоторых анонимных и псевдонимных публицистических статей из Петербургских журналов «Время» и «Эпоха». Известно, что художественное творчество шло у Ф.М. Достоевского рука об руку с журналистикой. Первая публицистическая статья написана им в 1845 г., последняя вышла в свет после его смерти. При этом Достоевский редактировал и возглавлял три журнала, имевших широкое влияние на русскую общественную мысль: Время (1861-1863), Эпоха (1864-1865), Гражданин (1873-1874), и издавал свой личный журнал Дневник писателя (1876-1877, 1880-1881). В Полном собрании сочинений публицистические работы Достоевского составляют несколько томов.

Поэтому нет ничего удивительного в том, что исследователи жизни и творчества Достоевского много внимания уделяли и уделяют его публицистике. Существует ряд специальных работ о политическом направлении издаваемых им журналов, о влиянии Достоевского-публициста на Достоевского-романиста. Двум его журналам посвящены монографии. Тем не менее, до сих пор остается открытым один из самых существенных вопросов: какие же статьи действительно были написаны Ф.М. Достоевским?

В отличие от статей, помещенных в Дневнике писателя, определение принадлежности Достоевскому статей в журналах «Время» и «Эпоха» связано с большими сложностями. Подавляющее большинство этих статей опубликовано анонимно, т.е. либо без подписи, либо под псевдонимами. Впрочем, это относится и к статьям, которые исследователи давно

10 приписывали Достоевскому, более или менее основываясь на документальных данных. О мотивах, побудивших издателей журналов «Время» и «Эпоха» - братьев Достоевских считать за правило печатать литературно-критические статьи анонимно или под псевдонимом, можно найти в статье [43].

Интересное обсуждение проблем атрибуции Достоевскому анонимных статей «Гражданина» было проведено академиком В. В. Виноградовым [31].

Именно ряд статей (числом 81) из этих журналов и были объектом исследования. Кроме того, в качестве объекта исследования можно выделить формально-грамматические параметры и связанные с ними некоторые методики атрибуции.

Основной работой с использованием математического аппарата и компьютеров для решения данной задачи является исследование [89]. Данная работа вызывала неоднократные критические замечания в свой адрес. В главе 1 представленной здесь работы, будут представлены доказательства, ставящие результаты вышеуказанной работы под сомнение.

Цель работы. Конечной целью данной работы является разработка информационной системы «Статистические методы анализа литературного текста» (ИС «СМАЛТ»), имеющей в основе базу данных (БД) литературных произведений (на первом этапе публицистических статей из журналов 60-70-х гг. XIX века «Время», «Эпоха», «Светоч», «Современник», «Молва», «Библиотека для чтения», «Заря», «Гражданин» и др.) и их морфологических и синтаксических параметров. ИС состоит из двух основных блоков: функционального блока, предназначенного для морфологического и синтаксического анализа текстов, и для пополнения БД литературных произведений и внесения исправлений в записи через модуль ввода и редактирования данных; и аналитического блока, состоящего из модулей, реализующих как можно больше различных и методик атрибуции, позволяющих на основе выделенных параметров, проводить анализ анонимных или псевдонимных текстов на предмет возможного авторства.

Для достижения поставленной цели в ходе исследования были решены следующие задачи:

1. Объедение уже обработанных существующим программным комплексом «Атрибуция» литературных произведении и их морфологических параметров в единую базу данных, вместе с разработкой ее структуры.

2. Анализ возможностей существующего программного комплекса «Атрибуция»; разработка на его основе модуля для ввода и редактирования в ИС «СМАЛТ».

3. Критический анализ результатов исследования Г. Хетсо.

4. Анализ существующих методик атрибуций текстов и выделение наиболее перспективных для решения задачи установления авторства текстов небольшого объема. Их программная реализация и апробация на имеющемся материале.

5. Объединение разработанных программ и их реализация в виде модулей ИС «СМАЛТ».

При решении указанных задач используются методы теории вероятностей и математической статистики, теории распознавания образов, прикладного статистического анализа, теории графов, теории баз данных.

Научная новизна.

1. Обоснована разработка и реализована ИС «СМАЛТ», предназначенная для работы специалистов филологов с литературными текстами с целью их статистического анализа по различным лингвостатистическим параметрам.

2. В данной работе ставятся под сомнение результаты атрибуции ряда анонимных и псевдонимных статей из Петербургских журналов «Время» и «Эпоха», тем самым обосновано решение о поиске новых методик атрибуции текстов небольших объемов.

3. В качестве развития метода иерархической кластеризации предложена методика сравнения иерархических деревьев для формальной оценки эффективности выбора числа признаков.

4. Предложен способ определения порогового значения графа сильных связей для методики оценки парной связи грамматических классов. Продемонстрирована возможность комбинации метода оценки парной связи грамматических классов и метода корреляционных плеяд для решения задачи атрибуции.

5. Показана невозможность решения задачи атрибуции текстов небольших объемов при помощи формально-грамматических параметров на примере трех принципиально различных методик.

Основные положения, выносимые на защиту.

1. Разработана и внедрена в опытную эксплуатацию ИС «СМАЛТ», предназначенная для проведения количественного анализа литературных текстов с целью выявления различий между текстами на основе различных лингвостатистических параметров.

2. При углубленном исследовании методик атрибуции, предложенных Г. Хетсо, на материале 81 статьи из Петербургских журналов «Время» и «Эпоха» показано: независимость результатов исследования от видов текстов (авторская или современная орфография и пунктуация); нормальность исходных выборок; неустойчивость некоторых параметров на разных объемах выборок; неправомерность результатов исследования Г. Хетсо.

3. На параметре «Распределение частей речи на первых трех и последних трех позициях в предложении» проведена адаптация методов

13 корреляционных плеяд и иерархической кластеризации для использования при решении задач атрибуции текстов. Получены числовые характеристики применения данных методов для 53 исследуемых статей и доказана их неэффективность. Предложен алгоритм сравнения иерархических деревьев и получены его числовые характеристики. Доказано, что увеличение числа морфологических признаков от 16 до 156 не приводит к существенному изменению результатов классификации. 4. Для исследуемых статей получены числовые характеристики применения метода оценки парной связи грамматических классов. Доказана его неэффективность для атрибуции обработанных статей.

Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения и списка литературы, содержащего 95 наименований. Общий объем работы, изложенный на 127 страницах машинописного текста, включает 35 страниц приложения, 31 таблицу и 14 рисунков.

Заключение диссертация на тему "Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров"

Основные выводы и рекомендации

В данной работе путем критического анализа исследования Г. Хетсо было показано, что вопрос об авторстве анонимных и псевдонимных публицистических статей из Петербургских журналов «Время» и «Эпоха» остается открытым. При помощи различных методов (метода корреляционных плеяд, метода иерархического кластерного анализа, метода оценки парной связи грамматических классов) на основе формально-грамматических параметров предпринималась попытка решения задачи атрибуции исследуемых статей. К сожалению, найти эффективного решения этой задачи не удалось. Это связано, в первую очередь, со спецификой исследуемого материала - публицистические тексты, в большинстве своем небольшого объема. Из-за ограниченности данных методы не позволили четко и однозначно классифицировать тексты. Вторая проблема - выбор параметров, по которым сравниваются тексты. Данное исследование опиралось на формально-грамматические параметры, но, как показывают современные исследования, успешные атрибуции были получены при использовании параметров, связанных с синтаксическими конструкциями текстов. Поэтому решение данной задачи, если оно существует, следует искать в методиках атрибуций, связанных с синтаксическими параметрами.

Процесс выделения параметров, как морфологических, так и синтаксических, достаточно трудоемок, и под силу только профессиональным филологам. Для данной задачи были разработаны модули разбора текстов по морфологическим и синтаксическим параметрам, вошедших в функциональный блок информационной системы «Статистические методы анализа литературных текстов». К настоящему моменту ИС «СМАЛТ» внедрена в опытную эксплуатацию и постоянно модернизируется. Аналитический блок ИС предназначен для проведения анализа литературных текстов с целью выявления различий между

82 текстами, в том числе и для решения задачи атрибуции анонимных и псевдонимных текстов, на основе различных лингвостатистических параметров. Возможности использования данной ИС достаточно разносторонни. При разборе исследуемых статей по синтаксическим параметрам, исследования по решению задачи атрибуции будут продолжены.

В качестве практического результата можно считать предложенный алгоритм сравнения иерархических деревьев с двумя коэффициентами близости, которые были исследованы для различного числа признаков (от 4 до 100) методами полного перебора и имитационного моделирования, который может оказаться полезным при использовании метода кластерного анализа - иерархической кластеризации.

Библиография Сидоров, Юрий Владимирович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Alexandrov V.V., Arsentyeva A.V. Dialogue Structure. Part 1. -Academy of Sciences of the USSR, Leningrad Research Computer Center, Leningrad, 1984.

2. Alexandrov V.V., Arsentyeva A.Y. Dialogue Structure. Part 2. Academy of Sciences of the USSR, Leningrad Research Computer Center, Leningrad, 1984.

3. Fucks W. Mathematical Theory of Word-Formation. London, 1955.

4. Holmes, D. I. The Evolution of Stylometry in Humanities Scholarship // Literary and Linguistic Computing, Oxford University Press. 1998. Vol. 13, No. 3. -P. 111-117.

5. Mendenhall, T. S. The Characteristics Curves of Composition // Science, 1887. Vol.11.-P. 237-249.

6. Morton A.Q., Michaelson S., Hamilton-Smith. To Couple is the Custom. A General solution to Problems of Authorship in English Texts and Documents. University of Edinburgh. 1976.

7. Ю.Айвазян С.А., Мхитарян B.C. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 1022 с.

8. П.Александров В.В., Арсентьева A.B., Семенков А.И. Структурный анализ диалога.-Препринт №80, ЛНИВЦ АН СССР, Ленинград, 1983.

9. Александров В.В., Горский Н.Д. Алгоритмы и программы структурного метода обработки данных. Л.: Наука, - 1983. - 208с.

10. Апресян Ю.Д. Алгоритм построения классов по матрице расстояний!/Машинный перевод и прикладная лингвистика, вып. 9. -1966.-С. 72-79.

11. Н.Балашова E.H. Епифаний Премудрый и Пахомий Серб (К вопросу о формальных характеристиках стиля) // Математические методы и ЭВМ в исторических исследованиях. М.: Наука, 1985, С. 203-216.

12. Батов ВМ. Другому как понять тебя? М.: Знание, 1991. 45 с.

13. Батов В.И., Сорокин Ю.А. Атрибуция текста на основе объективных характеристик. (Итоги эксперимента). II Известия АН СССР, Сер. литературы и языка, Т. 34, №1, 1975, С.76-78.

14. Батов В.И., Сорокин Ю.А. Опыт построения методики для установления авторства текстов // Известия АН СССР, Сер. литературы и языка, Т. 36, №4, 1977.

15. Батыршин И.З., Морозов В.А., Халитов Р.Г. КЛАСТИЕР -программная система иерархической кластеризации//Статистический и дискретный анализ данных и экспертное оценивание/Материалы IV Всесоюзной школы-семинара.- Одесса, 1991.- С. 319-321.

16. Батыршин И.З., Панова A.M., Хабибулин Р.Ф. Алгоритмы кластеризации в анализе объектов искусства и культуры!!Новые технологии в культуре и искусстве/Тезисы докладов регионального научно-практического семинара.- Казань:НИИ "Прометей", 1995, С. 40-43.85

17. Батыршин И.З., Хабибулин Р.Ф. Атрибуция псевдонимных произведений на основе инвариантных реляционных алгоритмов кластеризации. В кн.: Труды Международного семинара по компьютерной лингвистике и ее приложениям: ДИАЛОГ'95, Казань, 1995, С. 43-53.

18. Батыршин И.З., Хабибулин Р.Ф. Разработка алгоритмов когнитивного кластерного анализа, в кн.: Обработка текста и когнитивные технологии, вып. З/Под ред. Соловьева В.Д. Пущино, 1999, С. 43 - 47.

19. Болыпев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983.

20. Боровиков В.П., Боровиков И.П. Statistica Статистический анализ и обработка данных в среде Windows. М., 1998 .- 608 с.

21. Боровков A.A. Теория вероятностей. М.: Наука, 1986.

22. Бородкин Л.И., Милов Л.В., Морозова Л.Е. К вопросу о формальном анализе авторских особенностей стиля в произведениях Древней Руси II Математические методы в историко-экономических и историко-культурных исследованиях. М., 1977, С. 298-326.

23. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. М., 1983 .- 467с.

24. Браславский П.И. Методы повышения эффективности поиска научной информации (на материале Internet). Автореф. дис. канд. тех. наук. Екатеринбург, 2000. 24 с.

25. Бутузова О., Ильюшина Е.А., Петрова М., Прохоров A.B., Сироткина Ю. К построению авторского инварианта. Труды и материалы Международного конгресса «Русский язык: исторические судьбы и современность» (13-16 марта 2001 года). Москва: МГУ, 2001. С. 397.86

26. Быстров A.B., Злобин E.B. К вопросу об авторстве предсмертного письма Б.В. Савинкова — опыт комплексного исследования И Круг идей: Новое в исторической информатике. М., 1994. С. 129-133.

27. Вашак П. Длина слова и длина предложения в текстах одного автора II Вопросы статистической стилистики / Под ред. Б.Н. Головина. Киев, 1974.31 .Виноградов В.В. Проблемы авторства и теория стилей. М., 1961. -263 с.

28. Вул С.М. Статистическое исследование текстов с помощью ЭВМ и дисплея в целях установления авторства // Применение ЭВМ в судебно-экспертных исследованиях и поиске правовой информации. М., 1975.

29. Гайдышев И. Анализ и обработка данных: специальный справочник. СПб.: Питер, 2001. 752 с.

30. Головин Б.Н. Опыт вероятностно-статистического изучения некоторых явлений истории русского литературного языка XIX-XX вв. II Вопросы языкознания, № 3, 1965, С. 137-146.

31. Головин Б.Н. Язык и статистика. М., 1971.- 192 с.

32. Горев А., Ахаян Р., Макашарипов С. Эффективная работа с СУБД. Спб.: Питер, 1997. - 704 с.

33. Дюран Б., Оделл П. Кластерный анализ М.:Статистика, 1977. -128с.

34. Елисеева И.И., Рукавишников В.О. Группировка, корреляция, распознавание образов: Статистические методы классификации и измерения связей. М.: Статистика, 1977. - 143с.87

35. Ермоленко Г.В. Анонимные произведения и их авторы. Минск, 1988.

36. Жамбю М. Иерархический кластер-анализ и соответствия. М: Финансы и статистика, 1988. - 342 с.

37. Журавлев А.П. Опыт вероятностно-статистического изучения стилевых различий II Язык и общество. Саратов, 1967.

38. Захаров В.Н. Гениальный фельетонист II Ф.М. Достоевский. Полн. собр. соч. Канонические тексты. Т. IV. Петрозаводск: Изд-во ПетрГУ, 2000.-С. 801-812.

39. Иванова Т.В. Атрибуция нарративных источников второй половины XVIII в. при помощи формально-статистических методов (Атрибуция «Писем к Фалалею») Автореф. дис. канд. ист. наук. М., 1989.

40. Классификация и кластер I Под ред. Дж.Вэн Райзина.- М:Мир, 1980.389 с.

41. Количественные методы в историческш исследованиях/ Под ред. И.Д.Ковальченко. М.: Высшая школа, 1984. - 384 с.51 .Комиссаров А.Ю. Криминалистическое исследование письменной речи. М., 2000.

42. Ликеш И., Ляга И. Основные таблицы математической статистики. М.: Финансы и статистика, 1985.-356с.

43. Лихачев Д.С. Вопросы атрибуции произведений древнерусской литературы II Труды Отдела древнерусской литературы. АН СССР. Институт русской литературы (Пушкинский дом). Т. 17. М.-Л., 1961.

44. Лятина A.M. Опыт статистического анализа языка писателя. (По материалам частотного словаря «Поднятой целины» М.А. Шолохова). Автореф. дис. канд. филол. наук. Л., 1969.

45. Мальцева Г.Ф. Некоторые количественные приемы описания индивидуального авторского стиля II Статистика текста. Т. 1, Минск, 1969.

46. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988.176 с.

47. Марков А.А. Об одном применении статистического метода //Изв.Имп.акад.наук, Сер. 6. 1916. №4, С.239-242.

48. Мартыненко Г.Я. Основы стилеметрии. Л.: Изд-во ЛГУ, 1988.- 176с.

49. Марусенко М.А. Атрибуция анонимных и псевдоанонимных литературных произведений методами распознавания образов. Л.: Изд-во ЛГУ, 1990. 168 с.89

50. Марусенко М.А., Бессонов Б.Л., Богданова Л.М., Аникин М.А., Мясоедова Н.Е. В поисках потерянного автора: Этюды атрибуции / Под. ред. М.А. Марусенко. СПб.: Филологический ф-т СПбГУ, 2001.-216 с.

51. Мейер Д. Теория реляционных баз данных.- М.:Мир, 1987. 608 с.

52. Мистрик Й. Математико-статистические методы в стилистике П Вопросы языкознания. 1967, № 3.

53. Митропольский А.К. Техника статистических вычислений. М.: Наука, 1971.-576 с.

54. Морозов H.A. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного известного автора. Стилеметрический этюд/'/Известия отд. русского языка и словесности Имп.акад.наук. 1915. Т.20, Кн.4.

55. Морозова Л.Е. Вопросы разработки методики применения количественных методов при атрибуции древнерусских публицистических произведений XVI в. Автореф. дис. канд. ист. наук. М., 1978.

56. Полянская И.В. Проблемы методики атрибуции риторических произведений Древней Руси (опыт количественного анализа). Автореф. дис. канд. ист. наук. М., 1992.

57. Раскина A.A. К вопросу об атрибуции текста при помощи статистики // Межвузовская конференция по вопросам частотных словарей и автоматизации лингвистических работ. Л., 1966.90

58. Рогов A.A. Моделирование эксплуатационной эффективности технического объекта. Статистический анализ и проверка адекватности: Учеб. пособие / ПетрГУ. Петрозаводск, 2001. -215 с.

59. Рогов A.A., Сидоров Ю.В. К вопросу об использовании статистических методов для атрибуции литературных источников. II Обозрение прикладной и промышленной математики: Тез. докл. Т. 7. Вып. 1. М.: Научное издательство «ТВП», 2000. С. 196-197.

60. Романкова Н.В. Формально-количественные методы и проблемы атрибуции нарративных источников по истории южных славян IX-XIVвв. Автореф. дис. канд. ист. наук. М., 1985.

61. Саркисова Г.И. Количественный анализ стиля политических сочинений Русского государства XVI в. Автореф. дис. канд. ист. наук. М., 1986.

62. Севбо И.П. Графические представления синтаксических структур и стилистическая диагностика. Киев: Наук, думка, 1981. 192 с.

63. Севбо И.П., Алешкина С.М. Исследование зависимости между длиной фразы и количеством уровней в графе II Структурная и математическая лингвистика. Вып. 2. Киев. 1974.

64. Севбо И.П., Петунин Ю.И., Галюта Е.Д. Эксперимент по распознаванию автора, основанный на предварительном статистическом исследовании синтаксических структур П Структурная и математическая лингвистика. Вып. 5. Киев. 1977.

65. Сидоров Ю.В., Леонтьев A.A., Рогов A.A., Захаров В.Н. Компьютерная автоматизированная система для лингвистического разбора литературных текстов. Четвертая Санкт-Петербургская Ассамблея молодых ученых и специалистов: Тез. докл. СПб., 1999. С. 66.

66. Степанов А. В. Эвристика стиля атрибуция авторства II Литературная учеба. 1998. №2. -С.155-160

67. Сухотин Б.В. Исследование грамматики числовыми методами. М., 1990.

68. Терентьев П.В. Метод корреляционных плеяд II Вестник ЛГУ. -1959.-№9-с. 137-141.

69. Тулдава Ю.А. Опыт классификации текстов с помощью кластер-анализа // Актуальные проблемы квантитативной лингвистики и автоматического анализа текстов. Учен. зап. Тартуского гос. ун-та. Вып. 591. Тарту, 1981.

70. Тюрин Ю. Н., Макаров A.A. Анализ данных на компьютере./ Под ред. В.Э. Фигурнова. М.: ИНФРА-М, Финансы и статистика, 1995. -384 с.92

71. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989. - 215 с.

72. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Предисловие А.Т. Фоменко. II Фоменко А.Т. Новая хронология Греции: Античность в средневековье. Т. 2. М.: Изд-воМГУ, 1996. С.768-820.

73. Хетсо Г. Принадлежность Достоевскому: к вопросу об атрибуции Ф.М. Достоевскому анонимных статей в журналах "Время" и "Эпоха". SOLUM FORLAG A.S.: OSLO 1986.

74. Хетсо Г. Проблема авторства в романе «Тихий Дон». II Scando-Slavia. Т.24, 1978.

75. Хмелёв Д.В. Распознавание автора текста с использованием цепей A.A. Маркова II Вестник Моск. ун-та. Сер. 9. Филология. 2000. №2. С. 115-126.

76. Хмелёв Д.В. Сложностной подход к задаче определения авторства текста. Труды и материалы Международного конгресса «Русский язык: исторические судьбы и современность» (13-16 марта 2001 года). Москва: МГУ, 2001. - С. 426-427.

77. Чернецкий В.И. Математическое моделирование стохастических систем. Петрозаводск: Изд-во ПетрГУ, 1994. 488 с.

78. Шабага И. Ю. Опыт исследования галльских панегириков количественными методами II Вестник Древней истории. 1993. №1. С. 147-161.

79. Якубайтис Т.А., Скляревич А.Н. Вероятностная атрибуция типа по нескольким морфологическим признакам. Рига, 1982.93

Похожие работы

Информатика, вычислительная техника и управление
05.13.00