автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Автоматизация научных исследований при решении задач атрибуции текстов
Автореферат диссертации по теме "Автоматизация научных исследований при решении задач атрибуции текстов"
ГОМЕЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМ. Ф.СКОРИНЫ
УДК 681.327.12 + 519.2
Родченко Вадим Григорьевич
РГЕ ОД г 1 ДПР Ш
Автоматизация научных исследований при решении задач атрибуции текстов
Снецпалыюсть 05.13.16 - Применение вычислительной техники,
математическою моделирования и математических методов в научных исследованиях
Автореферат диссертации на соискание ученой степени кандидата технических наук
Гомель -1999
Работа выполнена в Гомельском государственном ушгвераггеге им. Ф. Скорииы
Научный руководитель - доктор технических наук,
профессор, Максиме!! И.В.
Официальные оппоненты:
д.т.н., профессор Пятибратов А.П. д.т.н., профессор Молчанов А.А.
Оппонирующая организация - Институт технической кибернетики НАН Б
Защита состоится "9" декабря 1999 г. на заседании специал< зированного совета по защите диссертаций К.02.1201 при Гомельско государственном университете им. Ф.Скорины по присуждению учснс степени кандидата технических наук по адресу: 246699 г.Гомель, у. Советская, д.104, зал заседаний Ученого Совета (2 э гаж)
С диссертацией можно ознакомиться в библиотеке Гомельско1 государственного университета им. Ф.Скорины.
Автореферат разослан "9" ноября 1999 г.
1Л09е> С,
Ученый секретарь специализированного совета по защите диссертаций к.т.н., доцент
В.А.Короткевич
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Исследования, которые проводятся на стыке различных отраслей знания, давно нашли широкое распространение в науке. Сегодня практически невозможно представить проведение глубоких научных изысканий без привлечения современных математических и статистических методов, без привлечения вычислительной техники. Однако использование этих методов еще далеко не везде заняло достойное им место. До сих нор весьма распространенным является мнение, что математические методы и компьютерная техника в первую очередь ориентированы на решение проблем природоведческих дисциплин, экономики, психологии, а такие гуманитарные дисциплины, как филология, текстология, археология, история и др., находятся как бы в стороне. Если в них и применяются математические методы, то это в основном методы классической статистики, что на фоне общего развития вычислительной техники и математики выглядит более чем скромным. Представляется уместным отметить тот факт, что гуманитарные дисциплины потенциально являются не только пассивными "потребителями" математических методов, но могут выступать и в роли катализаторов для появления и развития новых. Классическим в этом смысле является история факторного анализа, появление которого непосредственно связано с исследованиями, проводимыми известными психологами Спирменом, Терстоуном, Кэтеллом и Хогеллингом при участии специалистов в области математической статистики Бартлета, Кеи-далла, Лоули и др.
В текстологии одной из центральных является проблема атрибуции. Основная задача классических атрибуционных исследований заключается в установлении истинного авторства литературного произведении (текста), когда оно анонимное или подписано псевдонимом, а также в случае литературных мистификаций. В последнее время атрибуцию принято понимать в более широком смысле. Наряду с авторской выделяют и неавторскую атрибуцию, целью которой является отнесение исследуемого текста к определенному стилю, периоду времени, литературной школе н т.д.
Для проведения атрибуционных исследований могут применяться подходы, которые базируются либо на анализе имеющегося документально-фактологического материала, либо на основе идейного сопоставления, либо на основе анализа языка и стиля. В предлагаемой работе внимание будет уделяться такой атрибуции, которая проводится на основе статистического сопоставления стилистических параметров исследуемого текста с аналогичными параметрами текстов предполагаемых авторов.
Традиционно технологии проведения атрибуции предусматривала, что сначала па основе гипотез и предположений исследователей формировался априорный словарь признаков (ЛСП). Затем все тексты описывались на основе этих признаков, и далее проводился компаративный анализ исследуемого анонимного текста путем сопоставления его с имеющимися текстами предполагаемых авторов. На результатах этого анализа и строилось общее заключение о возможном авторстве. Следует отметить, что наиболее слабым звеном в данной технологической цепочке является проблема формирования исходного априорного словаря признаков, поскольку практически очень сложно сформировать такой АСП, который не содержал бы неинформативных или малоинформативных признаков с точки зрения разделения авторов, а значит, это неизбежно отразиться на качестве и достоверности исследований.
В Республике Беларусь атрибуционные исследования, основанные на построении специализированной системы распознавания ранее ие проводились. В белорусском литературоведении и текстологии в настоящее время накоплен огромный массив анонимных и псевдоанонимных текстов, которые ждут своих исследователей в связи с подготовкой к изданию энциклопедий и энциклопедических справочников, академических Полных Собраний сочинений. Исторически сложилось так, что документально-фактологического материала осталось немного, и поэтому весьма актуальной представляется проблема разработки принципиально новых технологий на основе методов прикладной статистики и компьютерного анализа данных.
При проведении атрибуционных изысканий исследователям приходится постоянно работать с большими объемами разнообразных данных и показателей, которые характеризуют различные аспекты текстов. Накопленный опыт показывает, что атрибуция представляет собой длительный процесс, и поэтому актуальным является разработка новых методов и средств автоматизации исследований на основе совместного использования методов прикладной статистики и методов моделирования на базе применения технологий компьютерного анализа данных.
Связь работы с крупными научными программами, темами. Результаты предлагаемой диссертационной работы были получены и использовались при выполнении трех научно-исследовательских тем, которые выполнялись в Гродненском государственном университете им. Я.Купалы на протяжении 1992-1999гг. В 1992-93 годах работа осуществлялась в рамках темы "Исследование лннгво-математическими методами авторства текстов белорусских литературных произведений", которая финансировалась Фондом фундаментальных исследований Республики Беларусь. В 1995-96 го-
дах работа проводилась при проведении исследований по теме "Исследование характеристик авторского стиля в белорусской литературе на основе методов лингво-статистики" (номер госрегистрации №ДР 1995677), которая была утверждена и финансировалась министерством образования РБ. Дальнейшее развитие работа получила в 1997-99г. в рамках выполнения темы "Стилеметрическое исследование микроструктур текстов белорусской прозы на основе методов многомерного статистического анализа и математической теории распознавания образов" (номер госрегистрации №ДР 19973320), которая также была утверждена и финансировалась министерством образования Республики Беларусь.
Цель и задачи исследования. Целью работы является автоматизация процесса проведения атрибуцнонных исследований авторских текстов на эснове применения современных методов прикладной статистики и компьютерного анализа данных. Для реализации этого решается ряд задач, связанных с разработкой принципов и способов составления содержательного описания объектов атрибуции с переходом к формальному описанию, : проектированием и построением специализированной системы распознавания по атрибуции, с разработкой и реализацией алгоритмов и программ 1.151 проведения атрибуцнонных исследований, с апробацией методов и программного обеспечения для атрибуции.
Объект и предмет исследования. Объектом исследования является проблема проведения атрибуции анонимных или псевдоанонимных текстов, для решения которой предлагается разработать и использовать специализированную систему по автоматизации распознавания. Предметом исследования являются модели, методы, алгоритмы и программы, необхо-тимые для реализации такой системы распознавания.
Методология и методы проведенного исследования. Авторский текст можно рассматривать как объект сложной природы, который может харак-геризоваться большим числом разнообразных признаков, часть из которых пожег отражать индивидуальные стилистические особенности автора. Ат-эибуция фактически означает распознавание настоящего автора анонимного или псевдоанонимного текста.
Распознавание сложных объектов требует создания специальных сис-гем распознавания, которые состоят из коллектива подготовленных специалистов, совокупности технических средств накопления и обработки информации и специально разработанных методов, алгоритмов и программ.
В диссертационной работе для проведения атрибуцнонных исследова-шй предложено использовать новую методологию, которая базируется на тостроснии специализированной системы распознавания на основе методов прикладной статистики и математической теории распознавания образов.
Для реализации такой системы разработана оригинальная схема, в которой в качестве отдельных предусмотрены этап сепарирования признаков из исходного набора и этап тестирования уточненного словаря признаков. Для проведения этапа сепарирования разработан специальный метод классификации признаков по степени их информативности.
Научная новнзна и значимость полученных результатов заключается в следующем:
- сформулированы подходы к построению специализированной системы по автоматизации распознавания при решении проблемы атрибуции аноним-пых и псевдоаноннмных текстов;
- предложена структурная схема специализированной системы по автоматизации распознавания авторства текста, которая предусматривает поэтапную реализацию исследований;
- разработан оригинальный метод сепарирования по степени информативности признаков из исходного априорного словаря и построения уточненного рабочего словаря признаков для атрибуции, и на основе этого метода реализован соответствующий алгоритм;
- предложены универсальные процедуры моделирования при проведении аттестационного этапа с целью качественной оценки набора признаков, включенных в уточненный рабочий словарь;
- разработан программно-технологический комплекс, автоматизирующий процессы моделирования атрибуционных исследований;
- в белорусской текстологической науке на основе белорусского текстового материала впервые проведены исследования, связанные с решением проблемы атрибуции на основе применения математического моделирования, методов прикладной статистики и средств вычислительной техники.
Практическая значимость полученных результатов заключается в следующем:
- разработана технология автоматизации атрибуции анонимных и псевдоанонимных текстов, использующая методы математического моделирования, которая может быть основой методологической базы при проведении исследований по установлению истинного авторства текстов;
- технология моделирования может применяться при проведении стиле-метрических исследований, связанных с выявлением и изучением наиболее индивидуальных признаков авторского стиля;
- повышается оперативность, достоверность и объективность проводимых на моделях атрибуционных исследований за счет реализации этапа проверки информативности исходных показателей;
- ориентированность разработанной системы на специалистов из разных предметных областей позволяет проводить комплексные атрибуционные исследования на основе анализа языка и стиля авторов;
- разработана система по автоматизации проведения атрибуционных исследований на ПЭВМ;
- предложенный в работе подход к построению системы распознавания, методы и алгоритмы построения математических моделей процесса распознавания могут быть использованы при построении оболочки методо-орнентированнон экспертной системы, которая может быть в дальнейшем использована для проведения исследований в других областях, например, в искусствоведении для установления истинного авторства музыкальных и иных художественных произведений.
Основные положе1п1н диссертаци11, в1,111осим1,1е на защиту:
1. Метод автоматизации атрибуционных исследований, основанный на построении специализированной системы по распознаванию объектов сложной природы.
2. Средства реализации нового метода автоматизации исследований по атрибуции анонимных и псевдоанонимных текстов.
3. Технология автоматизации исследований по установлению истинного авторства текста, использующая математическое моделирование.
4. Результаты апробации нового метода автоматизации атрибуционных исследований на реальных текстах белорусских писателей.
Личный вклад соискателя. Все основные положения диссертации выполнены автором лично. В совместных научных докладах и публикациях автору принадлежат вопросы, касающиеся:
- разработки нового метода автоматизации атрибуционных исследований анонимных и псевдоанонимных текстов, основанного на построении специализированной системы по распознаванию объектов;
- алгоритмов поэтапного выполнения атрибуционных исследований;
- технологии автоматизации исследований;
- реализации алгоритмов атрибуции на ПЭВМ;
- апробации нового метода автоматизации атрибуционных исследовании и средств его реализации.
Апробация результатов диссертации. Результаты по теме диссертационной работы были доложены и обсуждены на следующих 6 научных конференциях:
- международная конференция "Компьютерный анализ данных и моделирование" (Минск, БГУ, 1992 г.);
- V межгосударственная научная конференция "Актуальные проблемы информатики: математическое, программное и информационное обеспечение" (Минск, Б ГУ, 1996 г.);
- VII Белорусская математическая конференция (Минск, БГУ, 1996 г.);
- Ш международные Купаловские чтения (Минск, 1997 г.);
- V международная научная конференция "Компьютерный анализ данных и моделирование" (Минск, БГУ, 1998 г.);
- международная научная конференция "Взаимодействие литератур в мировом литературном процессе" (Гродно, ГрГУ, 1998 г.).
Опубликованность результатов. Результаты диссертации опубликованы в виде 10 статей и 2 тезисов докладов, в том числе:
- 3 статьи в журнале "Весщ ПАН РБ. Серыя гумаштарных навук";
- 1 статья в журнале "Весщ ПАИ РБ. Серыя фшка-тэхшчпых навук";
- 1 статьи в журнале "Вестник Гродненского университета";
- 3 ст атьи в сборниках статей;
- 2 статьи в материалах конференций;
- 2 тезисов доклада.
Общее количество страниц опубликованных материалов составляет 54
стр.
Структура и объём диссертации. Диссертация состоит из общей характеристики, четырех глав, заключения, списка использованных источников и трех приложений; изложена на 90 страницах печатного текста, содержит 6 рисунков, 7 таблиц, 62 наименования использованных источников; приложения изложены на 16 страницах печатного текста.
СОДЕРЖАНИЕ РАБОТЫ
В Главе 1 приводится обзор лингвистических и математических аспектов проблемы проведешш атрибуционных исследований анонимных и исевдоанонимных текстов. В обзоре лингвистических аспектов проблемы все приемы атрибуции разделяются на две 1руипы. К первой группе относятся приемы, которые используют смысловую информацию, извлекаемую из плана содержания текста, тезауруса автора и референциальной среды, а во вторую включены приемы, построенные на применении данных, извлекаемых из плана выражения текста.
В обзоре математических аспектов проблемы приводится формальная постановка задачи атрибуции, описываются методы, которые использовались разными исследователями при решении этой задачи, рассмотрены по-
лученные результаты н современные направления исследований в этой области. Сформулирована постановка задачи на разработку нового метода автоматизации атрибуционных исследований.
В Главе 2 приводится описание основных вопросов, связанных с формализацией проблемы атрибуции.
Формулируются принципы и способы составления содержательного описания объектов атрибуции. Указывается, что решение проблемы атрибуции конкретного анонимного или пссвдоанонимного текста начинается с тщательного анализа документально-фактологического материала, на основе которого формируется список предполагаемых авторов. После этого осуществляется переход к решению задачи, связанной с выявлением индивидуальных глобальных стилистических особенностей каждого автора из сформированного списка. Затем проводится анализ с целью исключения из дальнейших исследований тех признаков, которые являются малоинфор-матнвными с точки зрения характеристики индивидуальных особенностей авторского стиля. В результате этого анализа получается уточненный набор таких признаков, которые одновременно характеризуют устойчивые стилистические особенности каждого отдельного автора и, в то же время, разделяют авторов между собой. Заключительный этап атрибуции связан с проведением компаративного анализа исследуемого анонимного или псевдоанонимного текста с текстами предполагаемых авторов на основе полученного выше уточненного набора признаков и с окончательной интерпретацией полученных результатов.
Излагается переход от содержательного описания к формальным понятиям математической теории распознавания образов. Описание в многомерном признаковом пространстве класса предполагаемого автора осуществляется в виде объединения многомерных векторов, построенных для различных закодированных фрагментов авторского текста. Множество всех таких векторов образует таксон одного автора, и соответственно для всех предполагаемых авторов в априорном признаковом пространстве будет образовано множество таксонов. Далее проводится анализ разграниченности таксонов.
Если разграничение таксонов авторов в признаковом пространстве оказалось неудовлетворительным, то необходимо перейти к задаче уточнения исходного признакового пространства. Здесь требуется проведение анализа признаков с целыо выявления и исключения тех, которые являются малоинформативными в смысле отражения индивидуальных особенностей авторского стиля.
В случае, когда таксоны авторов удовлетворительно разграничены друг от друга, необходимо перейти к этапу тестирования системы распознавания. Для этого используются новые фрагменты текстов предполагаемых авторов, и проводится их распознавание, используя ранее построенное множество таксонов.
Описывается структура процедуры распознавания, предусматривающая выполнение шести этапов. На первом (постановочном) этапе формируются априорный алфавит классов и априорный словарь признаков. Следующий (информационный) этан предусматривант выработку и реализацию плана сбора исходной информации для исследовании, на основе которой строится классифицированная обучающая выборка. Третий этап связан с сепарированием признаков по степени их информативности с точки зрения отражения наиболее индивидуальных особенностей объектов одного класса. В результате все малоинформативные признаки исключаются из априорного словаря, и получается уточненный словарь признаков. Целью четвертого (аттестационного) этапа является оценка качества признаков, включенных в уточненный словарь. Если аттестация проходит успешно, то осуществляется переход на пятый этап, на котором выполняется непосредственно распознавание, а иначе необходимо возвращаться к первому этапу и уточнить алфавит классов и априорный словарь признаков. Шестой (итоговый) этап предусматривает заключительный анализ и интерпретацию результатов проведенных исследований.
Вводятся основные понятия и определения, связанные с использованием математического аппарата теории распознавании образов и построением специальной системы по распознаванию. При этом исследуемый анонимный или псевдоанонимный текст предлагается рассматривать как распознаваемый объект, а тексты предполагаемых авторов образуют классифицированную обучающую выборку.
Процесс распознавания объекта формально предложено изобразить в следующем виде:
А—^-»Х—й->Т—^и или Р:А->и, где Е = 1з Ег Е^ А - множество объектов; X - пространство описаний (характеристик); Г - пространство признаков; и - множество решений; Е1 - алгоритм получения значений характеристик, описывающих объект; Ег -алгоритм преобразования пространства описаний в пространство признаков; Ез - отображение, называемое решающим правилом.
Отсюда следует, что задача распознавания объекта распадается на три различные задачи, связанные, во-первых, с разработкой методов получения!
описаний объектов, во-вторых, с построением алгоритмов преобразования пространства описаний X в пространство признаков Т, в-третъих, с построением решающих правил Ез.
Поскольку для решения задачи распознавания образов были использованы понятия, связанные с теорией множеств, то приводятся основные определения и понятия из этой теории. Показано, что система распознавания объектов будет построена, если удастся построить отображение К : А и. Множество решений и должно содержать конечное количество элементов, в качестве которых могут выступать, например, номера классов эквивалентности, т.е. и = { 0,1,..., к }.
Приведена формулировка аксиомы выбора: Аксиома выбора. Если на множестве А задана система любых непустых подмножеств, то существует такое отображение в : А -> А, которое каждому из этих подмножеств ставит в соответствие его элемент, т.е. каждое подмножество отображается в собственный элемент, который фактически можно считать именем (индексом) этого подмножества.
Лемма. Пусть имеются множество А, два непустых подмножества Ак=А н АгсА и пусть Л1ПЛ2 =£0 - два подмножества пересекаются. Тогда для любого отображения в из аксиомы выбора имеет место равенство С(А0 = С(А2).
Из аксиомы выбора следует такое утверждение: если А1Г\Л.2=0, то СШ) * С(А2).
Из изложенного выше вытекает следующее заключение: если исходные подмножества не пересекаются, то задача распознавания однозначно решается с помощью аксиомы выбора.
Вводится понятие отношения между объектами, и тогда справедлива
Теорема. Задание на множестве А отношения эквивалентности Е необходимо и достаточно для разбиения этого множества на непересекающиеся классы.
Для определения понятия отношения между объектами обозначается через А х А множество всех упорядоченных пар (а, Ь), где а,ЬеА. Упорядоченность пар означает, что если а * Ь, то (а, Ь) # (Ь, а). Бинарное отношение на множестве А — это множество нар Р с А х А, Если (а, Ь) еР , то говорят, что а находится с Ь в отношении Р и обозначают аРЬ. Произвольное отношение КсАхА называется 1) рефлексивным, если для V аеА выполняется (а, а) ей, т.е. каждый объект находится в отношении I*
сам с собой; 2) симметричным, если дли V а, ЬеА выполняется аШ) —> ЬИа , т.е. если а находится с Ь в отношении И, то и Ь находится с а с этом же отношении; 3) транзитивным, если для V а, Ь, (1 еА выполняется аШ> и ЫЫ -» аИ(1, т.е. если а находится с Ь в отношении 1* и Ь находится с (1 в отношении Б, то и а находится с (1 в отношении Б. Бинарное отношение ЕсАхА называется эквивалентностью, если оно является рефлексивным, симметричным и транзитивным.
Поскольку распознавание объектов всегда осуществляется на основании сходства или похожести объектов относительно некоторых свойств, присущих этим объектам, то необходимо всегда указывать свойства, относительно которых ведутся рассуждения. Здесь возникает вопрос о возможности формализации понятия близости. Ответ на него содержит гипотеза компактности.
Гипотеза компактности. Пусть имеются два множества А = { а1, аг, ..., ак} и В = {1)1, Ьг,..., Ьт} такие, что АпВ=0 и С = АиВ = { сх, сг,..., Ск+ш}. Если V два элемента а], щ е А считаются "близкими" между собой и V два элементы Ь, Ь^ е В считаются "близкими" между собой, а V два элементы т, ^ считаются "далекими", то должны существовать такие пространство Н с метрикой р и отображение Г : С —> Н , что V а; е А (где 1=3,к) и V I)] е В (где ]=1,ш) выполняются соотношения : Гр(Р(а,),Г(А+))<р(Р(Л),К(В)) [р(К(ЬДК(В + ))<р(Р(А),Р(В)) '
где А+ = А \ { ¡ц}, В+ = В \ { Ь;}, р (Х,У) = ^птур(х,у).
Другими словами, существуют такие Н, Г и р , с помощью которых понятие близости формализуется и имеет смысл метрики.
Развитием гипотезы компактности является предположение о существовании таких множеств, которые представляют собой сочетания свойств, наиболее характерных для исходных множеств. Пусть имеются исходные множества А1, А2,..., А™. Тогда используя различные модификации метода эталонов можно построить множества А^, А..., А", которые представляют собой эталоны исходных множеств. Отметим, что применение метода эталонов базируется на предположении о том, что образы элементов, не попавших в выборку, рассеяны вблизи своих эталонов.
В общем случае понятие схожести (однородности) объектов определяется заданием правила вычисления величины р(Х,\'), которая характер»!-
зует либо расстояние <](Х,У) между объектами X и У, либо степень сходства (близости) г(Х,У) объектов X и У. Если задана функция расстояния (1(Х,У), то близкие относительно этой метрики объекты считаются однородными и принадлежащими к одному классу. Отметим, что при этом (1(Х,У) должно сравниваться с некоторым пороговым значением, которое задается по-своему в зависимости от конкретной задачи. Если же для формирования однородных классов используется мера близости г(Х,У), то для нее должны выполняться следующие требования:
1) г(Х,У) = г(У, X) — требование симметричности;
2) г(Х, X) = шах г (У, X) — требование максимального сходства объекта с самим собой;
3) если (1(Х,У) > (¡(А, В) => г(Х,У) < г(А, В) — требован не монотонного убывания г(Х,У) по заданной метрике <1(Х,У).
В заключительной части второй главы описано формальное представление исходной информации и построение решающего правила. На основе текстов предполагаемых авторов формируется классифицированная обучающая выборка. Все тексты разбиваются на отрывки, а каждый отдельный отрывок предложено формально рассматривать в качестве объекта в многомерном признаковом пространстве. Множество всех « характеристик, которыми описывается каждый такой объект, можно записать в виде вскгора-столбца хт = (X], хг,..., хг).
Если значения характеристик каждого изучаемого объект а записать в виде отдельного столбца в таблице, то результаты описания т объектов можно представить в виде прямоугольной таблицы типа "объект-свойство", содержащей « строк и ш столбцов. На основе содержимого этой таблицы сначала проводится анализ информативности признаков из многомерного признакового пространства, и исключаются малоинформативные признаки, а затем строится решающее правило, которое принято называть адаптивный решающим правилом.
В Главе 3 рассмотрены метод и средства автоматизации атрибунион-ных исследований анонимных и псевдоанонимных текстов, приведено описание алгоритма реализации метода, разработанного программного комплекса ПКАТ для проведения атрибуции, методики применения этого программного комплекса.
Идея метода автоматизации атрибуцнонных исследований анонимных и псевдоаиоинмных текстов с точки зрения системного анализа основывается на использовании: 1) принципов формализации, которые изложены и главе 2; 2) новых подходов, связанных с построением математических мо-
делей с помощью формализованных технологических схем проведения исследований; 3) итеративного поэтапного алгоритма реализации численных экспериментов с использованием ПЭВМ, в котором отдельно предусмотрено выполнение шагов, связанных с построением на основе исходного априорного словаря признаков уточненного рабочего словаря и с аттестацией этого словаря; 4) средств автоматизации основных этапов атрибуционных исследований.
Приведено подробное описание каждого из следующих 6 этапов алгоритма реализации метода автоматизации атрибуционных исследований:
ЭТАП 1 (не автоматизирован) - формирование априорного алфавита классов (списка предполагаемых авторов) и исходного априорного словаря признаков, на основе которых будет первоначально производится кодирование исследуемых текстовых отрывков;
ЭТАП 2 (частично автоматизирован) - выработка и реализация плана сбора исходной информации, разработка шаблонов шифровки и кодирование отрывков текстов предполагаемых авторов и отрывков из исследуемого анонимного или псевдоанонимного текста, ввод исходных данных в память ПЭВМ, их верификация и редактирование, формирование классифицированной обучающей выборки па основе отрывков нз текстов предполагаемых авторов;
ЭТАП 3 (автоматизирован) - сепарирование признаков из исходного АСП по степени их информативности и формирование рабочего уточненного словаря признаков (УСГ1), содержащего те признаки, которые наиболее четко характеризуют индивидуальные стилистические особенности каждого автора;
ЭТАП 4 (автоматизирован) - выбор решающего правила, оценка качества признаков, включенных в УСП, и проверка достоверности проведения атрибуции на основе использования классифицированной обучающей выборки;
ЭТАН 5 (автоматизирован) - непосредственно проведение распознавания исследуемого анонимного или псевдоаноннмного текста па основе применения решающего правила;
ЭТАП б (не автоматизирован) - окончательный анализ проведенных исследований и интерпретация полученных результатов.
Для программной поддержки предложенного метода автоматизации атрибуционных исследований разработан специальный про!раммный комплекс ПКАТ. Структурно пакет ПКАТ включает в себя три функциональные части: 1) предварительной обработки и преобразования данных; 2)
анализа исходного набора признаков и сепарировании их по степени информативности; 3) реализации непосредственно процедуры распознавания, (см. рис. 1).
В заключительной части третьей главы описана методика применения про1раммного комплекса ПКЛТ для атрибуции.
В Главе 4 описаны результаты апробации метода автоматизации ат-рибуционных исследований и средств его реализации при решении задачи атрибуции текста на основе анализа его морфологической структуры.
Для апробации метода автоматизации атрибуционных исследований и средств его реализации была решена задача атрибуции на основе фрагментов из текста романа "Сестра" белорусского писателя К.Чорного. Предполагалось, что в качестве возможного автора мог выступить один из трех знаменитых белорусских писателей - К.Чорный, Я.Ериль или В.Быков. В качестве исходных текстов были использованы по 20 отрывков объемом по 1000 словоупотреблений из произведений "Птицы и гнезда" Я.Брилл, "Карьер" В.Быкова и "Третье поколение" К.Чорного. На основе отрывков из этих текстов "предполагаемых" авторов была построена и использована в дальнейшем соответствующая классифицированная обучающая выборка.
В качестве набора показателей, включаемых в исходный априорный словарь признаков, были использованы проценты покрытия различными частями речи авторского текста. Все такие показатели являются количественными и могут быть подсчитаны для любого текста. Всего в исходном априорном словаре было 18 признаков.
Далее проводился анализ этих признаков но степени их информативности, и было установлено, что только три признака из первоначального набора следовало включить в уточненный словарь. На основе этих признаков и на основе классифицированной обучающей выборки проводился этап аттестации, и было установлено, что процесс распознавания проходит успешно. После этого классифицированная обучающая выборка использовалась для построения эталонов авторов, и далее была успешна проведена операция "распознавания" отрывков из романа "Сестра". Подавляющее большинство отрывков были правильно отнесены к К.Чорному.
Следующая задача предусматривала проведение стилеметрического исследования текстов двух авторов на основе компаративного анализа показателей, характеризующих синтаксическую структуру текста. В качестве исходного материала для исследования использовались по 4 смежных отрывка (объемом по 5000 словоупотреблений каждый) из романа К.Чорного "Третье поколение" и повести В.Быкова "Альпийская балла-
да", которые включали только авторскую речь. В априорный словарь включались пять признаков, которые показывали процент покрытия текста авторов простыми, сложносочиненными, сложноподчиненными, бессоюзными и комбинированными предложениями.
Было установлено, что три из пяти признаков имеют непересекающиеся интервалы изменения значений у двух авторов. Это дает основание считать весьма перспективным использование этих признаков при проведении атрибуционных исследований.
В приложении 1 дано описание метода и алгоритма для классификации признаков по степени информативности.
В приложении 2 приведено описание технологии проведения атрибуционных исследований.
В приложении 3 содержатся акты и справка о внедрении результатов данной диссертационной работы.
ЗАКЛЮЧЕНИЕ
. В настоящей диссертационной работе разработаны новый метод автоматизации атрибуционных исследований анонимных или псевдоанонимных текстов и средства его реализации на ПЭВМ. В процессе апробации разработанного метода и средств его реализации подтверждена правильность выбора принципов, использованных при разработке математической модели, алгоритмов, методик и программного обеспечения.
Основные результаты работы заключаются в следующем:
1. Разработан новый метод автоматизации атрибуционных исследований анонимных или псевдоанонимных текстов, основанный на использовании современного математического аппарата прикладной статистики и средств вычислительной техники. [9,11)
2. Предложено для проведения атрибуции на основе достоверных текстов предполагаемых авторов сформировать классифицированную обучающую выборку, на базе которой в дальнейшем построены компактные образы исследуемых текстов в многомерном признаковом пространстве, и на их основании разработана процедура распознавания анонимного или псевдоанонимного текста. [12, 6]
3. Реализован алгоритм метода автоматизации атрибуционных исследований, предусматривающий выполнение шести этапов. Для отдельного этапа, связанного с сепарированием признаков по степени их информатив-
носги, разработан оригинальный алгоритм, который базируется на использовании классифицированной обучающей выборки. [7,10]
4. Разработаны программный комплекс ПКАТ и методика его применения, что позволяет автоматизировать основные этапы проведения атри-буционных исследований. Программный комплекс ПКАТ и методика его использования были апробированы на реальных данных в процессе выполнения научных исследований по госбюджетным темам в НИС Гродненского государственного университета им. Я.Купалы.[4]
5. Разработана технология автоматизации атрнбуционных исследований, которая предусматривает выполнение десяти технологических переходов. Проведена ее апробация на основе использования показателей, характеризующих морфологическую структуру текстов. [1, 2,3, 5, 8J
СПИСОК ОПУБЛИКОВАННЫХ РАБОТ СОИСКАТЕЛЯ ПО ТЕМЕ ДИССЕРТАЦИИ
1.Жук I.B., Родчанка В.Р. Атрыбуцыя лггаратурных тэкстау з дапамогай матэматычнай статыстьиа II Весщ Акад. навук Беларусь Сер. гумаштар. навук. -1995. - №2. - С.103-107.
2.Жук I.B., Родчанка В.Р. Вопыт атрыбуцьн тэкстау беларускай лпаратуры II Весщ Акад. навук Беларусь Сер. гумаштар. навук. - 1995. -№3. - С.114-119.
3.Варановгч В.Л., Жук I.B., Родчанка В.Р. Атрыбуцыя твора: да методык1 "шчыльнай" кадз1роук1 тэксту II Весщ Нацыянальн. Акад. навук Беларусь Сер. гумаштар. навук. -1998. - №1. - С.113-122.
4.Метод классификации информативных признаков при построении системы распознавания / В.Г.Родченко; Гродненский ун-т. - Гродно, 1998. -5с.- Деп. в ВИНИТИ 20.04.98. - № И76-В98 II Весщ Нацыянальн. Акад. Навук Беларусь Сер. фп.-тэхн1чн. навук. - 1998. - №3, С.136.
5.Варанов1ч В.Л., Жук I.B., Родчанка В.Р. Кампаратыуны аналЬ фрагмен-тау тэкстау: да пытання аб сштакачнай атрыбуцыйнай мадэ-ii твора II Вестник Гродненского университета. - 1999. - №3. - С.132-136.
6.Родченко В.Г. Исследование одного метода теории распознавания образов для установления авторства II Математические исследования: Сб.ст. / Под ред. Ю.М.Вувуникяна. - Гродно: Гродненский ун-т, 1994. - Вып.2,-С.141-144.
7.Rodchanka V.R. Technology of Informative Features Classification in Constructing Single-purpose Recognition System II Computer Data Analysis and
Modeling: Proc. of the Fifth International Conference (June 8-12, 1998, Minsk). Vol.2: M-Z, A, JI I Editing by Prof. S.A.Aivazyan and Prof. Yu.S.Kharin. - Minsk: BSU, 1998. - P.64-67.
8.Жук I.B., Родчанка B.P. "Чаму плача песня наша?" : загадка аутарства II Янка Купала - нублщыст: 36.; Уклад. С.Пашзьшк. - Míhck: Беларуси кшгазбор, 1998. - С.124-132.
9.Жук I.B., Родчанка В.Р. Аб адным падыходзе да атрыбуцьп мастацкага тэксту на падставе матэматычнай тэорьн распазнавання вобразау II Взаимодействие литератур в мировом литературном процессе: Материалы международной научной конференции / под ред. Т.Е.Автухович.-Гродно, 1998. - С.394-398.
Ю.Родченко В.Г., Кудинов В.Б. О методе выделения наиболее информативных признаков сложных объектов в рамках решения задачи анализа авторского стиля II Актуальные проблемы информатики: математическое, программное и информационное обеспечение: Материалы V межгосударственной научной конференции / Акад. наук Беларуси. Белорус, гос. ун-т. - Минск, 1996.-С.115
ПЛаппо П.М., Морозов В.А., Маталыцкий М.А., Родченко В.Г. К проблеме установления авторства литературных текстов II Компьютерный анализ данных и моделирование: Тез. докл. науч. конф., Минск, 7-11 дек. 1992 г. / Белорус, государств, ун-т. - Минск, 1992.-С.34.
12.Родченко В.Г. Об одном методе решении проблемы установления истинного авторства художественного произведения II VII Белорусская математическая конференция: Тез. докл. научн. конф., Минск, 18-22 ноября 1996 г. / Белорус, матем. общ-во. Белорус, гос. ун-т. Ин-т матем. Акад. наук Беларуси.-Мннск, 1996.-Ч.З.-С.50.
РЕЗЮМЕ Родченко Вадим Григорьевич.
Автоматизация научных исследований при решении задач атрибуции текстов
Ключевые слова: Автоматизация научных исследований, математическое моделирование, проблема атрибуции текста, технология автоматизации, средства реализации на ПЭВМ, апробация метода, математическая теория распознавания образов, авторский текст, классифицированная обучающая выборка, решающее правило.
Объектом исследования в диссертационной работе является проблема проведения атрибуции анонимных или псевдоанонимных текстов. Предметом исследования являются модели, методы, алгоритмы и программы, необходимые для реализации специализированной системы по распознаванию авторства текста.
Целью диссертационной работы является разработка нового метода автоматизации научных исследований при решении задач атрибуции и средств его реализации на ПЭВМ.
В диссертационной работе для проведения атрибуционных исследований предложено использовать новую методологию, которая базируется на построении специализированной системы распознавания на основе методов прикладной статистики. Чтобы реализовать такую систему распознавания разработана оригинальная процедура, в которой отдельно выделены этап сепарирования признаков по степени информативности и этап тестирования признаков, включаемых в уточненный словарь. Для проведения этапа сепарирования разработан специальный метод классификации признаков по степени их информативности. Для автоматизации основных этапов алгоритма нового метода автоматизации атрибуционных исследований разработан программный комплекс ПКАТ. Разработана технология автоматизации исследований. На основе текстов белорусских писателен проведены исследования, связанные с решением проблемы атрибуции на основе применения математического моделирования, методов прикладной статистики и средств вычислительной техники.
18
РЭЗЮМЕ Родчанка Вадзш Рыгорав1ч
Аутаматызацыя навуковых даследаванняу пры рашэнш задач атрыбуцьн тэкстау
Ключавыя словы: Аутаматызацыя навуковых даследаванняу, матэматычнае мадэлфаванне, праблсма атрыбуцьн тэкста, тэхналопя аутаматызацьн, сродю рэалвацьп на ПЭВМ, апрабацыя метаду, матэматычная тэорын распазнавання вобразау, аутарск1 тэкст, клаифжаваная навучальная выбарка, рашаючае правша.
Аб'ектам даследаванпя у дысертацыйнай працы з'яуляецца праблема правядзсння атрыбуцьн анашмных щ псеудаанашмных тэкстау. Прадметам даследаванпя з'яуляюцца мадэл], метады, алгарытмы 1 праграмы, неабходныя для рэал1зацьн спецыял1заванай астэмы па распазнаванш аутарства тэкста.
У дысертацыйнай працы для правядзсння атрыбуцынных даследаванняу прапанавана выкарыстать новую метадалогио, якая грунтусцца на пабудове спецыял1заванан сктэмы распазнавання на падставс метадау прикладной статыстыки Каб рэал1заваць такую сктэму распазнавання распрацавана арыпнальная працэдура, у якой асобна выдзелены этап сепарыравання прызнакау па ступеш шфарматыунасщ 1 этап тэстыравання прызнакау, уключаемых у склад удакладненага слоуннса. Для правядзсння этана сепарыравання распрацаваны спецыяльны метад клаафжацьп прызнакау па ступеш ¡х шфарматыунасщ. Для аутаматызацьн асноупых этапау алгарытма новага метаду аутаматызацьн атрыбуцыйных даследаванняу створаны нраграмны комплекс ПКАТ. Распрацавана тэхналопя аутаматызацьн даследаванняу. На падставе тэкстау беларускгх шсьменшкау праведзены даследавашн, звязанные з рашэннем праблемы атрыбуцьи на падставс выкарыстання матэматычнага мадэл!равання, метадау прыкладной статыстым 1 сродкау вьшчальнай тэхшкь
SUMMARY Rodchanka Vadzim Rygoravich Automation of scientific research for solving the problems of text attribution
Keywords: Automation of the Scientific Research, Mathematical modelling, Problem of Text Attribution, Automation Technology, Means of Implementation Based on PC Support, Method approbation, Mathematical Theory of Pattern Recognition, Author's Text, Classified Teaching Sample, Deciding Rule.
The object of study of the thesis is the problem of anonymous or pseu-doanonymous texts attribution. The subject of study is represented in models, methods, algorithms and programs required to construct a single-purpose recognition system of text authorship.
The aim of the thesis is the development of a new method to automate scientific studies for solving the tasks of a text attribution and facilities for its realization on PC.
To implement the attribution research a new methodology is offered based on designing a single-purpose recognition system, using the methods of applied statistics. To realize such a recognition system the original procedure of features separation the stage chosen, according to the degree of informativeness has been designed, as well as the stage of testing features are included in the precised dictionary. To realize the stage of separation a special method of features classification based on the degree of their informativeness has been designed. To automate the main algorithm stages of new method of attribution studies automation programme the complex of PCAT has been constructed. The technology of scientific research automation has been elaborated. The research on the bases of texts of Belorussian writers has been made, connected with solving the problem of text attribution using the methods of mathematical modelling, those of applied statistics and computing machinery facilities.
-
Похожие работы
- Математическая и информационная поддержка методов обработки литературных текстов на основе формально-грамматических параметров
- Оптимизация хронологической атрибуции сооружений деревянного зодчества
- Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик
- Разработка структурно-статистических методов и алгоритмов идентификации текста
- Разработка модели и метода структурирования текста с целью его идентификации
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность