автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка структурно-статистических методов и алгоритмов идентификации текста
Автореферат диссертации по теме "Разработка структурно-статистических методов и алгоритмов идентификации текста"
Нижегородский государственный технический университет
На правах рукописи
СУРКОВА Анна Сергеевна
РАЗРАБОТКА СТРУКТУРНО-СТАТИСТИЧЕСКИХ МЕТОДОВ И АЛГОРИТМОВ ИДЕНТИФИКАЦИИ ТЕКСТА
Специальность 05 13 01 «Сис1емный анализ, управление и обработка
информации»
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Нижний Новгород 2004
Работа выполнена на кафедре техническою ymiivpcnr.Ta
Вычисти тельная техника» Нижегородского государственною
Научный руководитель доктор технических наук, профессор Л С'.Ломакина
Официальные оппоненты доктор технических наук, профессор А 1 .Надеев кандидат физико-математических наук, доцент А Ф Ляхов
Ведущая организация: Всероссийский институт научной и технической информации Российской академии наук (ВИНИТИ РАН) г Москва
Защита диссертации состоится «__»___ 2005 ¡ода в часов в
аудитории _ на заседании диссертационного совета Д212 165 05 при
Нижегородском государственном техническом университете по адресу 603600, г Нижний Новг ород, ГСП-41, ул Минина 24, факс (83 12)36231 1
С диссертацией можно ошакомиться в библиотеке Нижегородского государственного техническою университета
Автореферат разослан «___>__ _ _ 2004г
Ученый секретарь чиссерташтоннот о совета
К г н . доцент Иванов А ГI
Ши
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы.
Разработка и усовершенствование методов, направленных на автоматический анализ и автоматическую атрибуцию текстов разного уровня, приобретает все большую значимость на современном этапе и прикладной лингвистики, и текстологии, и автороведения в криминалистике, и других дисциплинах, связанных единым объектом исследования - текстом
В связи с развитием электронных сетей и увеличением информации, распространяемой с их помощью, обостряется проблема соблюдения авторских прав. Традиционной для криминалистики была и остается задача идентификации автора анонимного текста по тем или иным его языковым параметрам (определение авторства различных анонимных писем, содержащих угрозы, шантаж и тн) Лингвис1ическая экспертиза важна при решении споров связанных с политическими проблемами Анонимная или пссвдоанонимная информация все чаще распространяется во время предвыборных кампаний с целью дискредитации конкурентов.
С др>10й стороны, начиная с первых попыток автоматизировать обработку текста, стало очевидно, что именно текст является наибольшей смысловой единицеи языка. Именно текст как целостность, а не отдельные слова, предложения или абзацы необходимо изучать и обрабатывать с целью создания модели языка, адекватно отражающей значимые особенности естественных языков Поэтом> при проектировании автоматических систем обработки естественного языка необходимо учитывать те особенности текста, которые отражают его системные свойства Изучение структуры целого текста является необходимой базой дтя дальнейших исследований в этом направлении и реализации резу.платов при создании систем авшматической обработки 1ексюв Однако ограниченность вычислительных ресурсов и недостаточная разработанность теоретической базы привечи к тому, что известные в настоящее время алгоритмы авюмашческой обработки текстов нося1, как правило, частный характер и разрабатываются для каждой конкретной задачи
Степень разработанности проблемы.
Разработкой проблем, связанных с задачами автоматической обработки текстов, в последние годы активно занимаются ученые в нашей сгране и за рубежом Современные работы основываются на результатах, полученных в процессе становления автоматической обработки текстов, как особого направления компьютерной лингвистики, в работах Р.Г.Пиотровскою, ИПСевбо, Л А Поликарпова, Ю А Шрейдера, М В.Арапова, Б В.Сухотина. Вопросы построения общих систем АОТ и систем идентификации текстов рассматривались в работах таких зарубежных авторов как Г Йеля, Д. Ципфа, Г Хьегсо. В Фукса, Д Холмса, Д Ьарроуза, Ф Твиди.
В настоящее время проблемами атрибуции и установления авторства занимаются такие авторы, как М.А.Марусенко, Г Я Мартыненко, О В Кукушкина, Л И Бородкин
Среди работ в области юридической лингвистики можно отметить работы Н Д I олева, Е И Галяшиной, А Ю Комиссарова. Однако большинство подобных работ носят прикладной характер, но прикладные исследования не предоставтяют систематизированной теоретической базы лингвистических ¡наний, позволяющей однозначно решать вопросы спорного авторства
В последнее время стала очевидной необходимость системного рассмотрения совокупности текстов разных авторов, стилей и жанров, в связи с >тим тема диссертационной работы является актуальной, как для теоретических, так и для практических исследований Цель работы.
Целью работы является построение модели текста как сис1емы, установление сф\мурных инвариантов текста различного уровня и на их основе ра¡работка методов и алторитмов идентификации текстов Задачи работы.
Д 1я достижения намеченной цели требуется решение следующих основных )адач
• Построение струмлрно-иерархической модели текста
• Разработка алгоритма статистической обработки текста с целью выявления различных параметров, характеризующих структур) текста
• Проверка возможное!и использования некоторых структурных параметров в качестве инвариантов текста различного уровня
• Разработка метода объединения результатов идентификации разными методами.
Объект исследования.
В качестве объекта исследования рассматривались тексты на русском языке различных авторов Х1Х-ХХ веков; тексты с различной жанрово-стилевой принадлежностью художественные, научные, публицистические.
Методы исследований
Методологической основой данной работы является системный анализ Для теоретических исследований применялись методы теории вероятностей, математической статистики, теории информации.
Научная новизна.
На основании исследования текста как системы разработан новый метод установления авторских инвариантов текста.
Предложена методика идентификации текстов на основе полученных авторских инвариантов
Разработаны алгоритмы сравнения стр\ктур текстов на основе сравнения сечений многомерных законов распредетения букв в стовах
Обоснованность и достоверность результатов работы.
Обоснованность и достоверность результатов обеспечены корректным использованием в работе современною математическою аппарата и полверждены рез_\ !ы<нами экспериментальных исстсдований конкретных текстов
Практическая значимость.
Практическая ценность заключается в возможности применения полученных рез>тыаюв в задачах поиска информации при создании
информационно-поисковых систем, при проведении автороведческой жсиергизы, при устаион 1ении спорного авторства.
Реалиншия ре ¡ультатов работы.
Разработанные в рамках диссертационной работы алгоритмы анализа структуры текст и методика идентификации текстов используются в учебном процессе Нижегородскою государственного тингвистического университета им II А Добролюбова и Нижегородской Академии МВД России
Апробация раультатов работы.
Основные потожения и результаты работы представлялись и докла тывались на следующих научных конференциях
• Международной конференции «Математика Образование Тендерные проблемы » (Воронеж, 2000),
• 6-ои международной конференции «НТИ-2002 Информационное общество Интеллектуальная обработка информации Информационные технологии » (Москва, ВИНИТИ, 2002)
• Всероссийской научно-технической конференции «Информационные системы и гечнолотии ИСТ-2003 » (Н Новгород, НГТУ, 2003)
• 2-ой региональной научно-технической конференции «Будущее технической науки Нижегородского региона». (Н.Новгород, 2003)
• 3-ей научно технической конференции «Будущее технической науки Нижегородскою региона» (Н Новгород, 2004)
• Всероссийской научно-технической конференции «Информационные системы и технологии ИСТ-2004 » (Н Новгород. НГТУ, 2004)
• Всероссийской иа\чно-методической конференции «Языковые и ку тыурные контакты различных народов» (Пенза, 2004)
Публикации.
11о теме диссертационной работы опубликовано 10 работ
Структура и объем диссертации.
Диссертация состоит из введения, четырех т тн заключения, списка титсраглры ц приложении
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении дана общая характеристика работы, обоснована актуальность выбранной темы, сформ\лированы цели и задачи исследования, показана научная новизна и практическая ценность работы Кратко изложено содержание диссертации по главам
В первой главе приведен обзор существующих методов и принципов автоматической обработки текстов, применяемых для различных целей -информационный поиск, автоматическое индексирование и реферирование, идентификация гексюв. судебная автороведческая экспертиза
В разделе 1 1 рассматриваются некоторые действующие системы автомагического анализа текстовой информации, основанные на различных представлениях текста Здесь же определены основные проблемы, возникающие при реализации тех или иных методов обработки текста В качестве значимых причин указывается недостаточно разработанная теоретическая база общей лингвистики текста, сложность формализации естественных языков При создании сложных систем обработки больших текстовых массивов необходима формализация представтения текста на всех уровнях его представления морфологическом. лексическом. синтаксическом, грамматическом, семантическом В теоретической литературе последнего времени идет активный поиск возможностей представления знаний, разрабатываются различные принципы интерпретации смысла текста и формализации семантического уровня
В разделе 1 2 рассматриваются особенности применения методов компьютерной лингвистики, разработанных в целях атрибуции текстов, для ¡адач криминалистики Особое междисциплинарное направление, которое занимается применением лингвистических познаний в юридической области, получило название юридической лингвистики Лингвистические методы определения авторства использукнся при проведении с\дебных авюроведческих экспертиз (при рассмотрении письменных текстов, выполненных анонимно ичи когда авторство спорно) а также фоноскопических тксперпр в качестве составной части комптексных методик идентификации
В разделе 1 3 рассматриваются основные принципы и положения одной из актуальных задач автоматической обработки текстов - задачи атрибуции текста Под атрибуцией понимается не только определение его автора, но соотнесение тексту соответствующих ему атрибутов, к которым причисляется имя со ¡.тагеля, жанр произведения, время и место создания текста В табл. 1 представлены основные методы определения авторства текста
Таблица I Обзор основных методов определения авторства текста.
№ Название метода Авторы Основные особенности Недостатки
Г1/Г1 метода
1 Атрибуция на основе Г Хьетсо, В качестве параметров, Не учитываются
лексического уровня С Густавссон, используются длина структурно-
языка ЬЬекман предложения, длина синтаксические
слова, богатство параметры, которые
словарного запаса и более полно
другие определяют стиль
2 Анализ «графов И П Севбо, Метод основан на Недостаточная
зависимостей» Ю И Петунии, анализе графов разработка
Г Д Галюта синтаксических связей теоретических
типичных предложений методов для
автоматизации
предварительной
обработки текстов
(составление
деревьев)
Т ~ Методы М А Марусенко, Текст описывается с Значительное
расно шавания А А Рогов. помощью 112 количество признаков
1 образов в целях Г Я Мартыненко параметров, из них Необходимо
атрибуции текстов выбираются наиболее определять
информативные для «вручную» Нет
рассматриваемых возможности
авторов, и методами рассматривать
распознавания образов большое количество
производится авторов
идентификация
1 Анали) частот Л.В Милов, Сравнение текстов Трудоемкая
парных Л М Бородкин, производится по предварительная
встречаемостей наиболее вероятным для обработка текстов
грамматических данных авторов парным пока слабо
1 к ысоов встречаемостям автоматизирована
грамматических классов
'Липг воанали ¡атор», ПопикарповА А В качестве пршнаков Не рассматриваю гея
<А грибу гор» Хметев Д В для анапиза и оценки произведения разных
1 Тимашен А Н индивидуапьного стилей писателей
авторского стиля идентификация
используются сочетания проводится по одному
двух букв в стове параметру '
(пары) и трех букв
1 (триады)
8
Общим недостатком всех методов является стихийность выбора параметра, по которым производится идентификация Все мет оды кроме последнего предполагают участие человека в предварительной обработке текста, поэтому нет возможности производить исследование на большом количестве авторов
Во второй главе обосновывается необходимость рассмотрения текста, как системы, и предлагаются некоторые модели структурирования текста
В разделе 2 1 рассматриваются основные особенности системного подхода к анализу текстов
В разделе 2 2 на основании системного подхода построена структурно-иерархическая модель 1екста, которая представлена на рис 1
В иерархии можно выделить уровни б>кв, сююв, слов, предложений Связи между элементами нижнего уровня регламентируются элементами высшего уровня
В разделе 2 3 приведены основные модели текста основанные на учете различных структурно-статистических характеристик текста К таким модетям
ТЕКСТ
Уровень предложений
/ Уровень
букв
Рис 1 Структурно-иерархическая модель текста
относится сфуктурно-вероятностная модель, представление текста с использованием цепей Маркова, информационная модель.
Рассмотрим текст в виде последовательности дискретных случайных событий (последовательность появления лингвистических единиц: букв, слогов, словоформ и тд.) Пусть х„ i=l,2...N - элемент текста, N- число различных значении, которые может принимать элемент л:, Для каждого элемента х, можно ука;ать целое число n(xj. которое будет характеризовать частоту употребления элемента в тексте, назовем эту величину встречаемостью элемента х, в тексте Общая сумма встречаемости всех элементов равна объему этого текста п(Т).
;=1
Относительную частоту встречаемости элемента текста можно использовать в качестве оценки вероятности появления этого элемента в тексте
p(xj= n(xJ/n(T)
Статистическую зависимость между различными элементами текста предлагается описывать с помощью информационного портрета текста, строящегося на основе взаимной информации между элементами текста Пусть p(x„xj - вероятность появления пары элементов х, и jc, Для известных текстов Th Т2,...Т„ авторов Xh X?,...Xm находятся значения выбранного параметра-количество вхождений выбранных элементов по отдельности и их сочетаний, затем вычисляется относительная частота их появления в тексте, которую можно записать в матрице вероятностей парных всфечаемосгей элементов'
Тогда каждой паре элементов может быть поставлена в соответствие количественная мера взаимной информации между ними и результаты могут быть представлены в виде матрицы взаимной информации между элементами названа информационного портрета текста
р(х,,х{) ■■■ р(х x,xN)
р(х д,,х,) ••• p{xN,xN)
,к=1,2,...п
А
, к=1,2,...п,
где а,,=/(х:^ - взаимная информация между элементами х, и лгу, вычисляемая по формуле'
В третьей главе представлены разработанные методы и алгоритмы идентификации автора текста, его стиля и языка.
В разделе 3 1 описаны основные функциональные стили текстов (публицистический стиль, научный стиль, стиль художественной литературы).
В разделе 3.2. рассматриваются различные инварианты стиля, автора текста, (рис.2) В текстологии традиционно отмечалось, что необходимо различать параметры, определяющие стиль автора, от каких-то общеязыковых норм, принятых во время написания произведения. Аналогично, следует различать также параметры, характеризующие стлевую принадлежность текста и параметры, являющиеся авторскими инвариантами.
Обосновывается необходимость определения критериев, по которым можно было бы различать инварианты стиля писателя (авторские инварианты), инварианты для всех текстов конкретного жанра (жанровые инварианты), инварианты, характеризующие время создания текста и другие. Причем это важно не только в задачах определения авторства, но и в других задачах компьютерной лингвистики и автоматической обработки текста Например, при создании систем информационного поиска возникает необходимость автоматического разделения текстов по стилям или времени создания, что требует определения четких формализованных критериев стилей текстов
р(х„х )
Рис. 2. Уровни инвариантов текста
В разделе 3.3. описываются методы построения информационных портретов текстов, основанных на некоторых характеристиках текста, отражающих его внутреннюю структуру. Структура языка писателя начинает проявляться в связях между элементами текста низшего уровня, то есть связь между словами в предложении отражена в структуре слова. В рамках теории вероятностей структура слова описывается многомерным законом. Но при сравнении многомерных законов возникают проблемы на этапе реализации Поэтому предлагается сравнивать отдельные сечения многомерного закона. К таким сечениям можно отнести двумерные законы распределения различных сочетаний букв в словах.
Для сравнения текстов предлагается использовать коэффициент корреляции К и среднеквадратическое отклонение а2, вычисленные по информационным портретам сравниваемых текстов. Информационные портреты строятся по некоторым сечения многомерного закона распределения букв в словах (отдельные буквы на заданном расстоянии в тексте, пары и триады букв и т д) При сравнении отдельных текстов рассматриваются информационные портреты этих текстов, а при сравнении авторского стиля писателя или функциональных стилей предварительно вычисляется обобщенная
информационная матрица Ъсли @ ц ' ^ у ~ элементы двух сравниваемых матриц информации, то коэффициент корреляции вычисляется по формуле
к =
2
А среднеквадратическое отклонение'
1(4"-г)2
<т
.2 _
(3)
</ - число пар в сравниваемых матрицах.
Близость текстов друг к другу определяется наибольшим значением коэффициента корреляции и наименьшим значением
В разделе 3 4 рассматриваются некоторые структурные характеристики текста, и исследуется возможность применения их в качестве инвариантов разного уровня.
Были рассмотрены следующие характеристики текста:
• пары букв, идущие подряд в слове
• две буквы, встречающиеся в слове через одну букву
• пары двухбуквенных сочетаний, идущие в слове подряд, (из всех возможных 1024=32*32 двухбуквенных сочетаний для исследования были выбраны 30 наиболее часто встречаемых в русских текстах: ва, ка, ла, на, ра, та, ов, не, ре, ли, ни, ал, ел, ол, ен, он, во, го, ко, ло, но, по, ро, то, ер, ор, пр, ат, от, ст)
• пары гласных букв (в слове не обязательно стоящие рядом)
• пары служебных слов в тексте
Идентификация по двум последним параметрам (гласным буквам в слове и парам служебных стов в 1ексте) производится плохо (около 15% контрольных текстов идентифицировано верно), поэтому эти параметры исключили из дальнейшего рассмотрения
В разделе 3.5. описывается обобщенный алгоритм идентификации. Если было рассмотрено 5 двумерных законов распределения, то коэффициент корреляции и среднеквадратическое отклонение можно интерпретировать как координаты в Евклидовом пространстве размерности 2$. Каждому тексту будет соответствовать точка в этом пространстве параметров Текстам, принадлежащим одному автору, соответствует компактное множество точек в пространстве.
Для каждой точки можно не указывать конкретное значение каждой координаты, а важно знать расстояние между объектами. Каждое значение коэффициента корреляции и среднеквадратического отклонения характеризует расстояние между текстами по какой-либо координате. Для вычисления общего расстояния используется формула расстояния в евклидовом пространстве:
где и - размерность пространства, х„ у„ (¡=1,2,...п) - координаты точек Поскольку величины коэффициента корреляции и среднеквадратического отклонения характеризуют расстояние между сравниваемыми объектами, то расстояние вычисляется по формуле:
Решение о принадлежности исследуемого текста какому-либо автору из обрабатываемою списка принимается по минимальному расстоянию Ь.
В четвертой главе приведены примеры практического применения предложенных методов идентификации текста
В разделе 4.1 описаны результаты идентификации, проведенной по совоку пности характеристик В работе были обработаны произведения 20 авторов Х1Х-ХХ веков Для контроля предъявлялись контрольные тексты (по 1-2) каждого автора Результаты идентификации представляются в виде таблиц В табл. 2 приведен фрагмент такой таблицы для авторов первой почовины XX века
(4)
Информационные портреты были построены на основе вероятностей встречаемостей соседних букв в слове В таблице для каждого контрольного произведения вычисляются значения (1-К) и е/ и выделяются цветом минимальные значения в строке, т е определяется наиболее вероятный автор Как видно из таблицы, три произведения «Коновалов» и «Челкаш» Горького и «Друг ие берега» Набокова идентифицированы неверно.
Таблица 2. Значения коэффициента корреляции и О2
Корреляция и Среднеквадратическое отклонение (одиночные буквы)
произведение Булгаков Горький Грин Набоков ТолстойАН Фадеев
Собачье сердце 1-К о1 0,078266 0,291424 0,103656 0,486525 0,106095 0,41967 0 091668 0,3488 0,096947 0 366212 0 097918 0 379455
Коновалов 1-К а1 0 089882 0.274755 0,076056 0 261897 0,074777 0,231955 0,076578 0,230799 0,08043 0,242819 0,081951 0,261296
Челкаш 1 К (7* 0 115134 0,276479 0101117 0.264766 0 111817 0 27316 0,103529 0.248493 .0,094163 0)226234 0,118473 0,288793
Золотая цепь 1-К о2 0 075911 0 285409 0107005 0 476625 0,042992 0,1679(52' 0,073684 0 277839 0,076921 0,290772 0,087206 0,339839
Другие берега 1-К 0131074 0,266185 0,17945 0 494582 0135487 0,325527 0108786 0.227412 0,128201 0 270154 0,135071 0,314243
бледное пламя 1-К о1 0,062201 0,336089 0 098659 0 69048 0,067502 0,380547 /0,05116 0,271271 0,07418 0.40708 0,073312 0 438527
Буратино 1-К о3 0119269 0 344815 0,14711 0,4931 0,121783 0,377435 0,103303 0,304153 1 0,09848 0,136316 0,403194
Хождение (книга 2) 1-К о2 0,04932 0,250659 0 068747 0 448871 0,074545 0,381335 0,063539 0,312755 . 0,039069 "0:203946 0 05866 0 315492
Фадеев_ Разгром 1-К о2 0 080301 0 343062 0,063465 0 296348 0,077708 0 332444 0,084747 0 354931 0,073783 0,320994 0,058373' 0,260666
Аналогично строятся таблицы значений коэффициента корреляции и среднеквадратического отклонения, полученные при сравнении информационных портретов, вычисленных по другим характеристикам (встречаемости букв через одну в слов и встречаемостей в слове наиболее вероятных двухбуквенных сочетаний)
Рассматривая (1-К) и а2 в качестве расстояний между объектами, по формуле (4) вычисляется «расстояние» между контрольными произведениями и каждым автором Значения записываются п таблицу, фрагмент которой представлен в табл 3 Цветом выделены клетки, соответствующие трем наиболее вероятным автора для каждого произведения (интенсивность цвета уменьшается с вероятностью)
Таблица 3.
произведение Булгаков Горький Грин Набоков ТолстойАН Фадеев
Собачье сердце »0,63502 0.945618 0,804861 0 72212 0,71846 0 7875
Коновалов 0.668948 -«,5966874 0,668137 0,596809 0,659826 0.643247
Челкаш 0,616218 0 663268 0,62668 0 610053 МШй* 0,604747
Золотая цепь 0,701402 0,855219 шм 0,574467 0,687239 0,79562
Другие берега 0,8409 1 152317 0,891057 0,770833 0,832931
Бледное пламя 0,707579 1 123716 0,712661 0,755451 0 863748
Буратино 0,765641 0 973014 0,901919 0,769712 ШЙ6б3935; 0 875781
Хождение (книга 2) 0 643789 0 9158 0 803442 0721134 ¥*<Й59283- 0,638962
Фадеее_ Разгром 0,721919 0,674544 0,668037 0,707864 0,671025 »0,48*278'
При объединении результатов различных идентификаций определение автора стало точнее Произведения «Коновалов» и «Другие берега» отнесены к их настоящим авторам, и только «Челкаш» был идентифицирован неверно
В целом были проверены 32 произведения 20 авторов. В результате обобщенной идентификации верно было идентифицировано 28 произведений (88%), в двух произведениях (6%) истинный автор был поставлен на второе или третье место. Результаты приведены на диаграмме 1
разным параметрам
j ■ Идентифндоованэ верно
I в Идемтефм^фовано верно по одному параметру
I □ Идентифицировано не верно
1 Пары буяа 2 Буквы ■ 3 Пары 4 Пары S Пары ОСт щчач'Я
|*Пущ«е слова чаре* дауябука ггасных бука с^жав»ыа 3-х параметры
подрыв а одну со laianin ста параметров
слова
Диаграмма 1
В разделе 4 2 описано применение разработанного алгоритма для определения стиля произведения и языка
В разделе 4 3 рассматривается возможность применения предложенных методов для определения автора предложенного текста при проведении автороведческой экспертизы
В заключении изложены основные результаты диссертационной работы.
В приложении приведены программные продукты, реализующие предложенные алгоритмы, результаты статистической обработки текстов и документы, подтверждающие практическое применение результатов диссертационной работы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. В результате анализа научной литературы установлено, что существует проблема более полного использования возможностей статистической обработки текста с целью его идентификации.
2. Рассмотрение текста через структурно-иерархическую модель, позволило выявить новые свойства текста, которые являются устойчивым проявлением индивидуальных особенностей автора в разной степени на всех иерархических уровнях.
3 Установлено, что индивидуальные особенности автора проявляются как авторские инварианты текста на уровне букв и их сочетаний в виде соответствующих многомерных законов распределения
4. Разработаны методы и алгоритмы идентификации текстов посредством сравнения двумерных законов распределения букв и их сочетаний (информационных портретов), полученных из многомерных законов
5 Разработаны методы и алгоритмы идентификации текстов на основе объединения результатов сравнения отдельных информационных портретов
6 В результате практических исследований подтверждена эффективность предложенных методов и алгоритмов (из контрольных текстов верно идентифицировано около 90%)
7 Разработанные методы идентификации текстов могут служить основой для дальнейших модификаций и вариантов алгоритмического и программного обеспечения автоматизированных систем поиска информации
ПУБЛИКАЦИИ
Основное содержание диссертации отражено в следующих публикациях'
I Суркова A.C. Определение инвариантов разного уровня в задачах атрибуции текстов //Языковые и культурные контакты различных народов: Сборник статей Всероссийской научно-методической конференции. - Пенза, 2004. с. 251-252.
2. Суркова A.C. Построение системных инвариантов текста и его идентификация. //Материалы Всероссийской научно-технической конференции. ИСТ-2004. - Н Новгород, НГТУ, 2004. с. 122
3. Суркова А С. Проблема идентификации автора текста в юрислингвистике. //Материалы 3-ей молодежной научно-практической конференции «Будущее технической науки» - Н Новгород, 2004. с.51-52.
4. Панкратова А 3. Суркова A.C. От текста к информационному портрету. //Материалы 2-ой региональной научно-технической конференции «Будущее * технической науки Нижегородского региона» - Н.Новгород, 2003. с.37
5. Ломакина Л.С., Панкратова А.З. Суркова A.C. Автоматический анализ большого текстового массива. //Материалы 2-ой региональной научно-технической конференции «Будущее технической науки Нижегородского региона». - Н Новгород, 2003. с.ЗЗ.
6. Ломакина Л С , Панкратова А 3. Суркова А С. Развитие методов анализа и оптимизации структуры текста с целью идентификации //Материалы Всероссийской научно-технической конференции ИСТ-2003 - Н.Новгород, НГТУ, 2003 с 138.
7 Ломакина Л.С , Суркова А.С Системный подход в лингвистических * исследованиях //Материалы 6-ой международной конференции «НТИ-2002 Информационное общество. Интеллектуальная обработка информации. Информационные технологии » - М,- Изд-во ВИНИТИ, 2002 с 224-225
8 Голубева(Суркова) А С. Ломакина Л С Разработка алгоритма кластерного анализа в лексико-семантических исследованиях //Межвуз о>
«Системы обработки информации и управления» Выпуск 7. - Н Новгород, 2001 с 41-44
9. Голубева(Суркова) A.C., Ломакина Л.С. Применение методов многомерного статистического анализа в лексико-семантических исследованиях //Материалы Всероссийской научно-технической конференции, посвященной 65-летию информационных систем и технологий НГТУ ИСТ-2001. - Н.Новгород, НГТУ, 2001. с. 175-176
10 Голубева(Суркова) A.C. Применение методов кластерного анализа в исследованиях лексико-семантических групп //Материалы международной конференции «Математика. Образование. Тендерные проблемы.». Том 1. -Воронеж. Изд-во НОУ «Интерлингва», 2000 с.82-83.
9-63 5$
РНБ Русский фонд
2006-4 5051
<
Подписано в печать 23.12 04 Формат 60 х 84'/16 Бумага офсетная Печать офсетная Уч.-изд л. 1,0. Тираж ЮОэкз Заказ 837.
Нижегородский государственный технический университет Типография НГТУ. 603600, Нижний Новгород, ул Минина, 24
-
Похожие работы
- Метод функциональных преобразований и его применение в задачах моделирования и идентификации систем
- Идентификация по критерию максимума вероятности
- Синтез, исследование и применение рекуррентных алгоритмов оценивания параметров математических моделей объектов в автоматизированных системах управления
- Синтез и применение алгоритмов идентификации как замкнутых динамических систем
- Методы и алгоритмы идентификации в системах управления промышленными объектами
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность