автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и программные средства выделения и численного оценивания вариативности языковых единиц

кандидата физико-математических наук
Саломатина, Наталья Васильевна
город
Новосибирск
год
2009
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и программные средства выделения и численного оценивания вариативности языковых единиц»

Автореферат диссертации по теме "Методы и программные средства выделения и численного оценивания вариативности языковых единиц"

УДК 81:322; 81:372.88; 519.769

На правах рукописи

САЛОМАТИНА Наталья Васильевна

МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА ВЫДЕЛЕНИЯ И ЧИСЛЕННОГО ОЦЕНИВАНИЯ ВАРИАТИВНОСТИ ЯЗЫКОВЫХ ЕДИНИЦ

05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

Новосибирск - 2009

003471281

Работа выполнена в Институте математики им. С.Л. Соболева СО РАН

Научный руководитель:

Гусев Владимир Дмитриевич, кандидат технических наук, старший научный сотрудник

Официальные оппоненты: Хабаров Валерий Иванович,

доктор технических наук, профессор

Сидорова Елена Анатольевна, кандидат физико-математических наук

Ведущая организация: Научно-исследовательский

вычислительный центр МГУ

Защита состоится 5 июня в 15 ч. 00 мин, на заседании Диссертационного совета ДМ003.032.01 в Институте систем информатики имени А.П.Ершова Сибирского отделения РАН по адресу: 630090, г. Новосибирск, пр. Акад. Лаврентьева, 6.

С диссертацией можно ознакомиться в читальном зале ИСИ СО РАН (г. Новосибирск, пр. акад. Лаврентьева, 6).

Автореферат разослан « 4 » мая 2009 г.

Ученый секретарь Диссертационного совета, к.ф.-м.н.

Мурзин Ф.А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность гемм. В связи со стремительным ростом объемов текстовой информации в электронных хранилищах данных, включая Интернет, возникает потребность в разработке человеко-машинных интерфейсов, а также систем автоматического извлечения фактов и знаний из текстов различной языковой природы. Серьезные проблемы при этом создаст вариативность языковых единиц (ЯЕ), проявляющаяся в разных формах на всех уровнях иерархии. Для автоматического обнаружения и отождествления вариантов ЯЕ в тексте необходимо разрабатывать специальные программные средства с опорой на алгоритмы, формапизующие понятие ЯЕ и ее ближайшей окрестности, что и определяет направленность данной работы. В основе таких алгоритмов лежит изучение закономерностей варьирования ЯЕ, в частности, выявление допустимых преобразований (редакционных операций), а также получение количественных характеристик вариативности ЯЕ. Они включают в себя формальные оценки близости двух ЯЕ, доминирующие типы редакционных операций, оценки устойчивости различных позиций внутри ЯЕ, характеризующие возможности ее членения на более мелкие единицы, и др. Сложность автоматизации исследования вариативности состоит в том, что программный комплекс должен включать широкий набор средств автоматической обработки текстов (АОТ), в частности, программы фильтрации вариантов, не представляющих интереса (словоизменение) и др. _

Традиционные лингвистические исследования вариативности ЯЕ носят преимущественно качественный характер. Отличительными особенностями данной работы, проводимой на материале русского языка и отдельных его подъязыков, являются количественный характер исследования и ориентация не только на единицы низких уровней (корни и канонические формы слов), по и более высоких - слабо формализованных (устойчивые словосочетания, фразы, построенные на «игре слов», индикаторы отдельных аспектов содержания, сверхфразовыс единства и т.п.). Эти особенности определяют широкую сферу

применимости программно-алгоритмического аппарата, созданного для анализа вариативности ЯЕ. Он может быть использован для обнаружения дубликатов, заимствований (в том числе в текстах программ), оптимизации информационного поиска (обогащение запроса путем варьирования, формирование шаблонов), сегментации длинных неструктурированных текстов, обнаружения ошибок и спишеметрии (формализация понятий «норма», «отклонение от нормы»).

Цели исследования: 1) разработка и программное обеспечение методики выделения и количественного анализа вариативности ЯЕ; 2) исследование закономерностей варьирования ЯЕ на разных уровнях иерархии и использование этих закономерностей в приложениях.

Основные направления исследований:

- разработка алгоритмов и программ предобработки текстов и выделения ЯЕ более высокого уровня, чем слово;

- количественное изучение вариативности на уровне морфем и лексем русского языка; формирование и использование электронного словаря паронимов;

- анализ вариативности словосочетаний и фраз (на материале газетных заголовков, построенных на «игре слов», и аспектных маркеров); использование полученных результатов при создании программ обогащения индикаторных (аспектных) словарей и построения квазирефератов текста;

- анализ вариативности взаимосвязанных текстов (дублирующие переводы; квазирефераты одного и того же текста, построенные разными программами).

Методы исследований опираются на межъязыковые аналогии, аппарат /,-граммного представления текстов, используют технику динамического программирования для сравнения символьных объектов, элементы математической статистики и теории формальных языков, принципы структурного и модульного программирования.

На защиту выносится:

- методика количественного исследования проявлений вариативности ЯЕ разных уровней иерархии, реализованная в виде совокупности методов и программ

выделения ЯЕ из текста, их нормализации, построения ближайших окрестностей ЯН и их количественной характеризации;

- результаты апробации методики на разных типах ЯЕ с иллюстрацией возможностей использования в реальных системах обработки текстов (информационный поиск, обнаружение ошибок, построение квазирефератов и др.).

Научная новизна:

- впервые получены оценки комбинаторной вариативности корней, слов, морфемных моделей, численно характеризующие процессы словообразования в русском языке. Результаты представлены в виде электронного словаря паронимов (графемный и фонемный варианты), зарегистрированного во Всероссийском научно-техническом информационном центре (ВНТИЦг№ 50200801785);—

- создана уникальная база данных, содержащая газетные заголовки, построенные на «игре слов», их прототипы (крылатые фразы, цитаты, пословицы и пр.), а также информацию об авторах и изданиях. Количественная характеризация схем варьирования прототипов (в том числе не упоминавшихся ранее) дает возможность устранения штампов, проведения цититно-стилистической экспертизы, поиска подходящего прототипа для заголовка.

- предложен и реализован новый (более чувствительный) алгоритм выделения сверхфразовых единств в тексте, основанный на использовании сканирующих статистик. Введено понятие профиля кластеризуемости текста, аккумулирующее информацию обо всех выделенных в тексте сверхфразовых единствах и позволяющее строить различные варианты квазирефератов текста на основе совместного учета частотной и позиционной информации;

- впервые проиллюстрирована возможность использования количественных характеристик /,-грам много спектра для частичной автоматизации процедуры формирования и обогащения (путем варьирования) индикаторных словарей, фиксирующих подсказки о различных аспектах содержания научного текста.

Достоверность и обоснованность предлагаемых решений подтверждается хорошей корреляцией экспертных оценок с результатами, получаемыми с

помощью разработанных и программно реализованных методов.

Практическая ценность проведенных исследований состоит в том, что созданный комплекс программ, реализующих методику количественного исследования вариативности ЯЕ, позволяет сформировать описание ЯЕ как совокупности ее возможных вариантов, включая и не представленные в обучающей подборке. Это повышает эффективность информационного поиска и обработки естественноязковых текстов в автоматическом режиме. На основе разработанной методики построены многоцелевой электронный словарь паронимов русского языка, трудные тестовые словари для систем распознавания и синтеза речи, индикаторные словари для многоаспектного анализа научных текстов, являющиеся компонентами баз знаний систем ЛОТ.

Апробация работы. Основные результаты докладывались на Сибирском конгрессе по прикладной и индустриальной математике (ИНПРИМ-2000); Международных научно-практических конференциях (KDS-2001, 2005); Всероссийской научной конференции "Квантитативная лингвистика: исследования и модели" (КЛИМ-2005); пяти конференциях "Компьютерная лингвистика и интеллектуальные технологии" (Диалог-2003 - Диалог-2007). Многие работы прошли экспертизу в ходе выполнения проектов, поддержанных фантами РФФИ (№ 00-06-80420, 03-06-80118, 06-06-80467) и РГНФ (№ 99-04- 12026-в).

Личный вклад. Методика количественного анализа вариативности ЯЕ разработана совместно с руководителем. Основные результаты по исследованию вариативности ЯЕ разного уровня, созданию тестовых и индикаторных словарей, формированию квазирефератов получены автором лично. Выделение сверхфразовых единств с помощью сканирующих статистик реализовано при участии Мирошниченко JT. А.

Публикации. По теме диссертации опубликовано 28 работ: 4 статьи в ре-рецензируемых журналах, 13 - в научных сборниках, 11 - в прудах международных и всероссийских конференций.

Структура работы. Диссертационная работа состоит из введения, обзор-

ной главы 1, четырех глав с изложением основных результатов, заключения и списка литературы (143 наименования), содержит 4 рисунка и 17 таблиц. Общий объем работы - 184 стр.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

В первой главе представлен обзор работ, связанных с лингвистической трактовкой понятия вариативности и ее проявлениями в разных языковых системах. Рассмотрены формальные меры сходства символьных объектов, с помощью которых можно оценивать близость ЯЕ.

В работах лингвистов дается толкование вариативности в узком и широ-_кoм_cмыcлeJ|kpвoeJ^peдтloлaгaeт, что различные по форме варианты ЯЕ сохраняют смысловую близость. Зачастую такое толкование является ограничительным. Так, при обнаружении ошибок паронимического типа (тест - текст, частый - частный) вариантами слова удобно считать формально близкие, но в общем случае отличающиеся по смыслу ЯЕ. Порой смысловое тождество намеренно нарушается во фразах, построенных на «игре слов»: свято кресло пусто не бывает', пусто место свято ие бывает', свято место теперь пусто.

Широкая трактовка вариативности предложена М.М. Маковским в его монографии «Лингвистическая комбинаторика». Предполагается, что изменение формы ЯЕ может привести к изменению смысла, а трансформация смысла

- повлечь за собой преобразование формы ЯЕ. В этом понимании варьирование

- одно из средств развития и пополнения языка новыми ЯЕ.

Лингвистические исследования вариативности языка объясняют и систематизируют это явление лишь на качественном уровне. Дня получения количественных характеристик вариативности нужно уметь оценивать сходство между символьными объектами на разных уровнях иерархии. Для наших целей известные меры сходства удобно разделить на учитывающие порядок следования элементов в сравниваемых последовательностях и игнорирующие его.

В мерах первого типа фиксируется множество допустимых редакционных операций, отражающих возможности трансформации объектов. Универсальны-

ми элементарными операциями являются замена, вставка и устранение символа. Метрика Левенштейна определяется как минимальное число операций указанного типа, переводящих одну последовательность в другую. Модификации этой метрики (редакционное расстояние и др.) связаны с изменением или расширением состава операций и введением весов для них.

Теоретико-множественные меры сходства не учитывают порядок следования элементов в тексте. Они работают с набором признаков, вычисляемых для каждого текста (это может быть множество ¿-грамм, см. главу 2). Подобные меры вычисляются проще, чем редакционное расстояние. На разных уровнях языковой иерархии используются разные меры сходства.

Анализ проявлений вариативности в других языковых системах (биомолекулы, язык песен, цепные письма и др.) существенно расширяет спектр специфических редакционных операций. Отмечена важность межъязыковых аналогий и возможность переноса отдельных постановок и методов решения из одной языковой системы в другую.

Во второй главе описана методика количественного исследования вариативности ЯЕ, включающая: I) формирование обучающих подборок, содержащих образцы изучаемых ЯЕ и их варианты; 2) процедуры предобработки текста (фонетическая транскрипция, морфологический, 1-граммный и позиционный анализ); 3) методы выделения из текста ЯЕ более высокого уровня, чем слово; 4) анализ допустимых редакционных операций и выбор мер близости; 5) определение ближайших окрестностей каждой ЯЕ и их количественная характеризация. Для разных классов ЯЕ некоторые этапы могут носить факультативный характер. Кратко охарактеризуем пункты 1 - 5 методики.

1) Создание обучающих подборок. Для анализа корней и слов русского языка выбран деривационный словарь Д. Уорта объемом порядка 100 тыс. слов (свыше 10 тыс. корней), в котором слова имеют межморфемные раздели гели, что удобно для выделения корней и построения морфемных моделей. Изучение вариативности ЯЕ более высоких уровней проводится на отдельных подмноже-

ствах языка: словосочетаниях, несущих информацию о различных аспектах содержания научных текстов; крылатых выражениях и фразах, используемых в качестве прототипов газетных заголовков (подборка из 2,5 тыс. заголовков). Материалом для изучения вариативности на высших уровнях являлись переводы одного и того же текста или его квазирефераты, сделанные разными людьми или разными компьютерными программами.

2) Процедуры предобработки текста применяются к ЯЕ типа «слово» и выше. Транскрибирование (представление слов в алфавите фонем) ориентировано на использование в речевых человеко-машинных интерфейсах. Реализованная автором процедура транскрибирования работает с фразами, т.е. со слитно произносимыми словами, что потребовалсПдетального учета взаимовлияния звуков на стыках слов.

С помощью морфологического анализа словоформы представляются в каноническом виде. Это необходимо, когда морфологическая вариативность ЯЕ является мешающим фактором (например, при выделении устойчивых словосочетаний). Особенностью реализованной в работе процедуры морфологического анализа, отличающей ее от известных аналогов, является выбор базового словаря, содержащего информацию о морфемной структуре слова. Это позволяет анализировать вариативность сразу на двух уровнях - морфемном и лексемном, прослеживать взаимосвязи между ними, проводить межъязыковые аналогии (см. главу 3). Алгоритм предусматривает нормализацию «новых» (не содержащихся в базовом словаре) слов, используя рассуждения «по аналогии» и информацию о разнообразии форм «нового» слова в исследуемом тексте.

Ь-граммный анализ - это способ представления текста в виде набора цепочек из I. подряд следующих букв (на нижних уровнях) или слов (на верхних) с указанием частоты встречаемое™ и мест вхождения их в текст. Совокупность всевозможных содержащихся в тексте ¿-фамм с сопутствующей информацией образует частотную характеристику текста порядка обозначаемую <['¿(7). Совокупность <1>1(7) со значениями /„ от ) до Ьтах (длина в символах или словах

максимального повтора в тексте) составляет полный частотный спектр текста Ф(Г). Он используется для выявления устойчивых словосочетаний, максимальных повторов (структурных единиц достаточно высокого уровня), обнаружения ошибок, изучения особенностей авторского стиля.

Аналогом Ф/, (7) для группы текстов Т = (Т\, Тг, ..., Т„) является совместная частотная характеристика ¿-го порядка ФД Т), содержащая частотную и позиционную информацию об ¿-граммах, общих хотя бы для пары текстов из Т . Совокупность Ф¿(Г) со значениями ¿ от 1 до ¿,„а,(Т ) (длина максимального межтекстового повтора) образует совместный частотный спектр группы текстов - Ф,.( Г). Он используется для выделения отдельных классов ЯЕ (в частности, аспектных маркеров) и лежит в основе вычисления теоретико-множественных мер близости для пар и групп текстов. Для вычисления полных частотных спектров используются «1п'е-структуры» (¿-граммные деревья). Трудоемкость алгоритмов имеет порядок Ьтих ■ Ы, где 1„!их - длина максимального внутри- (или меж-) текстового повтора, Л' - длина текста (или группы текстов).

Позиционный анализ оценивает значимость ЯЕ на основе информации о местах вхождения ее в текст. Предполагается, что наиболее значимыми являются ЯЕ, распределенные по тексту неравномерно, в частности, кластеризованные ЯЕ. Для их обнаружения адаптирован аппарат сканирующих статистик, характеризующийся наибольшей чувствительностью к такого рода аномалиям. С его помощью удается выявлять и ряд других аномалий, в частности, сверхравномерно распределенные по тексту ЯЕ (потенциальные разделители).

3) Методы выделения ЯЕ более высокого уровня, чем слово, основаны на аппарате ¿-граммного и позиционного анализа. Рассмотрены три типа ЯЕ: устойчивые словосочетания, индикаторы отдельных аспектов содержания научного текста (аспектные маркеры) и сверхфразоёые единства. Устойчивые словосочетания доминируют в словарях терминологической лексики и служат универсальной базой для выделения других типов структурных единиц. Аспектные маркеры являются перспективным инструментом информационного поиска,

однако формирование словаря этих ЯЕ под новый аспект содержания, как правило, производится вручную. Даже частичная автоматизация этого процесса представляется актуальной. Сверхфразовые единства - пример более крупных ЯЕ, определяющих макроструктуру текста, что существенно при работе с неструктурированными документами, характерными для сети Интернет.

Термином «устойчивая цепочка» мы характеризуем /.-граммы (Л > 2), встречающиеся в большом числе различных контекстов. Максимально неустойчивой считается цепочка, которая лишь единственным образом продолжаема в обе стороны. Это означает, что она не имеет самостоятельного значения и ^функционирует лишь в составе более длинной цепочки. Формально, пусть х -произвольная ¿-грамма, F(x) - частота ее встречаемости в тексте. Из всех левосторонних расширений .т, реализованных в тексте и имеющих форму ах (а — произвольная словоформа, предшествующая д:), выберем расширение а*х с максимальной частотой встречаемости в тексте. Очевидно, что F(a*x) < F(x). Аналогично, среди всех правосторонних расширений вида xb выберем самое частое - хЬ*, при этом F(xb*) < F(x). Цепочка с F(x) > 2 считается устойчивой, если одновременно выполняются условия: F(a*x)/F(x) < П и F(xb*)t'F{x) < П, где значение порога П не превышает 0,5. Такой выбор порога устраняет возможность доминирования по частоте любого из возможных расширений.

Для выявления аспектных маркеров используется гипотеза об их устойчивой повторяемости в разных текстах. В отдельно же взятом тексте конкретный маркер не должен встречаться более одного- двух раз, поскольку основные аспекты содержания (цель, актуальность, новизна, ...) обычнд формулируются однократно. Исходя из этого, потенциально возможные аспсктные маркеры мы ищем среди нормализованных устойчивых ¿-грамм из Ф£( Т ), удовлетворяющих условию F„rK{x)IF„u,K<„,{x) < 2, где Farn{x) - число вхождений ¿-граммы х в тексты из Т , a F,K.ki;,„(x) - число текстов из Т, содержащих х. Эксперт осуществляет дополнительную фильтрацию отобранных ¿-грамм с привлечением минимального контекста (1-2 предложения). Прочтение всех текстов из Г для отбо-

pa маркеров вручную требует гораздо большего времени.

Сверхфразовые единства - это достаточно крупные фрагменты, связующими элементами в которых выступают кластеризованные знаменательные словоформы. Для выявления кластеров используется статистика cl(n), равная длине минимального фрагмента, содержащего ровно п вхождений нормализованной словоформы х (п„„р < п < F(x), где F(x) - частота встречаемости словоформы в тексте, а пюр - ограничение снизу на число повторов в кластере). Распределение d(ri) при нулевой гипотезе в непрерывном случае (точки на отрезке) известно и частично затабулировано. В нашем случае аномалии в распределении лексем в тексте фиксируются с помощью имитационного моделирования. Кластеризация имеет место, если: (S,,<„-,,, < S„,¡,,)Sí {Smc,:, < S - 3s\ где S„m- наблюдаемое значение статистики d{rí) в анализируемом тексте, a Sm¡„ и 5 - соответственно, минимальное и среднее значения статистики d(n), полученные в серии из 100 экспериментов с «рандомизированными» текстами, 5 - среднеквадратичное отклонение. Рандомизация проводилась путем равномерного перемешивания словоформ исходного текста.

4) Анализ допустимых редакционных операций и выбор мер близости осуществляются на основе обучающих подборок, содержащих примеры ЯЕ и их вариантов. Показательна в этом плане подборка газетных заголовков, построенных на «игре слов», где одному прототипу (инварианту) может соответствовать до 10-И 5 вариантов, а число зафиксированных схем варьирования близко к 30. При исследовании вариативности корней, слов, морфемных моделей слов используются операции вставки, замены, устранения символа и метрика Левенштейна для сравнения ЯЕ. При исследовании средних уровней используем операции вставки, замены и устранения слов. Сравнение ЯЕ высокого уровня проводим на основе теоретико-множественных мер сходства, адекватно реагирующих на дупликации и перестановки крупных блоков в тексте.

5) Определение ближайших окрестностей ЯЕ и их количественная ха-рактеризация - наиболее трудоемкий этап методики. Поясним его на примере

получения ближайших окрестностей слов. Пусть V - исходный словарь ЯЕ, d(a, b) - редакционное расстояние между а и h (a, b е V). Если веса операций одинаковы и равны I, d может принимать значения О, 1, 2, ... Совокупность всех ЯЕ из V, удаленных от а (а е V) не более чем на d, назовем ¿/-окрестностью а и будем обозначать vja). Например, для а = порт и d = 1 v'i(a) = {апорт, спорт, пот, орт, борт, корт, сорт, торт, форт, хорт, пора, пост, поэт}. Если d мало, пары (а, Ь), где b е v„<o), трактуются как паронимы в широком смысле.

Если ввести обозначения S, / и D для операций замены (Substitution),

вставки (Insertion) и устранения символа (Deletion), то полную окрестность V|(o)

можно представить в виде v,(a) = v"9(a)|Jv'(a) (Jv"(a), где v\a), v (a), vD(a) -

наборы ЯЕ из V, отличающихся от а, соответственно, одной заменой, вставкой

или делецией. В свою очередь, vs(a) =(Jv1'!(a), где а = aia2...at...ap 1 <k<j,

k

Vt(q) - совокупность слов, отличающихся от а только заменой по А-ой позиции.

Аналогично, v'\a) =ljvf(a), где v"(a) - либо одноэлементные (v/' = {at]), ли-i

бо пустые множества. В случае вставок v\a) ~Uv4'(a), при этом индекс к меня»

ется от 1 (вставка перед а{) до у + 1 (вставка после aj) . Символы, замещающие к-ю позицию в ЯЕ, составляют векторы замен subt(a), вставок insi(a) и делеций deh(d). Чем меньше длина вектора, тем устойчивее данная позиция.

Задача построения вариантов ЯЕ эквивалентна отысканию несовершенных повторов. Для d— 1 она сводится к более простой задаче отыскания точных повторов путем использования специальных "склеивающих" преобразований, делающих неразличимыми слова, отличающиеся друг от друга только заменой или вставкой/делецией по к-й позиции.

При d = 2 возможны следующие комбинации искажений: SS, II, DD, SI, SD, ID. Аналогично случаю d= I для любого а е Vопределяются подокрестности Для каждой из комбинаций a, f) б {S, £>,/}, а также соответствующие

им векторы искажений. Поиск соседей облегчается, если словарь V разделен на подмножества слов длины у (К=у(Л ,у = 1,2,...). В зависимости от комбинации а, Р сравниваются только элементы множеств V, (схемы 55 и Ю); V/ и (схема 57); ^ и (схема Ж); и (схема /Г); V) и (схема ДО).

Для ЯЕ высокого уровня ближайшие окрестности могут быть сформированы лишь частично (по ограниченному подъязыку, ограниченному набору операций, ограниченной обучающей подборке). Но даже в этом случае удается выявить допустимые редакционные операции и сформировать поисковые шаблоны для ЯЕ, учитывающие возможные проявления вариативности.

Кроме описанных выше алгоритмов предобработки, выделения ЯЕ и построения окрестностей реализован также ряд процедур, иллюстрирующих возможности практического использования разработанного аппарата. Это процедуры формирования тестовых словарей для систем распознавания и синтеза речи (см. гл. 3), а также построения профиля кластеризуемое™ и квазирефератов текста (см. гл. 5). На рис. 1 показаны схемы сборки программных модулей обработки текста для получения конкретного продукта (словаря, квазиреферата, графика, позволяющего осуществить сегментацию текста). Для иллюстрации на рисунке двойными стрелками изображен процесс получения тестовых речевых словарей, а жирными - построения квазирефератов.

В третьей главе исследуется вариативность корней (а) и слов (а). Последние рассматриваются на фонемном, графемном и морфемном уровне. Указаны возможности практического использования полученных результатов.

Непустые ¡-окрестности имеют при использовании всех трех операций (5, /, О) примерно 43% слов и 61% корней, т.е. степень проявления паронимии достаточно высока. Превалирующий тип искажений - замены. Наиболее вариативны короткие слова и корни. Приведем примеры корней- и слов-рекордистов: а = полить, .$ий|(сг)={<), з, м, п, с,'х}, хиЬ^а) ={о, и, о, ы,я}, ¡иЬ^(а) -{б, в, ж, л, п, ч, ш), тЬ4(а) ={», о, с) , всего 17 соседей; а = мал, зиЬ\(а)~\б, в, г, д,.ж, з, к, л, м, п, с, т, ф,х, ч, ш), $иЬ2(а) ={а, г, е, и, о, у, ю}, $иЬ}(а)={в, г, д,

модули предобработки

специальные модули обработки

Построение

окрестностей ¡¡Ж

фафичсское представление макроструктуры текста

Шмшшшш

Рис. I. Схема сборки модулей обработки текстовых данных

ж, з, й, к, л, м, н,р, с, т, ф, х, ц, ч, ш,щ), всего 39 соседей.

Вариативность разных позиций в слове/корне существенно отличается. Существуют доминирующие типы вставок и замен для разных (но не всех) позиций слов. Обычно они приходятся на начальные (к = 1, 2, 3) и, в меньшей степени, конечные (к = _/'-2,у-!,/, /+!) позиции. Случаи доминирования тесно связаны с морфемной структурой и проявляют себя при значительных длинах слов (/ > 6). В корнях явное доминирование одних типов искажений над другими чаще всего объясняется чередованием гласных и согласных. Векторы замен и вставок обычно однородны по СГ-составу (С - согласный, Г - гласный).

При переходе к фонетической записи ближайшие окрестности слов могут измениться. Так, в графемном варианте <1(явить, свить) = 1, а в фонетическом -<5?(.1Лв'ит', с'в'ит') = 2, тогда как ¿{(явить, ловить) = 2, но с/(.)лв'ит', ллв'ит') = 1. Для построения тестовых речевых словарей выбираются слова, у которых несовпадающие фонемы близки по артикуляционно-акустическим характеристикам, например, [т', к']: тенор - кенар; [м, н]: исламский - исландский и т.п. Реализован алгоритм формирования тестовых словарей приемлемых объемов (от 50 до 100 пар слов) с возможностью многократного обновления, что затрудняет настройку тестируемой речевой системы на конкретный словарь.

При <1=2 уже порядка 82% всех слов имеют непустую 2-окрестность. Комбинации допустимых операций ранжируются по частоте встречаемости следующим образом: 55 > > 5/ > ЭО > 11 > Ю. Слова с пустой 2-окрестностью можно отнести к категории устойчивых к искажениям нарони-мического типа (взгляд, соблазн, ремесло). Схемы 55 и Ш при сохранении буквенного состава трактуются либо как перестановки символов (55: теплица -петлица), либо как транспозиции (перенос символов): укорять - рукоять (/£>).

Важное значение приобретает распределение искажений но позициям слова. Будем различать кластеризованные искажения (они затрагивают соседние позиции) и непастеризованные (разнесенные друг от друга). Показано, что число первых значительно выше уровня, допускаемого моделью с незави-

симм.м распределением искажений в слове. Искажение соседних позиций служит индикатором структурной единицы более низкого уровня (слога, морфемы). Связь эффекта кластеризации со структурой ЯЕ может быть постулирована для других языковых систем и использована для выделения ЯЕ из слитных текстов (например, генетических).

Вариативность морфемных моделей рассматривалась для «/= 1. Простейшие модели описывают группы слов в виде цепочек морфем, в которых корневая морфема унифицирована. Например, модель т = под-Л-к-а описывает слова с Яе{бор, вод, зем,...}. Более высокий уровень агрегирования имеют типовые модели, где кроме корня унифицированы еще все префиксальные (р) и суффиксальные морфемы (.г,/ с). Так, типовая модель т' -рКф описывает множество

простейших моделей: т\ = под-Л-и-ть-ся, пъ = рас-Л-а-ть-ся, от3 = вы-Л-я-ть-ся. В приводимой таблице указаны первые десять типовых моделей т\ упорядоченных согласно числу М охватываемых ими простейших моделей (т). Здесь п - число слов словаря, описываемых типовой моделью т\ г -ранг типовой модели при упорядочении по п. Получены оценки вариативности морфемных моделей, позволяющие количественно охарактеризовать процессы словообразования в русском языке, а также выявить «незаполненные» позиции (отсутствующие в языке формы слов). Результаты данной главы могут быть использованы также для обнаружения ошибок паронимического типа, составления лингвистических задач, тестирования систем распознавания и синтеза речи.

В четвертой главе приведены результаты количественного анализа вариативности словосочетаний (аспектные маркеры) и фраз (газетные заголовки). Рассмотрена возможность моделирования вариантов по прототипам.

Аспектные маркеры (слова, словосочетания, шаблоны) применяются для

М т' п г

1 2471 8947 3

2 1680 РМ 14105 1

3 1365 2155 и

4 1058 Rss/ 7181 4

5 955 3404 8

6 896 1380 22

7 790 827 15

8 693 рЯьзь.ч/ 1010 19

9 522 Р¥ 1392 14

10 461 рЛ? 1447 13

автоматического извлечения информации о различных аспектах содержания текста. Например, аспект «цель исследования» выявляется с помощью маркеров типа «в настоящей работе», «в работе рассматривается», «целью являегся» и др. По обучающей подборке трудов конференции Диалог'2002 с помощью алгоритма, описанного в главе 2, построены индикаторные словари для выявления 12 аспектов содержания (цель работы, актуальность, новизна, полученные результаты и др.). Суммарный объем словарей по всем 12 аспектам составил порядка 700 маркеров. Анализ маркерных цепочек позволяет выделить группы условно синонимичных подстановок. Так, наличие маркеров «в данной работе» и «в настоящей работе» позволяет считать слова «данный» и «настоящий» условными синонимами в контексте рассматриваемого аспекта. Аналогичный вывод можно сделать относительно глаголов «рассматриваться» и «обсуждаться» («в работе рассматривается», «в работе обсуждается»...). Формирование групп условных синонимов типа {статья, доклад, работа,...}, У = {данный, предлагаемый, настоящий,...}, 2= {рассматриваться, обсуждаться, описываться,...} дает возможность обогащения исходного словаря путем варьирования уже отобранных маркеров, т.е. без пополнения обучающей подборки. При этом исходные маркеры заменяются шаблонами вида: цель\х; в\>Дстатье; в\работе\г и т.п., где переменные х, у, 1 допускают подстановки из элементов множеств X, У, 2 соответственно. Используя эти и другие типы варьирования, суммарный объем индикаторных словарей был доведен примерно до 1000 маркеров. Эксперименты на контрольной подборке показали приемлемую полноту 80-90%) и точность (~ 65-85%) идентификации аспектов. Реализован алгоритм построения квазирсферата научной статьи по заданному набору аспектов.

На материале газетных заголовков, построенных путем варьирования общеизвестных прототипов, получены качественные и (впервые) количественные (частотные) характеристики прототипов, их источников и схем варьирования. Замена слова в прототипе - наиболее частая операция (28,8% всех случаев): «Пролетая над гнездом науки». Интересными являются схемы варьирова-

ния, обыгрывающие многозначность ЯЕ (1,6%): «Шаром покати» - статья о боулинге; фонетическое сходство (6,7%): «Все течет, все измеряется»; использующие префиксные и суффиксные блочные делеции (6,3%): «Служить бы рад»..., «...Табачок врозь»; контаминации (1%): «Красному петуху море но колено» - о пожаре в сауне. Часто используются согласованные двойные замены (5,7%) с сохранением синтаксической структуры прототипа: «Место преступления определить нельзя». Комбинация различных преобразований имеет место в 18,8% случаев («В спорах о гимне рождается мелодия»). Многократное использование одного типа преобразования, например, антонимического («Новый враг хуже старых двух»), встречается редко.

Результаты этой главы представляют интерес в плане изучения специфики варьирования ЯЕ на разных уровнях иерархии, устранения штампов, повышения эффективности информационного поиска (варьирование запроса), выработки подходов к автоматизации отдельных схем варьирования.

В пятой главе анализируются структурные единицы верхнего уровня (варьированные тексты), полученные путем перевода одного и того же текста на другой язык или его реферирования разными людьми или программами.

Сравнивались два перевода на русский язык книги Алана А. Милна «Винни-Пух». Ранний сделан Б. Заходером (3), более поздний - В. Вебером (В) и Н. Рейн. Оценки сходства и различия этих текстов получены на основе анализа совместного частотного спектра. Показана особая роль «контрастных» (т.е. представленных преимущественно в одном из текстов) ¿-грамм в выявлении композиционных и стилистических различий двух переводов, а также проявлений целенаправленного варьирования оригинала. К ним можно отнести переименование действующих лиц (к этому прибегают и Заходер, и Пебер), русификацию системы мер и весов (3), вольный перевод звукоподражаний, восклицаний (З и В), замену часто встречающегося слова группой условных синонимов (В) и наоборот.

Отмечен весьма специфический вид варьирования, сводящийся к созна-

тельному дистанцированию от имеющегося известного перевода. А именно, в тех местах, где Заходер почти дословно следует Милну, Вебер варьирует его. Там же, где Заходер отходит ог оригинала, Вебер следует Милну или, в свою очередь, отходит от оригинала. Но Заходер сам предупреждает о возможности отклонений от оригинала («пересказал Борис Заходер»), тогда как Вебер настаивает на близости к оригиналу («ничего не привносить своего»).

В качестве вариантов текста можно рассматривать различные его свертки в виде квазирефератов. Предложены два способа формирования квазиреферата на основе позиционно кластеризованных лексем. Первый связан с построением профиля кластерюуемости лексических единиц в тексте. Он отражает совокупное распределение в тексте и взаимосвязь кластеризованных ЯЕ (слов и словосочетаний). Формально профиль кластеризуемости - это ступенчатая функция, аргументом которой является порядковый номер предложения в тексте, а значение равно числу различных кластеров, включающих в себя данное предложение. На приводимом ниже рисунке изображен фрагмент профиля кластеризуемости главы 6 из «Винни-Пуха». Ось абсцисс направлена вниз, а ось ординат - по горизонтали слева направо. Вместо значений функции для наглядности выписаны ЯЕ, кластеризованные в данном фрагменте.

номера число

фраз кластеров кластеризованные ЯЕ

1 - 54 0

55 - 101 2 СЕГОДНЯ; ДЕНЬ РОЖДЕНИЯ;

102 110 0 —

111 148 1 ГОРШОЧЕК;

149 150 5 ГОРШОЧЕК; ПОПРОСИТЬ; НАПИСАТЬ; ДЕРЖАТЬ; ХОТЕТЬ;

151 167 6 ГОРШОЧЕК; ПОПРОСИТЬ; НАПИСАТЬ; ДЕРЖАТЬ; ХОТЕТЬ; СОВА;

168 169 5 ГОРШОЧЕК: ПОПРОСИТЬ; НАПИСАТЬ; ХОТЕТЬ; СОВА;

170 171 4 ГОРШОЧЕК; ПОПРОСИТЬ; НАПИСАТЬ; СОВА;

172 178 3 ГОРШОЧЕК; НАПИСАТЬ; СОВА;

179 195 ^ 2 НАПИСАТЬ; СОВА;

196 204 I СОВА;

Отбор фраз для квазиреферата производится по точкам изменения значений профиля. Это перекликается с позиционным методом реферирования, учитывающим наиболее информативные (начальные и конечные) фрагменты в

структуре текста, задаваемой автором. Предлагаемый же метод отталкивается не от явленной структуры (она может быть слишком бедной), а строит независимую оценку макроструктуры текста в виде профиля кластеризуемое™. Другой способ построения квазиреферата состоит в приписывании каждому предложению веса в соответствии с наличием в нем кластеризованных словоформ.

Апробация различных подходов к построению квазирсфератов демонстрирует многообразие вариантов получаемых решений, что обусловлено специфическими особенностями разных подходов. Так, в рефераты, полученные путем «взвешивания» фраз, могут не попасть короткие, но информативные подза-головки^поскольку короткие фразы объективно имеют меньше шансов набрать большой вес. Некоторые коммерческие программы не отделяют общеупотребительную лексику от тематической, что ухудшает качество квазиреферата. Служебные слова редко кластеризуются, но когда это случается, они учитываются в профиле кластеризуемости. В рефераты, основанные на индикаторных словарях, могут не попасть информативные фразы, не содержащие аспектного маркера. Эти примеры приводят к выводу, что для получения качественного квазиреферата желательна комбинация различных подходов, адекватно учитывающих широкий спектр проявлений вариативности единиц данного уровня.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ.

1. Предложены и реализованы новые алгоритмы выделения в тексте структурных единиц более высокого уровня, чем слово: 1) устойчивых словосочетаний, 2) маркеров различных аспектов содержания текста, 3) сверхфразовых единств, соотносимых с отдельными микротемами текста.

2. Усовершенствованы и реализованы алгоритмы предобработки текстов: 1) транскрипции с расширенным алфавитом фонем, 2) нормализации текста с учетом новых слов, 3) ¿-граммного анализа текста, группы текстов.

3. Создан программный комплекс реализующий методику количественного исследования проявлений вариативности ЯЕ разных уровней иерархии, включающий модули предобработки текста, выделения ЯЕ из текста, и формиро-

вания ближайшей окрестности ЯЕ и получения числовых оценок вариативности.

4. Впервые с помощью разработанных программных средств получены количественные оценки вариативности ЯЕ разных уровней: корней, слов, морфемных моделей, аспектных словосочетаний, крылатых фраз, параллельных текстов. Показаны возможности использования полученных результатов для: 1) обогащения (путем варьирования) словарей аспектных маркеров, что существенно повышает эффективность поиска отдельных аспектов содержания научных текстов; 2) построения квазирефератов неструктурированных (в общем случае) текстов путем их сегментации на отдельные микротемы.

5. На базе 100-тысячного словаря русского языка (V) построен уникальный электронный словарь паронимов «в широком смысле», где каждое слово представлено своими 1-, 2-окрестностями, содержащими слова из V, отличающиеся от заданного, соответственно, одним или двумя искажениями типа «вставка», «замена» или «устранение» символа в любой их комбинации. Словарь предназначен для изучения процессов словообразования, поиска и моделирования ошибок паронимического типа, генерации комбинаторных лингвистических задач, моделирования заголовков, построенных на «игре слов».

6. Разработана и реализована методика автоматизированного создания и обогащения (путем варьирования) индикаторных словарей, предназначенных для выявления отдельных аспектов содержания научных текстов. Она позволяет экспертам отбирать аспектные маркеры без прочтения полных текстов и обеспечивает приемлемые результаты по полноте и точности поиска. Содержание диссертации отражено в следующих работах:

1. Гусев, В.Д. Электронный словарь паронимов: версия 1 / В.Д. Гусев, Н.В. Саломатина // НТИ, серия 2, Информационные процессы и системы. -М: ВИНИТИ, 2000. - № 6. - С. 34-41.

2. Гусев, В.Д. Электронный словарь паронимов: версия 2 / В.Д. Гусев, Н.В. Саломатина // НТИ, серия 2, Информационные процессы и системы. -М.: ВИНИТИ, 2001. - № 7. - С. 26-33.

3. Загоруйко, Н.Г. Система OntoGrid для автоматизации процессов построения онтологий предметных областей / Н.Г. Загоруйко, ..., Н.В. Саломатина // Автометрия. - Новосибирск, 2005. - Т. 41, № 5. - С. 13-25.

4. Гусев, В.Д. Выявление аномалий в распределении лексических единиц по тексту / В.Д. Гусев, Л .А. Мирошниченко, Н.В. Саломатина // Вестник СПбУ, сер. 9. Вып. 3. - Санкт-Петербург, 2005. - С. 64-69.

5. Кельманов, A.B. Правила и алгоритм преобразования орфографической записи на русском языке в фонетическую транскрипцию / A.B. Кельманов, Н.В. Саломатина и др. // Прикладные системы искусственного интеллекта. Вычислительные системы, вып. 153. - Новосибирск, 1995. - С. 32-92.

-6,- Саломатина, Н.В. Создание тестовых словарей для систем распознавания речи на основе электронного словаря паронимов / Н.В. Саломатина // Квантитативная лингвистика и семантика. Сборник научных трудов. Вып. 2. -Новосибирск, 2000. - С. 63-72.

7. Саломатина Н.В. Создание и исследование компьютерного словаря паронимов / Н.В. Саломатина //Анализ данных и сигналов. Выч. сист., вып. 163. -Новосибирск, 1998. - С. 97-112.

8. Гусев, В.Д. Определение и анализ ближайших окрестностей корней слов русского языка / В.Д. Гусев, Н.В. Саломатина // Обнаружение эмпирических закономерностей. Выч. сист., вып.166. - Новосибирск, 1999. - С. 80-103.

9. Гусев, В.Д. Анализ ошибок, не выявляемых автоматическими корректорами / В.Д. Гусев, Н.В. Саломатина // П-я Межвуз. конф. "Квантитативная лингвистика и семантика" (КВАЛИСЕМ-99), тезисы докладов, Новосибирск, 12-15 октября 1999. - НГПУ, 1999. - С. 8-12.

10. Саломатина, Н.В. Количественные характеристики вариативности морфемных моделей / Н.В. Саломатина // Методы обнаружения эмпирических закономерностей. Выч. сист., вып. 167. - Новосибирск, 2001. - С. 93-114.

11. Гусев, В.Д. Количественные исследования вариативности языковых единиц / В.Д. Гусев, Н.В. Саломатина // Груды международной научно-практической конференции KDS-2001. - Санкт-Петербург, 2001. - Том 1. - С. 186-193.

12. Гусев, В.Д. Анализ ¿-граммных словарей параллельных текстов /

B.Д. Гусев, Н.В. Саломатина // Труды междунар. конф. Диалог-2003 "Компьютерная лингвистика и интеллектуальные технологии", Протвино, 11-16 июня 2003. - М.: Наука, 2003. - С. 578-582.

13. Гусев, В.Д. Язык заголовков как модель изучения вариативности цитируемых словосочетаний / В.Д. Гусев, Н.В. Саломатина // Лингвистические этюды. Памяти проф. А.1У1. Моисеева. - Санкт-Петербург, 2004. - С. 203-222.

14. Саломатина, Н.В. Комбинированный алгоритм морфологического анализа для нормализации неизвестных системе слов / Н.В. Саломатина // Анализ структурных закономерностей. Выч. сист., вып.174.- Новосибирск, 2004. - С.61-75.

15. Гуссв, В.Д. Алгоритм выявления устойчивых словосочетаний с учетом их вариативности (морфологической и комбинаторной) / В.Д. Гусев, Н.В. Саломатина И Труды междунар. конф. Диалог-2004, Всрхневолжский, 2-7 июня 2004. - М.: Наука, 2004. - С. 530-535.

16. Гусев, В.Д. Тематический анализ и квазиреферирование текста с использованием сканирующих статистик / В.Д. Гусев, Л.А. Мирошниченко, Н.В. Саломатина // Труды междунар. конф. Диалог-2005, Звенигород, 1-7 июня 2005. -М.: Наука, 2005. - С. 121-125.

17. Гусев, В.Д. ¿-граммное представление текстов на естественном языке и его возможности / В.Д. Гусев, Н.В. Саломатина // Всерос. научн. конф. Квантитативная лингвистика: исследования и модели (КЛИМ-2005), Новосибирск, 6-10 июня 2005, материалы. - Новосибирск, 2005. - С. 256-270.

18. Гусев, В.Д. Автоматизация формирования индикаторных словарей и возможности их использования / В.Д. Гусев, Н.В. Саломатина // Труды междунар. конф. Диалог-2006, Бекасово, 31 мая - 4 июня 2006. - М: Наука, 2006. -

C. 121-125.

19. Гусев, В.Д. Уточнение и обогащение индикаторных словарей для автоматического извлечения информации из научных текстов / В.Д. Гусев, Н.В. Саломатина // Труды междунар. конф. Диалог-2007, Бекасово, 30 мая - 3 июня, 2007. - Москва, 2007. - С. 486-491.

Саломатина Н.В.

МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА ВЫДЕЛЕНИЯ И ЧИСЛЕННОГО ОЦЕНИВАНИЯ ВАРИАТИВНОСТИ ЯЗЫКОВЫХ ЕДИНИЦ

Автореферат

Подписано в печать Объем 1,2 уч.-изд. л.

Формат бумаги 60 х 90 1/16_Тираж 100 экз.

Отпечатан^) в ЗАО РИЦ «Прайс-курьер»

630128, г. Новосибирск, Кутателадзе, 4г, тел. 330-72-02

Заказ №

Оглавление автор диссертации — кандидата физико-математических наук Саломатина, Наталья Васильевна

Введение.

Глава 1. Обзор исследований вариативности структурных единиц в различных языковых системах.

1.1. Исследование вариативности в лингвистике.

1.1.1. Варьирование в «узком» и «широком» смысле.

1.1.2. Вариативность на разных уровнях языковой системы.

1.2. Вариативность и меры близости символьных последовательностей.

1.2.1. Метрика Левенштейна (редакционное, эволюционное расстояние).

1.2.2. Теоретико-множественные меры сходства.

1.2.3. Корреляционные и ранговые меры близости.

1.3. Описание вариативности на языке «образцов» (шаблонов).

1.4. Исследование вариативности в других языковых системах.

1.5. Актуальность количественных подходов к анализу проявлений вариативности.

1.6. Выводы по первой главе.

Глава 2. Методика количественного исследования вариативности языковых единиц.

2.1. Формирование обучающих подборок. Предобработка текста.

2.2. Анализ редакционных операций. Выбор мер сходства.

2.3. Представление обучающих подборок: «¿-граммы на словах».

1 2.4. Выделение структурных единиц из текста.

2.4.1. Алгоритм выделения устойчивых цепочек слов.

2.4.2. Выявление аспектных маркеров.

2.4.3. Выделение сверхфразовых единств.

2.5. Способы описания вариантов ЯЕ.

2.5.1. Формирование ближайших окрестностей ЯЕ.

2.5.2. Представление вариантов в виде образцов.

2.6. Алгоритмы получения количественных оценок вариативности ЯЕ.

2.7. Программная реализация методики.

2.8. Выводы по второй главе.

Глава 3. Исследование вариативности корней и слов в русском языке.

3.1. Количественные характеристики 1 -окрестностей корней и слов.

3.1.1. Зависимость числа соседей от длины ЯЕ, редакционной операции и номера позиции.

3.1.2. Количественная и качественная характеристика векторов замен.

3.1.3. Количественная и качественная характеристика векторов вставок

3.2. Создание тестовых словарей для систем распознавания речи на основе словаря паронимов.

3.2.1. Сравнение количественных характеристик графической и фонетической версий словаря паронимов.

3.2.2. Выбор «трудных» подсловарей из словаря квазиомонимов.

3.3. Количественные характеристики слов с несколькими искажениями.

3.3.1. 2-окрестности слов для разных типов редакционных операций.

3.3.2. Кластеризуемость множественных искажений.

3.3.3. Перестановки и переносы символов в словах.

3.3.4. Случай трех искажений в слове.

3.4. Вариативность морфемных моделей слов.

3.4.1. Интегральные характеристики типовых морфемных структур.

3.4.2. Характеристики 1-окрестностей морфемных моделей.

3.5. Выводы по главе 3.

Глава 4. Анализ вариативности словосочетаний.

4.1. Количественный анализ и варьирование индикаторных словарей.

4.1.1. Количественные характеристики и оценка эффективности индикаторных словарей.

4.1.2. Пополнение индикаторных словарей путем варьирования маркерных словосочетаний.

4.2. Анализ вариативности заголовки, построенные на «игре слов».

4.2.1. Описание исходных данных.

4.2.2. Классификация прототипов и их источников.

4.2.3. Качественная и количественная характеристика схем . варьирования.

4.2.4. О возможности автоматизации моделирования заголовков из прототипов.

4.3. Выводы по главе 4.

Глава 5 Анализ вариативности на уровне текстов.

5.1. Сравнение разных переводов одного текста.

5.1.1. Анализ совместного частотного спектра двух переводов.

5.1.2. Анализ расхождений переводов с оригиналом и друг другом.

5.2. Формирование и сравнение различных квазирефератов текста.

5.2.1. Профиль кластеризуемое™ языковых единиц в тексте.

5.2.2. Построение квазирефератов текста с использованием профиля кластеризуемости, веса фраз и аспектных маркеров.

5.2.3. Экспериментальная проверка и сравнение методов.

5.3. Выводы по главе 5.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Саломатина, Наталья Васильевна

Известно, что объемы текстовой информации в электронных хранилищах данных удваиваются каждые три года. В связи с этим возникает потребность в разработке человеко-машинных интерфейсов, а также систем автоматического извлечения фактов и знаний из текстов различной языковой природы. Серьезные трудности при этом создает вариативность языковых единиц (ЯЕ), проявляющаяся в разных формах на всех уровнях иерархии. Проблема вариативности структурных единиц является одной из центральных для различных языковых систем [4, 14, 22, 35, 36]. В частности, вариативность лежит в основе эволюционного процесса, определяющего наиболее вероятные пути трансформации структурных единиц. Всестороннее изучение вариативности способствует углублению понимания организации, функционирования и эволюции языковой системы.

Для автоматического обнаружения и отоэ!сдествления вариантов ЯЕ в тексте необходимо разрабатывать специальные программные средства с опорой на алгоритмы, формализующие понятие ЯЕ и ее ближайшей окрестности. В основе таких алгоритмов лежит изучение закономерностей варьирования ЯЕ, в частности, выявление допустимых преобразований (редакционных операций), а также получение количественных характеристик вариативности ЯЕ. Они включают в себя формальные оценки близости двух ЯЕ, доминирующие типы редакционных операций, оценки устойчивости различных позиций внутри ЯЕ, характеризующие возможности ее членения на более мелкие единицы и др.

Отождествление вариантов языковых единиц (ЯЕ) производится программными средствами самых разных пользовательских систем - от информационно-поисковых до автоматических корректоров ошибок. Например, все интерфейсы, имеющие дело с текстами на естественном языке, сталкиваются с ошибками в написании слов в виде пропущенных, лишних или замененных букв, их перестановок и т.п. Существующие корректоры не всегда обнаруживают такие ошибки, поскольку написанное слово может совпасть с другим, также содержащимся в словаре системы: («подробно осуждается пример.», «рассматриваются классификационные рублики и рубрики предметного каталога.»). Обнаружение и исправление ошибок такого типа и других, требующих привлечения семантики и использования контекста, является актуальной задачей компьютерной лингвистики.

Трудности информационного поиска во многом обусловлены высокой вариативностью представления поисковых объектов в текстовой форме. Например, если нас интересует такой аспект содержания научной работы как «цель исследования», то его поисковыми маркерами могут служить такие комбинации слов как «в настоящей работе», «в данной работе», «в данной статье», «в работе рассматривается», «целью работы является», «в статье описывается», «данная работа посвящена» и многие другие. Исследование закономерностей варьирования помогает расширить поисковый запрос, повысить полноту и точность поиска.

Объектом исследования в данной работе являются ЯЕ разных иерархических уровней: корни, канонические формы слов, устойчивые словосочетания, фразы, построенные на «игре» слов, сверхфразовые единства, авторские аннотации и формально построенные квазирефераты текста. Традиционные лингвистические исследования вариативности языковых систем носят преимущественно качественный характер. Отличительной чертой данного исследования является получение количественных характеристик вариативности ЯЕ и ориентация на единицы разных иерархических уровней, в том числе высоких - слабо формализованных. Эти особенности определяют широкую сферу применимости программно-алгоритмического комплекса, созданного для анализа вариативности ЯЕ. Он может быть использован для обнаружения дубликатов, заимствований (в том числе в текстах программ), оптимизации информаг{ионного поиска (обогащение запроса путем варьирования, формирование шаблонов), сегментации длинных неструктурированных текстов, обнаружения ошибок и стилеметрии (формализация понятий «норма», «отклонение от нормы»).

Сложность исследования вариативности ЯЕ проявляется также и в том, что программный комплекс должен включать широкий набор средств автоматической обработки текстов (АОТ). Отнюдь не все ЯЕ фиксируются в тексте в явном виде с помощью формальных разделителей, относящихся к разным иерархическим уровням (пробелы, запятые, точки и т.п.). Некоторые типы ЯЕ, активно изучаемые в последнее время (например, устойчивые словосочетания, максимально длинные внутри- и межтекстовые повторы, сверхфразовые единства), требуют разработки специальных алгоритмов для своей идентификации, что также нашло отражение в данной работе. Поскольку многие из интересующих нас ЯЕ имеют значительную длину, для их выделения из текста использовался аппарат ¿-граммного анализа, где под 1,-граммой понимается цепочка из Ь подряд следующих слов текста* (возможно, нормализованных). В [29] показано, что по параметру Ь спектр /,-грамм целесообразно ограничивать длиной максимального повтора в тексте (Ьтах). Информация о частоте и местах вхождения различных ¿-грамм в текст, является основой для выделения ЯЕ более высоких, чем слово, уровней. Кроме того, необходимы программы для фильтрации не представляющих интереса вариантов, возникающих, в частности, при словоизменении.

В соответствии с вышеизложенным целями исследования являются:

- разработка и программное обеспечение методики выделения и количественного анализа вариативности ЯЕ;

- исследование закономерностей варьирования ЯЕ на разных уровнях иерархии и использование этих закономерностей в приложениях.

Это достигается путем:

- формирования достаточно представительных обучающих подборок по каждому изучаемому классу ЯЕ, в которых наряду с самими ЯЕ представлены их различные варианты. В общем случае эта процедура может включать в себя Термин ¿-грамма был, по-видимому, впервые употреблен Шенноном [75] применительно к цепочке из £ подряд следующих символов, но позднее его стали использовать и применительно к более крупным ЯЕ, хотя это и не совсем корректно. работу непосредственно с текстом (вычисление полного спектра Х-грамм, £=1,2,. Ьтах,) с последующей целенаправленной их фильтрацией);

- фиксации допустимых редакционных операций, используемых при варьировании каждой ЯЕ;

- введения формальных мер близости между ЯЕ, учитывающих спектр допустимых редакционных операций и позволяющих для каждой ЯЕ определить ее ближайшую окрестность;

- количественной характеризации окрестности каждой ЯЕ (статистика использования допустимых редакционных операций и др.). В частности, окрестности ЯЕ могут быть представлены в виде шаблонов («образцов с переменными»), в которых зафиксированы неизменяемые ядра и варьируемые компоненты.

В качестве материала для получения количественных оценок вариативности использовались: деривационный словарь русского языка объемом свыше 100 тыс. канонических форм при исследовании низких уровней языковой иерархии (морфемы и лексемы); подборка из более чем 2500 заголовков, построенных путем варьирования известных (находящихся на слуху) прототипов (словосочетания и короткие фразы); индикаторы отдельных аспектов содержания научного текста (словосочетания и образцы, полученные в полуавтоматическом режиме с привлечением человека эксперта на заключительном этапе), а также тексты разных жанров для рассмотрения ЯЕ более высоких уровней (максимально длинные повторы, сверхфразовые единства, авторские аннотации и программно построенные квазирефераты, параллельные тексты).

На защиту выносятся следующие основные результаты.

1. Предложена методика количественного исследования проявлений вариативности ЯЕ разных уровней иерархии, реализованная в виде совокупности методов и программ предобработки текста (фонетический, морфологический, Х-граммный и позиционный анализ), выделения ЯЕ из текста, формирования обучающих подборок по изучаемым классам ЯЕ, определения ближайших окрестностей (в смысле редакционного расстояния) каждой ЯЕ и получения числовых оценок вариативности, таких как частота использования при варьировании различных типов редакционных операций, степень устойчивости каждой позиции в исследуемой ЯЕ, степень позиционной класт-ризуемости искажений, когда их число превышает 1, и др.

2. Впервые с помощью разработанных программных средств получены количественные оценки вариативности ЯЕ разных уровней: корней, слов, морфемных моделей, аспектных словосочетаний, крылатых фраз и выражений, параллельных текстов. Отмечено расширение спектра редакционных операций при переходе от нижних уровней иерархии к верхним, а также их усложнение от простейших универсальных (вставка, замена, устранение элемента структуры) до сугубо специфичных (например, контаминации1).

3. На базе 100-тысячного словаря русского языка построен уникальный электронный словарь паронимов «в широком смысле», где каждое слово представлено своими 1-, 2-окрестностями, содержащими слова из исходного словаря, отличающиеся от заданного, соответственно, одним или двумя искажениями типа «вставка», «замена» или «устранение» символа в любой их комбинации. Словарь предназначен для изучения процессов словообразования, поиска и моделирования ошибок паронимического типа, генерации комбинаторных лингвистических задач, моделирования заголовков, построенных на «игре слов».

4. Сформирован словарь квазиомонимов - фонетическая версия словаря паронимов - для случая однократного (допустимого) искажения слова заменой, вставкой или удалением символа. На его основе предложена и реализована методика автоматического формирования трудных тестовых словарей для систем распознавания и синтеза речи с возможностью их многократного обновления. Словари содержат последовательности слов, мало разли

1В данном случае имеется в виду возникновение новой ЯЕ путем специфического объединения элементов двух известных яе. чающихся по артикуляционно-акустическим характеристикам несовпадающих в них звуков.

5. Предложен новый алгоритм выделения в тексте сверхфразовых единств, основанный на использовании сканирующих статистик. Введено понятие профиля кластеризуемости текста, аккумулирующее информацию обо всех выявленных в нем сверхфразовых единствах и дающее представление о макроструктуре текста. Профиль кластеризуемости отражает динамику развертывания текста с опорой на автоматически выделяемые слова и словосочетания, значимость которых определяется исходя из совместного учета частотной и позиционной информации. На его основе программно строятся квазирефераты неструктурированного (в общем случае) текста.

6. Разработана и реализована методика автоматизированного создания и обогащения (путем варьирования) индикаторных словарей, предназначенных для выявления отдельных аспектов содержания научных текстов. Она позволяет экспертам отбирать аспектные маркеры без прочтения полных текстов и обеспечивает приемлемые результаты по полноте и точности поиска.

Все процедуры: а) предобработка текстов (фонетическая транскрипция, морфологический анализ, Х-граммное представление (Ь — 1,2,., Ьтах), позиционный анализ), б) выделение ЯЕ промежуточных иерархических уровней (устойчивые словосочетания, сверхфразовые единства и др.), в) получение количественных характеристик вариативности ЯЕ - оформлены в виде программных модулей, схема сборки которых для получения конкретного результата представлена на рис. 1 (см. гл. 2). Все прикладные продукты, включая электронный словарь паронгшов, словари для тестирования систем распознавания и синтеза речи, индикаторные словари для извлечения информации об отдельных аспектах содержания научных текстов, получены с помощью этих программных средств.

Работа состоит из пяти глав, введения, заключения. Во введении сформулирована цель исследования, обоснована его актуальность, указаны подходы и методы достижения цели, изложены основные результаты.

В главе 1 приведены обзорные сведения, дающие представление об исследовании вариативности в лингвистике и в других языковых системах, о возможностях формального определения и описания вариантов.

В главе 2 изложена методика проведения количественных исследований. Сформулированы принципы формирования обучающих подборок, обоснован выбор метрик, описаны алгоритмы предобработки текстов, методы выделения структурных ЯЕ, а также способы получения количественных оценок их вариативности.

В главе 3 исследуется вариативность ЯЕ нижних уровней иерархии — корней и слов, рассмотренных на фонемном, графемном и морфемном уровне, в зависимости от их длины, а также типа и локализации искажений. Описана методика формирования тестовых словарей для систем распознавания и синтеза речи.

В главе 4 систематизированы схемы варьирования ЯЕ высоких уровней иерархии: фраз и словосочетаний из подъязыка заголовков, основанных на «игре слов», и аспектных маркеров. Рассмотрена специфика образования вариантов «маркерных» словосочетаний, предложена схема автоматизированного формирования и обогащения индикаторных словарей, описаны эксперименты по использованию этих словарей для поиска информации об отдельных аспектах содержания текста.

В пятой главе исследуются закономерности варьирования на уровне текстов. Описаны схемы варьирования, встречающиеся при переводе одного текста разными людьми, а также проведено сравнение вариантов смыслового сжатия текста (в виде квазирефератов), полученных на основе профилей кластеризуемое™, отражающих макроструктуру текста и других подходов.

В заключении представлены развернутые выводы по работе.

Заключение диссертация на тему "Методы и программные средства выделения и численного оценивания вариативности языковых единиц"

5.3. Выводы по пятой главе

1. Законченные тексты (сообщения, научные статьи, газетные публикации, литературные произведения и др.) представляют высший уровень в системе иерархии ЯЕ. Они чрезвычайно разнообразны по жанру, объему, тематике, структуре и другим показателям, поэтому любое формальное их исследование обычно ограничено достаточно узкими подклассами. Рассматриваются два таких подкласса: параллельные переводы одного и того же текста на другой язык, сделанные разными людьми, и различные варианты сжатия текста до уровня квазиреферата, сохраняющие в той или иной степени его смысл и реализованные разными людьми и (или) программами. Схемы варьирования на этом уровне затрагивают более крупные единицы и имеют специфические особенности, связанные с учетом макроструктуры текста (явной или скрытой) и его семантики.

2. Изучены закономерности варьирования, имеющие место при переводе одного текста разными людьми. Анализ совместных 1,-граммных спектров параллельных переводов позволяет провести их количественное сравнение без предварительного выравнивания (процедуры выравнивания до конца не формализованы, достаточно трудоемки и хорошо работают лишь на близких текстах). Наиболее информативными в плане выявления различий в переводах являются «контрастные» /-граммы, представленные исключительно или преимущественно в одном из текстов. Количественная информация, сопровождающая выявленные различия, позволяет разделить их на случайные (неизбежные при независимом переводе одного и того же текста разными людьми) и систематические (подразумевающие целенаправленную стратегию дистанцирования от имеющегося известного перевода). Сделан вывод о том, что в сравниваемых переводах «Винни-Пуха» (раннем - Заходера и позднем - Вебера) превалирует второй тип различий.

3. Многие методы построения квазирефератов отталкиваются от авторской («явленной») структуры текста, которая не всегда адекватно отражает его содержание. Предложен новый метод построения квазирефератов, который может работать и с плохо структурированными текстами, часто встречающимися на Интернет-сайтах. Он основан на оценивании макроструктуры текста с помощью характеристики, названной профилем кластеризуемости лексических едингщ в тексте. Профиль отражает совокупное распределение сверхфразовых единств в тексте. Отбор фраз для квазиреферата производится в местах существенного нарастания и/или убывания значений профиля. Такая стратегия присуща позиционным методам отбора значимых фрагментов в тексте, но они работают с явленной структурой, а не со скрытыми сверхфразовыми единствами.

4. Проведено экспертное"1 оценивание рефератов и квазирефератов, построенных человеком или с помощью компьютерных программ. Отмечено многообразие вариантов в обоих случаях. Для научных текстов перспективным

1 Удовлетворительных формальных методик оценивания качества квазирефератов не существует. Мнения экспертов также часто расходятся. представляется метод квазиреферирования с использованием многоаспектных индикаторных словарей, однако процедура их формирования достаточно трудоемка. Для плохо структурированных текстов любого жанра приемлем подход с использованием профиля кластеризуемости, но он требует значительных вычислительных затрат. Ряд заметных дефектов обнаружен и в квазирефератах, полученных с использованием известных коммерческих продуктов. Оценивая ситуацию в целом, можно сказать, что желательна комбинация различных подходов, поскольку ни один из рассматриваемых методов по отдельности не гарантирует получения квазиреферата должного качества во всех случаях.

Заключение

Проблема выделения структурных единиц и анализа их вариативности является актуальной для многих языковых систем, представленных последовательностями символов из элементов конечного алфавита, не содержащего формальных разделителей. Примером могут служить иероглифические тексты, ДНК- и аминокислотные последовательности, знаменные песнопения, траектории динамических систем, представленные в символьной форме и т.п. Не теряет своей актуальности эта проблема и при анализе уже структурированных текстов. Речь идет о введении промежуточных уровней иерархии в уже сложившихся иерархических системах. В частности, в естественном языке или в ограниченных его подъязыках, где уровни иерархии задаются делением текста на слова, предложения, абзацы и т.д., часто возникает необходимость в рассмотрении промежуточных уровней с такими структурными единицами как «устойчивые словосочетания», «коммуникативные фрагменты», «летучие фразы», «межфразовые единства» и др.

Эти структурные единицы, образуемые достаточно длинными цепочками слов, как правило, не имеют формального определения и чрезвычайно вариативны. Обычно они описываются на качественном уровне и иллюстрируются примерами. Несмотря на слабую степень формализованное™, данные объекты все чаще фигурируют в задачах информационного поиска (варьирование запросов на уровне синонимичных преобразований), тематической классификации (использование терминологических словосочетаний), машинного перевода (разработка систем типа «Translation Memory» (память переводчика), накапливающих билингвы в виде структурных единиц более высокого уровня, чем слово), смыслового сжатия текстов (формализованное реферирование с использованием словесных клише — маркеров того или иного аспекта содержания), обнаружения заимствований (поиск структур типа «текст в тексте»).

В работе с единых позиций рассмотрены вопросы выделения и анализа вариативности структурных единиц на разных иерархических уровнях. Отличительной особенностью работы в плане выделения ЯЕ является ориентация на достаточно крупные и слабо изученные структурные единицы, представленные отдельными цепочками слов или конструкциями более общего вида — шаблонами. Другой особенностью является описание ЯЕ вместе с ее «ближайшим» (в определенном смысле) окружением, что позволяет ввести ряд количественных характеристик, отражающих степень вариативности ЯЕ. Количественные оценки вариативности могут быть использованы для повышения качества информационного поиска, обнаружения ошибок, оценки информативности структурных единиц и других целей.

По итогам выполнения работы получены следующие основные результаты.

1. Предложена методика выделения и количественного исследования вариативности ЯЕ разных иерархических уровней, реализованная в виде совокупности методов и программ предобработки текста (фонетический, морфологический, ¿-граммный и позиционный анализ); выделения ЯЕ из текста; формирования достаточно представительных обучающих подборок, содержащих образцы функционирования изучаемых ЯЕ и их вариантов в тексте; анализа допустимых редакционных операций и выбора соответствующих им мер близости; определения ближайших (в заданном смысле) окрестностей каждой ЯЕ и получения количественных оценок вариативности, таких как частота использования при варьировании различных типов редакционных операций, размер окрестности в зависимости от заданного уровня допустимых искажений, степень устойчивости каждой позиции в исследуемой ЯЕ, степень позиционной кластеризуемости искажений, когда их число превышает 1, и др.

2. Получены количественные оценки вариативности ЯЕ разных уровней: корней, канонических форм слов, морфемных моделей, аспектных словосочетаний, летучих фраз и выражений, параллельных текстов. Существенным моментом является расширение спектра используемых редакционных операций при переходе с низких уровней иерархии на более высокие, а также их усложнение от простейших универсальных (вставка, замена и устранение элемента структуры) до сугубо специфичных (двойные разнесенные замены с сохранением определенного отношения между элементами пар — заменяемых и заменяющих; контаминации, синтезируемые на основе двух исходных ЯЕ и др.). Степень проявления вариативности на всех уровнях весьма существенна. В частности, непустые 1-окрестности имеют более трети слов и почти две трети корней. Превалирующий тип искажений — замены. Выявлено, что существуют доминирующие типы вставок и замен для разных (но не всех!) позиций слов и корней. Показано, что векторы замен и вставок в агрегированном алфавите из гласных (Г) и согласных (С) в большинстве своем однородны, т.е. состоят из элементов одного типа (С или Г). На этом свойстве может быть основана дифференциация алфавита неизвестного языка на гласные и согласные.

3. На базе 100-тысячного словаря русского языка построен электронный многофункциональный словарь паронимов «в широком смысле», где каждое слово представлено своими 1-й 2-окрестностями, содержащими слова исходного словаря, отличающиеся от заданного, соответственно, одним или двумя искажениями типа «вставка», «замена» или «устранение» символа в любой их комбинации. Выявлен важный в методологическом отношении эффект пози-г^ионной кластеризуемости (двух или большего числа) искаэ1сений внутри ЯЕ, что указывает на взаимосвязь определенных позиций. Словарь паронимов может быть использован для обучения иностранцев русскому языку, поиска (и моделирования) ошибок паронимического типа, не выявляемых существующими корректорами, генераъщй комбинаторных лингвистических задач, сжатия словарей, поиска рифм и заголовков, построенных на «игре слов».

4. Получены количественные оценки вариативности слов на фонемном уровне. Сформирован словарь квазиомонимов (фонетическая версия словаря паронимов) для случая однократного допустимого искажения слова путем замены вставки или удаления символа (элемента фонетической транскрипции). На его основе предложена методика автоматического формирования трудных тестовых словарей для систем распознавания и синтеза речи с возможностью их многократного обновления. Словари содержат пары слов, мало различающиеся по артикуляционно-акустическим характеристикам несовпадающих в них звуков.

5. Предложен формальный алгоритм выделения в тексте сверхфразовых единств, основанный на использовании сканирующих статистик. Введено понятие профиля кластеризуемости текста, аккумулирующее информацию обо всех выявленных в нем сверхфразовых единствах и дающее представление о макроструктуре текста. Профиль кластеризуемости отражает динамику развертывания текста с опорой на автоматически выделяемые слова и словосочетания, значимость которых определяется на основе совместного учета частотной и позиционной информации. Предложены и реализованы различные формальные, процедуры построения квазирефератов неструктурированного (в общем случае) текста на основе профиля кластеризуемости и весовых коэффициентов фраз.

6. Разработана человеко-машинная методика формирования индикаторных словарей (или словарей «подсказок») для выявления определенных аспектов содержания научных текстов (цель работы, новизна, полученные результаты и др.). Она позволяет экспертам отбирать аспектные маркеры без прочтения полных текстов, что существенно снижает объем ручной работы. Для просмотра им предоставляются автоматически найденные потенциально возможные маркеры (чаще всего в виде устойчивых словосочетаний), снабженные короткими контекстами. Этой информации обычно оказывается достаточно для принятия решения о включении маркера в словарь или его игнорировании. Анализ вариативности маркерных цепочек позволил предложить схему обогащения индикаторных словарей маркерами, отсутствующими в исходной обучающей подборке текстов. Поиск различных аспектов содержания научных текстов с помощью построенных индикаторных словарей демонстрирует приемлемые результаты по полноте и точности.

7. Собраны и продолжают пополняться уникальные подборки обучающего материала для исследования вариативности ЯЕ на нижних и (в ограниченном объеме) верхних уровнях иерархии. В их числе: коллекция паронимических и иных типов ошибок, не выявляемых существующими корректорами 1000 примеров с контекстами из 1-2 предложений); коллекция газетных заголовков, построенных на «игре слов» 2,5 тыс. примеров), коллещия структур типа «текст в тексте» с сопутствующими им индикаторами и др.

Основные процедуры, реализующие методику количественного анализа вариативности и носящие универсальный характер, доведены до программной реализации, включая предобработку текста (фонетическая транскрипция, морфологический анализ, ¿-граммное представление одного и группы текстов), выявление ЯЕ промежуточных иерархических уровней (устойчивые словосочетания, сверхфразовые единства и др.), выявление ближайших окрестностей ЯЕ, а также получение количественных характеристик вариативности ЯЕ. С помощью указанных программных средств получен ряд прикладных продуктов, включая электронный словарь паронимов, словари для тестирования систем распознавания и синтеза речи, индикаторные словари для извлечения информации об отдельных аспектах содержания научных текстов.

Библиография Саломатина, Наталья Васильевна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Ахманова, О.С. Словарь лингвистических терминов / О.С. Ахманова. -М.: Сов. энциклопедия, 1969: — 606 с.

2. Бабенко, Н.С. К теории вариантности: современное состояние и некоторые перспективы изучения / Н.С. Бабенко, Э.Ф. Володарская и др. // Вопросы филологии. 2000. - № 2 (5). - С. 8-18.

3. Бахмутова, И. В. Синонимичные замены в знаменных песнопениях / И.В. Бахмутова, В.Д. Гусев, Т.Н. Титкова // Искусственный интеллект и экспертные системы. Вычислительные системы, вып. 160. Новосибирск, 1997. -С. 147-165.

4. Бахмутова, И.В. L-граммные азбуки для дешифровки знаменных песнопений / И.В. Бахмутова, В.Д. Гусев, T.Hi Титкова // Сибирский журнал индустриальной математики. 1998. - Т. 1, № 2. - С. 51-66.

5. Бахмутова, И.В. Количественный анализ взаимосвязи «текст-мелодия» на материале русских народных песен / И.В. Бахмутова, В.Д. Гусев, Т.Н. Титкова // Компьютерный анализ музыки. Изд-во НТК, Новосибирск, 2003.-С. 114-145.

6. Белоногов, Г.Г. Системы фразеологического машинного перевода. Состояние и перспективы развития / Г.Г. Белоногов, Ю.Г. Зеленков,

7. A.П. Новоселов и др. // НТИ, сер. 2. Москва: ВИНИТИ, 1998 г. - № 12.

8. Белоногов, Г.Г. Системы фразеологического машинного перевода RETRANS и ERTRANS в сети Интернет / Г.Г. Белоногов, P.C. Гиляревский,

9. B.C. Егоров и др. // НТИ, сер. 1. Москва: ВИНИТИ, 2000 г. - № 3.

10. Белоногов, Г.Г. Автоматический концептуальный анализ текстов / Г.Г. Белоногов, И.И. Быстров, А.П. Новоселов и др. // НТИ, сер. 2. Москва: ВИНИТИ, 2002. - № 3. - С. 26-32.

11. Бельчиков, Ю.А. Словарь паронимов современного русского языка / Ю.А. Бельчиков, М.С. Панюшева. М.: Рус. яз., 1994. - 455 с.

12. Березина, Ф.М. Проблемы языковой вариативности / Ф.М. Березина, Ю.Н. Марчук и др. // Сборник обзоров. М., 1990. - 189 с.

13. БСЭ Т. 19, М.: Советская энциклопедия. - 1975. - 647 с.

14. Блюменау, Д.И. Развитие индикаторного метода компьютерного свертывания текстов / Д. И. Блюменау, JI.H. Афанасьева // НТИ, сер. 2. — Москва: ВИНИТИ. 1981. - № 2. - С. 16-20.

15. Блюменау, Д.И. Формализованное реферирование с использованием словесных клише (маркеров) / Д.И. Блюменау, Н.И. Гендина и др. // НТИ, сер. 2. Москва: ВИНИТИ, 2002. - № 5. - С. 29-36.

16. Большаков, И. А. Какие словосочетания следует хранить в словарях? / И.А. Большаков // Труды Межд. сем. Диалог'2002. Изд.-во «Наука», 2002. -Т. 2.-С. 61-69.

17. Бондаренко, Г.В. Распределение повторов в связном тексте как основа для обнаружения суперсинтаксических единиц / Г.В. Бондаренко // НТИ, сер.2.-Москва: ВИНИТИ, 1975.-№ 12.-С. 20-31.

18. Бондаренко, Г.В. Использование структурных закономерностей текста при автоматической обработке информации / Г.В. Бондаренко, О.И. Яровен-ко // НТИ, сер.2. Москва: ВИНИТИ, 1984. - № 3. - С. 23-29.

19. Борисенко, А. Песни невинности и песни опыта. О новых переводах

20. Винни-Пуха» / А. Борисенко // Иностранная литература. 2002. № 4. — «Трибуна переводчика».

21. Вариативность как свойство языковой системы // Тезисы докл. Всес. конф. М.: Наука (Гл. ред. вост. лит-ры). - 1982. - Ч. 1 и 2.

22. Вишневская, Г.М. Межкультурная коммуникация, языковая вариативность и современный билигвизм / Г.М. Вишневская. — http.7/www.yspu.yar.ru/vestnik/novyeIssledovaniy/13l/

23. Словарь паронимов русского языка. М.: Рус. Яз., 1984. — 348 с.

24. Газе-Рапопорт, М.Г. Порождение структур волшебных сказок / М.Г. Гаазе-Рапопорт, Д.А. Поспелов, Е. Т. Семенова. М.: Научный совет по кибернетике АН СССР, 1980.

25. Гаспаров, Б.М. Язык, память, образ / Б.М. Гаспаров. М., 1996.

26. Гиндин, С.И. Позиционные методы автоматического фрагментирова-ния текста, их теоретико-текстовые и психолингвистические предпосылки / С.И. Гиндин // Семиотика и информатика, вып. 10. М.: ВИНИТИ, 1978. -С. 32-73.

27. Гусев, В.Д. Характеристики символьных последовательностей / В.Д. Гусев // Машинные методы обнаружения закономерностей. Вычислительные системы, вып.88.-Новосибирск, 1981.-С. 112-123.

28. Гусев, В.Д. Механизмы обнаружения структурных закономерностей в символьных последовательностях / В.Д. Гусев // Проблемы обработки информации. Вычислительные системы, вып.100. — Новосибирск, 1983. —1. С. 47-66.

29. Гусев, В. Д. Сложностной анализ генетических текстов (на примере фага X) / В.Д. Гусев, В.А. Куличков, О.М. Чупахина // Препринт № 20. Новосибирск: ИМ СО РАН, 1989. - 50 с.

30. Гусев, В.Д. Хеширование символьных цепочек в режиме скользящего окна / В.Д. Гусев, Т.Н. Титкова // Вычислительные системы, вып. 150. Новосибирск, 1994. - С. 94-106.

31. Гусев, В.Д. Алгоритм поиска в текстовых базах данных по групповому частично специфицированному запросу / В.Д. Гусев, JT.A. Немытикова // Искусственный интеллект и экспертные системы. Вычислительные системы, вып. 157.-Новосибирск, 1996.-С. 12-39.

32. Деркач, М.Ф. Динамические спектры речевых сигналов / М.Ф. Деркач и др. Львов, ИО "Вища школа", 1983. 166 с.

33. Добровольский, Д.О. Корпус параллельных текстов и литературный перевод / Д.О. Добровольский // НТИ, сер. 2. М.: ВИНИТИ, 2003. - № Ю. -С. 13-18.

34. Зализняк, A.A. Грамматический словарь русского языка / A.A. Зализняк. М.: Русский язык, 1977. - 879 с.

35. Зарипов, Р.Х. Машинный поиск вариантов при моделировании творческого процесса/ Р.Х. Зарипов . — М.: Наука, 1983. 232 с.

36. Земская, Е.А. Цитация и виды ее трансформации в заголовках современных газет / Е.А. Земская // Поэтика. Стилистика. Язык и культура. Памяти Татьяны Григорьевны Винокур. М.: Наука, 1996. - С. 157-168.

37. Каменева, М.С. Вариантность как свойство языковой системы / М.С. Каменева, И.М. Кобозова, З.М. Шаляпина // Серия Литературы и языка. -1983.- Том 42, № 4. С. 83-391.

38. Кендэл, М. Ранговые корреляции / М. Кендэл. М., Статистика. - 1975.

39. Кнут, Д. Искусство программирования для ЭВМ / Д. Кнут. М., Мир, 1977.-Т. 1,3.

40. Князев, Ю.П. Инвариант и варианты: пути преобразования прецедентных текстов в газетных заголовках / Ю.П. Князев // Обработка текста и когнитивные технологии. Казань: Отечество, 2001. - С. 73-81.

41. Коваль, С. А. Системы переводческой памяти и оценка их эффективности / С.А. Коваль, О.Ф. Каткова // НТИ, сер. 2. М.: ВИНИТИ, 2002. - № 3. -С. 17-26.

42. Козлов, H.H. Математический анализ девиантности генетического кода / Н. Н. Козлов // ДАН, 2007. Т. 415, № 4. - С. 441-445.

43. Колесников, Н.П. Словарь паронимов русского языка / Н.П. Колесников. — Тбилиси, 1971. 427 с.

44. Колмогоров, А.Н. Три подхода к определению понятия «количества информации»/ А.Н. Колмогоров // Проблемы передачи информации, вып 1. — 1965. -Т.1. — С. 3-11.

45. Костомаров, В.Г. Русский язык на газетной полосе / В.Г. Костомаров. -М.: МГУ, 1971.

46. Красиков, Ю.В. Теория речевых ошибок: (на материале ошибок наборщика) / Ю.В. Красиков. М.: Наука, 1980.

47. Кузнецов, В.И. Вокализм связной речи / В.И. Кузнецов. Санкт-Петербург, издательство С.-ПбУ, 1997. - 239 с.

48. Кузнецова, А. И. Словарь морфем русского языка / А.И. Кузнецова, Т.Ф. Ефремова. М.: Русский язык, 1986. - 1133 с.

49. Левенштейн, В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов / В.И. Левенштейн // ДАН СССР, 1965. Т. 1'63, № 4. - С. 845-848.

50. Маковский, М.М: Лингвистическая комбинаторика / М.М. Маковский. -М., 1988.-219 с.

51. Мелерович, А. М. Фразеологизмы в русской речи. Словарь / A.M. Ме-лерович, В.М. Мокиенко М.: Русские словари, 1997. - 864 с.

52. Михайлов, М.М. Стыковка параллельных текстов в автоматическом режиме: иллюзии и перспективы / М.М. Михайлов // НТИ, сер. 2. — М.: ВИНИТИ, 2003. -№ 10. С.18-26.

53. Найму шина, Т. А. Приемы окказиональной трансформации пословиц и поговорок / Т.А. Наймушина // Лингвистические этюды. Памяти проф.

54. A.M. Моисеева. СПб, 2004. - С. 270-276.

55. Немытикова, Л. А. Методы сравнения символьных последовательностей / Л.А. Немытикова // Методы обработки символьных последовательностей и сигналов. Вычислительные системы, вып. 132. Новосибирск, 1989. -С. 3-34.

56. Немытикова, Л.А. Использование недетерминированных конечных автоматов для ускорения поиска в текстовых базах данных / Л.А. Немытикова // Вычислительные системы, вып. 160. Новосибирск, 1997. - С. 188-209.

57. Пащенко, H.A. Проблемы автоматизации индексирования и реферирования / H.A. Пащенко, Л.В. Кнорина, Т.В. Молчанова и др. // Итоги науки и техники. Информатика. 1983 г. - Т. 7. - С. 7-164.

58. Проблемы теории молекулярной эволюции / под ред. В.А. Ратнера. -Новосибирск: Наука, 1983. 263 с.

59. Протопопов, В. Вариационные процессы в музыкальной форме /

60. B. Протопопов. М.: Музыка, 1967. - 150 с.

61. Ратнер; В.А. Молекулярно-генетические системы управления' / В.А. Ратнер. — Новосибирск, Наука, 1975. 286 с.

62. Сложеникина, Ю.В. К вопросу о метаязыке теории вариантности / Ю.В. Сложеникина // Филологические науки. 2005. - № 2. - С. 50-58.

63. Солнцев, В.М. Вариативность как общее свойство языковой системы / В.М. Солнцев // Вопросы языкознания. 1984. -№ 2. - С. 31-42.

64. Сухотин, Б. В. Оптимизационные методы исследования языка / Б.В. Сухотин. М.: «Наука», 1976. - 169 с.

65. Сэлтон, Г. Автоматическая обработка, хранение и поиск информации / Г. Сэлтон. М., Советское радио, 1973. - 560 с.

66. Трифонов, Э. Н. Генетическое содержание последовательности ДНК определяется суперпозицией многих кодов / Э.Н. Трифонов // Молекулярная биология. 1997. - Т. 31, № 4. - С. 759-767.

67. Уотермен, М.С. Выравнивание последовательностей / М.С. Уотермен // В кн. «Математические методы для анализа последовательностей ДНК» (под ред. М.С. Уотермена). М.: Мир, 1999. - С. 85-120.

68. Фразеологический словарь русского языка / Под ред. А.И. Молоткова // Изд. 4-е. М.: Русский язык, 1986. - 543 с.

69. Циммерман, М. Русско-английский научно-технический словарь переводчика / М. Циммерман, К. Веденеева. Изд.-во «Наука», М., 1991. - 735 с.

70. Шеннон, К. Предсказание и энтропия печатного английского текста / К. Шеннон // В кн.: Работы по теории информации и кибернетике. М., ИЛ, 1963.-С. 669-686.

71. Шигапова, С.М. К трактовке понятия синтаксического варианта в плане решения дихотомии «инвариант-вариант»'/ С.М. Шигапова //http ://www.amursu.ru/vestnik/4/4 8499 .html

72. Штерн, A.C. Специфика восприятия синтезированных слов / A.C. Штерн // Автоматическое распознавание слуховых образов, тезисы докладов 15-го всесоюзного семинара (АРСО 15), 1989. - Таллинн, 1989.1. С. 303-304.

73. Advance in Automatic Text Summarization / Ed: I. Mani, Inderjeet, Maybury, Mark T. The MIT Press Cambridge, Massachusetts, 1999. - 433 p.

74. Altschul, S. F. A basic local alignment search tool / S.F. Altschul, W. Gish, W. Miller et al // J. of Molecular Biology. 1990. - V. 215. - P. 403-410.

75. Bafna, V. Genome rearrangements and sorting by reversals / V. Bafna and P. Pevzner. // Proc. Of 34th IEEE Symposium on Foundations of Computer Science. 1993.-P. 48-157.

76. Bakhmutova, I. V. The search for adaptations in song melodies / I.V. Bakhmutova, V.D. Gusev, T.N. Titkova // Computer Music Journal. 1997. -Vol. 21, N1.-P. 58-67.

77. Bennett, C. Chain letters and evoluarionary histories / C. Bennett, M. Li and

78. B. Ma // Scientific Amer., June 2003. 2003. - P. 71-76.

79. Bürge, С. Prediction of complete gene structure in human genomic DNA /

80. C. Bürge and S. Karlin // J. of Molecular Biology. 1997. - V. 268, N 1. -P. 78-94.

81. Calin, G.A. Human micro RNA are frequently location at fragile site and genomic regions involved in cancers / G. A. Calin et al // PNAS USA. 2004. -V. 101, N9,-P. 2999-3004.

82. Chen, X. Shared Information and Program Plagiarism Detection / X. Chen, B. Francia, M. Li // IEEE Trans, on Inform. Th. 2004. - Vol. 50, No 7.1. P. 1545-1551.

83. Church, K. Parsing, word associations and typical predicate-argument relations / K. Church, W. Gale, P. Hanks and D. Hindle // In M. Tomita, editor, Current Issues in Parsing Technology. Kluwer Academic, Dordrecht, Netherlands. — 1991.

84. Dayhoff, M. D. Atlas of protein sequence and structure / M.D. Dayhoff et al. 1979. —V. 5, suppl. - P. 345.

85. Findler, N.V. A Family of Similarity Measures Between Two Strings / N. V. Findler N.V., Van Leeuwen // PAMI(l), January. 1979. - No. 1.1. P. 116-118.

86. Greengrass, E. Information Retrieval: A Survey / E. Greengrass. -November 2000.http://www.csee.umbc.edu/cadip/readings/IR.report.120600.book.pdf

87. Gusev, Vladimir D. On the complexity measures of genetic sequences / Vladimir D. Gusev, Lubov A. Nemytikova and Nadia Chuzhanova // Bioinformat--ics. 1999. - Vol. 15, № 12. - P. 994-999.

88. Handbook of Formal Language // G. Posenberg, F.Salomaa (Eds). 1996. -Vol. 1., Ch 4.

89. Karlin, S. Pattern in DNA and Amino Acid sequences and their statistical significance / S. Karlin, F. Ost, B.E. Blaisdell // Mathematical methods for DNA sequences. Ed. By M. S. Waterman. CRC, Boca Raton, Fl. - 1989. - Ch. 6., P. 133-158.

90. Li, M. An information-based sequence distance and its application to whole mitochondrial genome phylogeny/ M. Li, J. Budger, et al. // Bioinformatics. -2001.-Vol. 17,No 2.-P. 149-154.

91. Luhn, H.P. The automatic creation of literature abstracts / H.P. Luhn // IBM Journal of Research and Development. 1958. - Vol. 2, № 2. - P. 159-165.

92. Lyon, C. Detecting short passages of similar text in large document collections / C. Lyon and J. Malcolm J., B. Dickerson // Proc. of the 2001 Conference on Empirical Methods in Natural Language Processing. 2001. - P. 118-125.

93. Manber, U. Finding similar files in a large file system / U. Manber // Proc. of the USENIX Winter 1994 Technical conference. San Francisco, CA, USA. -1994.-P. 1-10.

94. Manning, Christopher. Foundation of Statistical Natural Language Processing / Christopher Manning, Heinrich Schutze // Cambridge, Mass.: MIT Press. -1999.

95. Martin A., Hugnen. Measuring genome evolution / A. Hugnen Martin and Bork Peer // PNAS USA. 1998. - Vol. 95. - P. 5849-5856.

96. McCreight, E.M. A space-economical suffix tree construction algorithm / E. M. McCreight // J. ACM. 1976. - Vol. 23, № 2. - P. 262-272.

97. Melodic Similarity. Concepts, Procedures and applications / Ed. By W. B. Hewlett and Selfrige Field // Computing in Musicology. - The MIT Press. - 1998.-No 11.-P. 1-246.

98. Naus, J.I. The distribution of the size of the maximum cluster of points on a line / J.I. Naus // J. Amer. Statist. Assoc. 1965. - Vol. 61, № 310. - P. 532-538.

99. Parker, A. Computer algorithms for plagiarisms detection / A. Parker and J. Hamblen // IEEE Trans, on education. 1989. - Vol. 32. - P. 94-99.

100. Pearson, W.R. Rapid and sensitive sequence comparisons with FASTP and FASTA / W. R. Pearson // Methods in Enzymology. 1985. - V. 183. - P. 63-98.

101. Roy Scott, William. Rate of intron loss and gain: Implications for early eu-karyotic evolution / William Roy Scott and Gilbert Walter. // PNAS USA. 2005. -Vol. 102, N 16.-P. 5773-5778.

102. Sankoff, D. Gene order comparisons for phylogenetic inference: evaluation of the mitochondrial genome / D. Sankoff, G. Leduc, et al. // PNAS USA. 1992. -Vol. 89.-P. 6575-6579.

103. Sellers, P. H. On the theory and computational of evolutionary distance / P.H. Sellers // SIAM J, Appl. Math, 26. 1974. -N 4. -P. 787-793.

104. Smadja, F.A. Automatically extracting and representing collocations for language generation / F.A. Smadja and K.R. McKeown // In Proc. of the 28th Annual Meeting of the ACL. 1990. - P. 25-29.

105. Tsuyoshi, Kitani. Pattern Matching and Discourse Processing in Information Extraction from Japanese Text / Kitani Tsuyoshi, Yoshio Eriguchi, Masami Hara // Journal of Artificial Intelligence Research. 1994. - N 2. - P. 89-110.

106. Wagner, R.A. The string to - string correction problem / R.A. Wagner, MJ. Fisher//J. ACM.-Jan. 1974. - Vol. 21, № 1.-P. 168-173.

107. Wallenstein, S.R. Probabilities for a k-th nearest neighbor problem on the line / S.R. Wallenstein, J.I. Naus // The Annals of Probability. 1973. - Vol. 1, № 1. - P. 188-190.

108. Weitzman, M. P. The evolution of Manuscript Traditions / M. P. Weitzman // J. Royal Statist. Soc. A. 1987. - Vol. 150, Part 4. - P. 287-308.

109. Worth, D. Russian Derivation Dictionary /D. Worth, A. Kozak, D. Jonson //New-York. 1970. - 747 p.

110. Xing, Yi. Evidence of functional selection pressure for alternative splicing events that accelerate evolution of protein subsequences / Yi Xing and Christopher Yi. //PNAS USA.-2005.-V. 102,N38,-P. 13526-13531.

111. Xung, Gu. Estimation of evolution distance under stationary and nonstation-ary models of nucleotide substitution / Gu Xung and Wen-Hsung Li. // PNAS USA. 1998. - Vol. 95. - P. 5899-5905.

112. Саломатина, H.B. О некоторых статистических характеристиках префиксов / H.B. Саломатина, JI.C. Юдина // Анализ текстов и сигналов. Вычислительные системы, вып. 123. Новосибирск: ИМ СО РАН, 1987.1. С. 84-100.

113. Саломатина, Н.В. Фонетическая организация морфем (на статистическом материале суффиксов) / Н.В. Саломатина, JI.C. Юдина // Тез. докл. 15-го Всесоюзного семинара (АРСО-15), 1989. Таллин, 1989. С. 297-298.

114. Саломатина Н.В. Создание и исследование компьютерного словаря паронимов / Н.В. Саломатина // Анализ данных и сигналов. Вычислительные системы, вып. 163. Новосибирск, 1998. - С. 97-112.

115. Гусев, В.Д. Определение и анализ ближайших окрестностей корней слов русского языка / В.Д. Гусев, Н.В. Саломатина // Обнаружение эмпирических закономерностей. Вычислительные системы, вып. 166. -Новосибирск, 1999. С. 80-103.

116. Гусев, В.Д. Электронный словарь паронимов: версия 1 /В.Д. Гусев, Н.В. Саломатина // НТИ, серия 2, Информационные процессы и системы. -М.: ВИНИТИ, 2000. № 6. - С. 34-41.

117. Саломатина, Н.В. Создание тестовых словарей для систем распознавания речи на основе электронного словаря паронимов / Н.В. Саломатина // Квантитативная лингвистика и семантика. Сб. научных трудов. Вып. 2. Новосибирск, 2000. - С. 63-72.

118. Гусев, В.Д. Количественные характеристики электронного словаря паронимов / В.Д. Гусев, Н.В. Саломатина // Квантитативная лингвистика и семантика. Вып. 3. Новосибирск, 2001. - С. 18-30.

119. Гусев, В.Д. Количественные исследования вариативности языковых единиц / В.Д. Гусев, Н.В. Саломатина // Труды международной научно-практической конференции KDS-2001. Санкт-Петербург, 2001. - Том 1. -С. 186-193. "

120. Гусев, В.Д. Электронный словарь паронимов: версия 2 / В.Д. Гусев, Н.В. Саломатина // НТИ, сер.2, Информационные процессы и системы. М. ВИНИТИ, 2001. - № 7. - С. 26-33.

121. Гусев, В.Д. Выявление аномалий в распределении слов или связных цепочек символов по длине текста / В.Д. Гусев, JI.A. Немытикова, Н.В. Саломатина // Интеллектуальный анализ данных. Вычислительные системы, вып. 171. Новосибирск, 2002. - С. 51-74.

122. Гусев, В.Д. Язык заголовков: количественный анализ прототипов и схем варьирования / В.Д. Гусев, Н.В. Саломатина // Интеллектуальный анализ данных. Вычислительные системы, вып. 171. Новосибирск, 2002. — С. 103-121.

123. Гусев, В.Д. Использование L-граммных характеристик для-- анализа вариативности параллельных текстов / В.Д. Гусев, Н.В. Саломатина // Интеллектуальный анализ данных. Вычислительные системы, вып. 171. -Новосибирск, 2002. С. 75-102.

124. Гусев, В.Д. Анализ L-граммных словарей параллельных текстов / В.Д. Гусев, Н.В. Саломатина // Труды межд. конференции Диалог-2003 "Компьютерная лингвистика и интеллектуальные технологии"; Протвино, 11-16 июня 2003. М.: Наука, 2003. - С. 578-582.

125. Гусев, В.Д. Язык заголовков как модель изучения вариативности цитируемых словосочетаний / В.Д. Гусев, Н.В. Саломатина //

126. Лингвистические этюды. Памяти проф. A.M. Моисеева. Санкт-Петербург, 2004. - С. 203-222.

127. Саломатина, Н.В. Комбинированный алгоритм морфологического анализа для нормализации неизвестных системе слов / Н.В. Саломатина // Анализ структурных закономерностей. Вычислительные системы, вып. 174. -Новосибирск, 2004. С. 61-75.

128. Гусев, В.Д. Выявление аномалий в распределении лексических единиц по тексту / В.Д. Гусев, Л.А. Мирошниченко, Н.В. Саломатина // Вестник СПбУ, сер. 9. Вып. 3. Санкт-Петербург, 2005. - С. 64-69.

129. Гусев, В.Д. Формально близкие слова и ошибки // MegaLing2007. Горизонта прикладно1 лшгвютжи та лшгвютичних технолопй. Доповдо м!жнародно1 конференцн. 24-28 вересня 2007, Украша, Крим, Партешт. -амферополь: Вид-во "ДиАйПи", 2007. С. 166-167.