автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа

кандидата технических наук
Полицына, Екатерина Валерьевна
город
Москва
год
2012
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа»

Автореферат диссертации по теме "Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа"

00504574^

На правах рукописи

ПОЛИЦЫНА Екатерина Валерьевна

СОЗДАНИЕ ОТКРЫТОЙ СИСТЕМЫ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ТЕКСТА И ИНСТРУМЕНТАЛЬНЫХ СРЕДСТВ ЕГО АНАЛИЗА

Специальность 05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

1 4 (!ЮН 2012

Воронеж - 2012

005045742

Работа выполнена в ФГБОУ ВПО «МАТИ» - Российском государственном технологическом университете им. К.Э. Циолковского

Научный руководитель: кандидат технических наук

профессор

Балакирев Николай Евгеньевич

Официальные оппоненты: доктор технических наук

профессор

главный научный сотрудник ЗАО «RETRANS Technologies» Белоногов Герольд Георгиевич

кандидат технических наук доцент

доцент кафедры программного обеспечения и администрирования информационных систем ФГБОУ ВПО «Воронежский государственный университет»

Воронина Ирина Евгеньевна

Ведущая организация: ФГБОУ ВПО «Московский

государственный технический университет радиотехники, электроники и автоматики»

Защита состоится « » 4ЧССЧШ 2012 г. в 10 ч. СО мин. на заседании диссертационного совета Д 212.038.24 при ФГБОУ ВПО «Воронежский государственный университет» по адресу: 394006, Россия, г. Воронеж, Университетская площадь, д. 1, ауд. 226.

С диссертацией можно ознакомиться в библиотеке, ФГБОУ ВПО «Воронежский государственный университет».

Автореферат разослан «» iildci 2012 г.

Ученый секретарь

диссертационного совета Д 212.038.24

кандидат физико-математических наук Чеботарев A.C.

Общая характеристика работы

Актуальность темы диссертации. К середине XX века непрерывный рост объемов вырабатываемой человечеством информации сделал крайне актуальными задачи поиска информации в огромных массивах данных, ее выбора и упорядочения по тем или иным признакам. К этим задачам относятся классификация, кластеризация, составление картотек, словарей и энциклопедий и др. Появление вычислительной техники способствовало в 1960-е гг. созданию различных теорий в области лингвистики и представления знаний (Ю.Д. Апресян, М. Мински, Д.А. Поспелов, Р. Шенк, И. Уилкс, В.А. Звягинцев, Т. Виноград, А.К. Жолковский, Ч. Филмор и др.), развитию методов автоматизированного анализа текста, проектированию и разработке систем, реализующих их.

В последние десятилетия появилось множество систем автоматизированного анализа текста, предназначенных для решения отдельных задач или небольшого набора задач. Большая часть этих систем является экспериментальными и предназначены для работы с ограниченными объемами информации. При этом изменение алгоритма решения или расширение функционала системы пользователем практически невозможно.

Это определяет актуальность как теоретических работ по созданию новых подходов к построению систем автоматизированного анализа текста, открытых для расширения и модификации пользователями, так и практических разработок пользовательских инструментов, реализующих в рамках этих систем функции обработки текста.

Цель диссертационной работы. Целью диссертационной работы является создание новой системы автоматизированного анализа текста, предоставляющей пользователю возможность гибкой настройки на решаемую задачу путем выбора оптимального набора инструментов и создания новых инструментов.

Для достижения поставленной цели, в работе необходимо решить следующие задачи:

1. Выделение круга задач обработки текста для решения средствами новой системы автоматизированного анализа текста.

2. Анализ существующих методов автоматизированной обработки текста.

3. Анализ существующих систем автоматизированной обработки текста, решающих названные выше задачи.

4. Определение структуры и функционала создаваемой системы автоматизированной обработки текста.

5. Разработка ядра системы автоматизированной обработки текста.

6. Разработка инструментальных средств анализа текста.

7. Разработка метода оценки времени обработки текста и методики его прогнозирования.

8. Экспериментальная проверка разработанной системы автоматизированной обработки текста и инструментальных средств анализа текста.

Предмет исследования. Предметом исследования в диссертационной работе являются методы анализа естественно-языковых текстов на русском языке и реализующие их автоматизированные системы.

Методы исследования. Методы исследования заимствованы из следующих областей:

• компьютерная и структурная лингвистика;

• математический анализ;

• теория вероятностей и математическая статистика;

• теория множеств;

• базы данных;

• языки программирования высокого уровня.

Научная новизна. Научную новизну диссертационной работы составляют следующие результаты, полученные в ходе решения поставленных задач:

• структура открытой системы автоматизированной обработки текста;

• инструментальные средства обработки текстов и анализа полученных результатов;

• методика прогнозирования времени обработки текста.

Практическая ценность работы. Практическую ценность работы составляют следующие результаты:

• базовые компоненты системы автоматизированного анализа текста;

• инструментальные средства построения алгоритмов анализа текстов.

Положения, выносимые на защиту. На защиту выносятся следующие основные положения:

• концептуальная модель и структурная схема открытой системы автоматизированной обработки текста;

• принципы организации инструментальных средств анализа результатов обработки текста;

• методика оценки времени обработки текста.

Апробация результатов исследований. Основные результаты, полученные в ходе выполнения диссертационной работы, докладывались на международных молодёжных научных конференциях XXXII Гагаринские чтения (Москва, 2006 г.), XXXIII Гагаринские чтения (Москва, 2007 г.), XXXIV Гагаринские чтения (Москва, 2008 г.), XXXVI Гагаринские чтения (Москва, 2010 г.), XXXVII Гагаринские чтения (Москва, 2011 г.), XXXVIII Гагаринские чтения (Москва, 2012 г.), XI Санкт-Петербургской международной конференции «Региональная информатика - 2008» (Санкт-Петербург, 2008 г.), XII Санкт-Петербургской международной конференции «Региональная информатика - 2010» (Санкт-Петербург, 2010 г.), VIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2008 г.), IX Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2009 г.), X Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2010 г.), XI Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2011 г.), Всероссийских научно-технических конференциях: «Новые материалы и технологии -2006» (Москва, 2006 г.), «Новые материалы и технологии - 2008» (Москва, 2008 г.), а также докладывались и обсуждались на научных семинарах кафедры «Проектирование вычислительных комплексов» «МАТИ» - РГТУ имени К.Э. Циолковского и Института системного программирования РАН.

Публикации. По теме диссертации опубликованы шестнадцать печатных работ, в том числе две статьи, из них одна статья в журнале, входящем в Перечень ведущих изданий, рекомендованных ВАК.

Структура и объем работы. Работа состоит из введения, четырех глав, заключения, списка литературы и 5 приложений. Работа изложена на 123 страницах и включает 20 рисунков, 6 таблиц, список литературы из 123 наименований, а также приложения на 13 страницах. Общий объём работы -136 страниц.

Краткое содержание работы

Во введении обосновывается актуальность темы диссертационной работы. Характеризуется область исследования. Обосновываются научная новизна и практическая значимость выполненного исследования. Формулируются цели исследования и основные положения, выносимые на защиту.

В первой главе рассматриваются и характеризуются практические задачи и направления автоматизированной обработки текста: машинный перевод, генерация текста, локализация и интернационализация, работа на

ограниченном языке, создание текстовых документов: ввод, редактирование, исправление ошибок, построение и работа с онтологиями, информационный поиск и др.

Описываются методы и этапы автоматизированного анализа текста, как лингвистического (графематический, морфологический, синтаксический, семантический, прагматический), так и статистического (и-граммная модель, дерево решений и др.). Показано, что наиболее предпочтительным является комбинированный метод анализа текста, учитывающий статистические характеристики его структурных единиц.

В диссертационной работе существующие системы автоматизированной обработки текста классифицируются по вырабатываемым ими результатам: либо из текста извлекается некоторая информация, либо на основе содержащейся в тексте информации порождается новая информация. Исходя из этого, системы подразделяются на системы порождения, извлечения и гибридные системы.

К системам порождения относятся голосовые системы и системы генерации текста, рассмотрение которых не входит в задачи диссертационной работы.

Системы извлечения информации включают в себя системы и технологии анализа текста и инструменты анализа, предназначенные для решения некоторых конкретных задач. Их, в свою очередь, можно разбить на несколько подразделов. Первый включает в себя большой класс, к которому относятся наиболее распространенные системы, решающие практические задачи: индексирования, классификации, кластеризации, поиска. Их разделение внутри класса необходимо, поскольку при решении различных задач в зависимости от желаемого результата используются различающиеся методы. Второй подраздел включает инструменты лингвистического и статистического анализа текста, которые решают отдельные небольшие задачи, входящие в состав других задач из первого раздела.

Гибридные системы включают в себя системы, сочетающие в себе извлечение и порождение знаний. К ним в первую очередь относится большой класс систем машинного перевода. Вторым классом гибридных систем являются системы автоматизированного реферирования и аннотирования, в которых на основе извлеченной информации строится новый сокращенный текст. Третий класс составляют задачи, относящиеся к области искусственного интеллекта: системы автоматизированного создания баз знаний, создание интеллектуальных систем, вопросно-ответные системы.

Проведенный анализ показал, что большая часть существующих систем, обладающих наиболее широким функционалом, носит экспериментальный характер (TORUS, GUS и др.). Их недостатком является возможность работы лишь с ограниченными объемами

информации (MARGE, CSD, PSS, ПОЭТ и др.). Системы же, использующиеся на практике (Медиалогия, PROMT, ДИАЛИНГ, TextAnalyst и др.), предоставляют пользователям гораздо меньшие возможности обработки текстов. Однако и те и другие не предоставляют гибких инструментов для воздействия на алгоритмы обработки текстов.

Существуют разработанные за рубежом архитектуры и наборы библиотек и инструментов для создания, исследования и использования широкого спектра различных моделей анализа, а также интеграции их с технологиями поиска и хранения информации. Для английского языка созданы системы, позволяющие комбинировать наборы предоставленных инструментов анализа текста, но они реализованы в виде набора библиотек для разработки программного обеспечения, не имеют пользовательского интерфейса и практически не поддерживают работу с текстами на русском языке (GATE, UIMA, LingPipe).

Кроме этого почти все существующие системы анализа включают в себя полный или сокращенный набор этапов обработки, а для решения различных задач используют дополнительный анализ полученной информации.

Определяются задачи обработки текста для решения средствами предлагаемой системы автоматизированного анализа текста:

1. Составление словарей писателей, определение авторства, определение особенностей стиля писателя и т.д.

2. Автоматическая классификация, аннотирование, реферирование, выделение ключевых слов предметной области.

3. Определение статистических, лингвистических и интегральных характеристик текстов и структур, извлекаемых из них при обработке.

Делается вывод о том, что используемые в реальных системах алгоритмы обработки являются закрытыми для пользователя и не дают возможности применять собственные алгоритмы анализа текста. В этих системах отсутствует возможность модификации алгоритмов с учетом информации, накопленной в процессе обработки, отсутствуют методы и инструменты получения и анализа интегральных характеристик по совокупности текстов, отсутствуют оценки практической реализуемости и временных затрат на обработку текстов.

Вторая глава посвящена описанию структуры предлагаемой системы автоматизированного анализа текста.

Формулируются требования к этой системе:

1. Открытость, позволяющая пользователям развивать и усовершенствовать систему.

2. Расширяемость, дающая возможность увеличивать базовый функционал системы.

3. Модульность, основывающаяся на делении процесса обработки на отдельные алгоритмы, что требует выделения базового набора алгоритмов, используемых при анализе текста.

4. Возможность учета неоднозначности результатов анализа текста, позволяющая повторять те или иные этапы анализа после устранения неоднозначности.

5. Возможность оценки времени обработки в зависимости от объема входного текста.

Открытость системы для пользователя должна обеспечиваться:

• наличием гибких инструментальных средств анализа текста;

• учетом и возможностью использования извлекаемой в процессе анализа информации;

• возможностью расширения за счет включения в ее состав собственных методов и инструментов пользователя.

В соответствии с выработанными требованиями предлагается концептуальная модель открытой системы обработки и анализа текстов, накопления полученной информации и ее последующего анализа (рис. 1).

В основе модели лежат три уровня обработки текста:

лингвистическое (лингвистические методы обработки), статистическое

(статистические методы обработки), аналитическое (операции над результатами).

Лингвистические методы обработки

ПОЛЬЗОВАТЕЛИ

СИСТЕМА

Лингвистические методы обработки

Рис. 1. Концептуальная модель системы анализа текста.

Концептуальная модель системы включает в себя:

1. Подход к обработке данных.

2. Структуру системы.

3. Принципы развития и наполнения системы.

Подход к обработке данных состоит в выделении трех уровней обработки: для получения качественных характеристик элементов и структур текста (лингвистические методы обработки), количественных показателей (статистические методы обработки) и интегральных характеристик (аналитические методы обработки), на основе которых делаются выводы при решении практических задач.

Качественные и количественные характеристики составляют основу для получения интегральных, соответственно лингвистические и статистические методы обработки необходимы для получения исходных данных для применения аналитических методов.

Описанная концептуальная модель требует соответствующей структуры системы (рис. 2):

Система поддержки пользователя

Система анализа результатов Аналитическая система накопления поступающей информации

Операции над результатами

Система базовой обработки

Предвари- Графема- Морфоло- Синтаксис Семантика

тельная тика гия

Система хранения

Пользовательская часть Системная часть

Рис. 2. Структура системы.

1. Система базовой обработки предоставляет возможность обработки произвольного текста, управления процессом обработки, настройки его параметров.

2. Система анализа результатов включает в себя язык сценариев для работы со структурами данных, полученными после базовой обработки. Операции языка сценариев позволяют производить дальнейший анализ и дают пользователю возможность написания алгоритмов для решения конкретной задачи.

3. Аналитическая система накопления поступакпцей информации -набор сценариев, который автоматически запускается при обработке каждого текста и позволяет обновлять информационную базу системы.

4. Система хранения включает в себя базу данных и совокупность файлов, создаваемых программой при обработке или после ее завершения по желанию пользователя.

5. Пользовательская система — среда взаимодействия пользователя с программой, обеспечивающая возможность доступа к системе хранения и имеющемуся набору инструментов.

Перечисленные системы взаимодействуют между собой, оперируя данными разных типов и структур: словники, списки предложений, списки связей, результаты статистической обработки, синтаксические и семантические представления и т.д.

Так, система хранения содержит:

• извлекаемую из текстов информацию;

• общую накопленную информацию;

• служебную информацию.

Под извлекаемой понимается информация, получаемая как непосредственно при обработке текстов, так и при анализе результатов обработки. Общая накопленная информация - это результат работы аналитической системы накопления поступающей информации. Служебной информацией в системе являются данные, необходимые для основных этапов обработки текста (например, морфологический словарь), информация о пользователях и обработанных ими текстах, а также создаваемые пользователями или разработчиками сценарии решения различных задач.

Основой для развития и наполнения системы является аналитическая система накопления поступающей информации, построенная в соответствии с моделью адаптивно-динамического преобразования информации (рис.3).

Информация, получаемая в результате базовой и аналитической обработки исходных данных, остается в системе, помещается в базу данных и может быть использована при обработке исходной информации. Это делает систему динамической и позволяет расширять внутренние

«знания» системы, которые также включают в себя устоявшиеся алгоритмы решения задач

Сценарии

Аналитическая обработка

База данных

V—Ранвшн(х) Информация

Рис. 3. Модель адаптивно-динамического преобразования информации.

Третья глава посвящена разработке инструментальных средств анализа текста и определения различных интегральных характеристик.

Под интегральными понимаются характеристики, получаемые на основе информации, ранее извлеченной из текста (средняя длина предложения, максимальная длина слова, частота встречаемости слова и т.д.). В системе анализа инструментом для получения интегральных характеристик текста является язык сценариев, который оперирует структурами, полученными в результате применения методов базовой обработки. Язык сценариев позволяет получать различные интегральные характеристики текстов с помощью написания на нем алгоритмов -сценариев анализа.

Каждый сценарий является реализацией алгоритма решения какой-либо задачи анализа текста. Язык сценариев включает в себя операции двух видов: операции над структурами извлеченных данных и операции управления. Действие каждой операции с одной стороны определяется структурой элементов множества (в настоящее время в качестве множеств рассматриваются словники, списки связей слов, списки предложений, семантические сети), к которому она применяется, с другой - параметром, который при этом учитывается (например, учет части речи, частоты, веса понятий и т.д.). В последующем возможно введение дополнительных операций над множествами элементов других типов.

Использование языка сценариев позволяет обеспечить:

1. Открытость процесса анализа текста.

2. Возможность самостоятельной разработки и применения алгоритмов решения различных задач пользователем.

3. Легкость отладки и внесения изменений в созданные сценарии.

4. Возможность сохранения и неоднократного применения

созданных сценариев. •

По аналогии с теоретико-множественными операциями и с учетом особенностей естественно-языковых текстов и извлекаемой из них информации вводятся следующие операции над структурами данных, получаемыми на базовых этапах обработки:

1. Объединение (Тип структуры, Структура I, Структура 2, [Параметры]) - объединение двух структур с учетом заданного набора параметров. Результат: Структура 3, Статус.

2. Пересечение (Тип структуры. Структура 1, Структура 2, [Параметры]) - пересечение двух структур с учетом заданного набора параметров. Результат: Структура 3, Статус.

3. Разность (Тип структуры, Структура 1, Структура 2, [Параметры]) — разность двух структур с учетом заданного набора параметров. Результат: Структура 3, Статус.

4. Отношение (Тип структуры, Структура 1, Структура 2, [Параметры]) — доля структур первого текста, присутствующих или не присутствующих во втором. Результат: Статус.

5. Объединение с отсечением (Тип структуры, Структура 1, Структура 2, [Параметры]) — объединение двух структур с учетом заданного набора параметров с последующим отсечением элементов по выбранному критерию. Результат: Структура 3, Статус.

6. Удаление (Тип структуры. Структура 1, [Параметры]) -удаление из структуры элементов с учетом заданного набора параметров. Результат: Структура 2, Статус.

7. Выборка (Тип структуры, Структура 1, [Параметры]) - выбор из структуры элементов с учетом заданного набора параметров. Результат: Структура 2, Статус.

Для каждой операции задается имя структуры, сохраняющей результат, а после ее завершения устанавливается статус выполнения (1 — операция выполнена успешно; -1 - операция не выполнялась; -3- ошибка сохранения результата и др.), который может быть использован как в отладочных целях, так и в операторе условного перехода. Операции управления включают в себя:

1. Копирование (Тип данных, Структура 1, [Параметры]) — копирование элементов одной структуры в другую с учетом заданного набора параметров. Результат: Структура 2.

2. Условный переход (Статус, Знак, Значение, Номер строки сценария для перехода) - переход к указанной строке сценария в зависимости от статуса предыдущей операции.

3. Комментарий - строка для ввода поясняющей информации, не влияющей на ход анализа.

Язык сценариев поддерживает сохранение сценариев и шаблонов, созданных на их основе. Для интегрального анализа текста создан гибкий инструмент, позволяющий на основе структур, полученных в результате обработки текста, строить различные алгоритмы анализа и изменять их при необходимости.

Углубление анализа текста предполагает применение все более сложных алгоритмов, работающих с трудом поддающимися структурированию данными. Это приводит к существенному увеличению времени обработки, которое может варьироваться в интервале от нескольких минут до нескольких месяцев. Время обработки возрастает также и при увеличении размера анализируемого текста. Поэтому необходимо разработать метод и инструмент прогнозирования времени обработки текста. Наличие такого инструмента позволит пользователям оптимально выбирать подходящие инструменты анализа.

Использование оценки времени обработки на основе определения сложности алгоритмов анализа невозможно, поскольку пользователь может выбирать различные наборы инструментов анализа текста, изменять их и добавлять собственные инструменты. Предлагается метод определения времени обработки текста и методика его использования, позволяющая в несколько этапов рассчитывать ожидаемое время обработки на основе ранее полученных данных.

В первую очередь предлагается исследовать зависимость времени обработки от размера текста, поэтому необходимо определить, что в данном случае понимается под размером текста. В общем случае, для всех видов анализа первоначальной характеристикой является размер файла анализируемого текста. Но исследование показало, что размер текстового файла в байтах не является определяющей характеристикой для оценки времени обработки текста. Время обработки в первую очередь зависит от внутренней структуры текста, а также от используемых способов представления данных, применяемых алгоритмов и глубины анализа. Поэтому помимо размера файла необходима другая характеристика, которая больше отражает свойства текста и может быть достаточно легко и быстро получена.

Например, такой базовой характеристикой может быть размер словника (количество различных слов в тексте). Составление словника является результатом прохождения этапа морфологического анализа, причем время обработки текста на этом этапе весьма незначительно по сравнению со временем синтаксического и других видов анализа. Для других видов и алгоритмов анализа возможен выбор другой базовой характеристики.

При оценке времени обработки использовались инструменты графематического и морфологического анализа, построения словника текста и ассоциативной семантической сети с учетом видов

синтаксических связей между словами. При этом текст был представлен в простом текстовом формате.

С ростом размера текста время его анализа возрастает нелинейно, что может сделать невозможным практическое использование системы или набора инструментов анализа. Размер текста, глубина его анализа и требуемое качество результата существенным образом определяют время обработки. В диссертационной работе оценивается зависимость времени обработки от размера текста при условии, что:

• исследование проводилось на компьютере с фиксированной конфигурацией;

• в процессе исследования алгоритмы анализа не изменялись;

• исследование проводилось для ограниченного набора этапов анализа текста.

На основе экспериментально полученных данных для разных этапов обработки и разных текстов возможно получение формулы и построение кривой регрессии. Исходя из анализа экспериментально полученных данных о времени обработки текстов, функции зависимости могут быть найдены в виде /Х(х) = аеи + с, /2(х) = ахь+с, где * - размер текста, /х(х), /2(х) - время обработки.

В результате определения коэффициентов аппроксимирующих функций на основе имеющихся данных были получены следующие функции: ^;=0.5163934883х^00017209573711'' - 0.4277664975 и Ш = 5.360879568x1(Т9х2Л9('2660%4 - 0.4277664975.

Сравнение разных видов регрессии производится на основе экспериментально полученных данных, определение лучшей аппроксимирующей функции из выбранных на известном интервале производится по методу наименьших квадратов. На рис. 4 представлены графики полученных аппроксимирующих функций.

500 гса эоо от 100 Oí

О НЮОО ГООГХ) эдгш шю

Рис. 4. Графики аппроксимирующих функций.

В результате анализа на основе имеющихся данных зависимости времени обработки от размера словников текстов была выбрана экспоненциальная функция.

На основе предложенной математической модели разработана методика прогнозирования времени обработки текста. Исходя из сложности оценки времени обработки и необходимости произвести ее сразу после загрузки текста, методика прогнозирования времени обработки включает в себя несколько этапов:

1. Провести анализ зависимости и подобрать один или несколько видов аппроксимирующих функций для выбранного набора инструментов анализа на основе статистических данных, ранее полученных при анализе текстов с применением того же набора инструментов.

2. Определить коэффициенты выбранных функций, провести их анализ и выбрать лучшую аппроксимирующую функцию. Коэффициенты лучше определять для зависимости времени обработки от размера файла и другого параметра, от которого в большей степени зависит время обработки в конкретном алгоритме анализа (в данном случае в качестве такого параметра рассматривался размера словника).

3. Выбрать лучшую аппроксимирующую функцию с помощью метода наименьших квадратов для каждого случая зависимости - от размера файла, размера словника.

4. Сразу после загрузки текста получить предполагаемое время обработки, используя выбранную на этапе 3 функцию. Эта оценка является менее точной, но позволяет сразу получить ориентировочное время обработки и сделать выводы о целесообразности анализа текста.

5. После проведения морфологического анализа и получения словника текста, получить предполагаемое время обработки, используя функцию, выбранную на этапе 3.

Предлагаемая методика позволяет делать вывод о практической реализуемости алгоритмов анализа текста и производить оценку временных затрат на обработку текстов.

В четвертой главе приводятся примеры использования разработанных инструментов для решения некоторых практических задач анализа текста.

В главе 2 была описана адаптивно-динамическая модель преобразования информации в системе анализа текста. Язык сценариев дает возможность ее практической реализации, что демонстрируется на примере решения задачи автоматизированного классифицирования текстов.

Для построения словарей писателей было отобрано и проанализировано около 200 текстов произведений разных писателей, по каждому из которых средствами подсистемы базовой обработки был

построен словник, содержащий слово в начальной форме, его часть речи, абсолютную и относительную частоту использования в тексте.

Использование языка сценариев дает возможность построения словарей по большим объемам текстов, объемы которых не позволяют получить словник сразу всего текста, и в некоторых случаях позволяет сократить время анализа текстов. Например, для текстов 30 произведений Л.Н. Толстого время построения словника сразу по всему тексту заняло 11 мин. 10 сек., тогда как использование сценария объединения словарей позволило получить словарь Л.Н. Толстого за 9 мин. 8 сек.

Для больших объемов текстовой информации актуальной является задача классификации текстов и автоматического рубрицирования. Язык сценариев, с одной стороны, позволяет непосредственно решать задачу автоматизации классифицирования текстов, а с другой - задачу построения наборов ключевых слов для различных областей.

В качестве исходных данных были выбраны статьи по нескольким тематикам. По части текстов были построены словники, содержащие наборы ключевых слов для заданной предметной области, остальные классифицировались на основе ключевых слов, выделенных из ранее проанализированных текстов.

После построения словника по анализируемому тексту средствами языка сценариев производится выбор ключевых слов этого текста. Для этого из общего словника выбираются имена существительные, затем из полученного списка имен существительных с соответствующими им значениями частот выбираются слова с наибольшими значениями относительных частот. Пороговое значение1 выбирается экспериментальным путем. Сценарий, результатом выполнения которого является список ключевых слов текста, представлен на рис. 5.

с*-«« С. □□ ,

Рис. 5. Сценарий для построения списка ключевых слов текста.

В приведенном примере в качестве пороговых значений были выбраны 1% и 0.5%. Для других текстов это значение может варьироваться, в первую очередь в зависимости от объема текста.

На основе построенных наборов ключевых слов, характерных для различных предметных областей, возможно написание сценария,

1 Под пороговыми значениями понимаются значения относительных частот, выше которых

слово относится к ключевым

М Г 1111 Кшщ I I». > I I ' 1ШСТИИ 1И1 1 ПИП II |р| I'

п -..»—шк™ " Вьём »и* сялспм'е.г.-»* я; гг тщ-ту

I "-Ч) * - - л "гС * - -- ----- - - - 1

3 вьЗээ ~ Оч»** " "С >'^'--'1 ' - г I ' - -> - . " с 5*

определяющего, к какой из имеющихся в системе предметных областей может быть отнесен исследуемый текст. Для этого необходимо:

• найти набор ключевых слов исследуемого текста;

• найти отношение полученного набора ключевых слов к наборам ключевых слова каждой предметной области в системе (рис. 6);

• выбрать предметную область с наибольшим значением отношения.

В ходе эксперимента были проанализированы 8 текстов из 5 предметных областей с использованием коэффициентов 0.01 (1%) и 0.005 (0.5%). В результате в 6 случаях текст был классифицирован верно, в двух других отнесен к другой смежной предметной области. Увеличение количества проанализированных текстов для составления набора ключевых слов предметных областей даст возможность увеличить точность распознавания.

Г щнирщ »1» II11 и

с-*. Ц и '"*"*

V О 1111411

I

ЗЭТО««*!* 4 Л-Л-*-.',

7 0К.ЭММН1

Рис. 6. Сценарий для нахождения отношений наборов ключевых слов.

Введение в языке сценариев шаблонов позволяет создавать библиотеки сценариев для отдельного пользователя, группы пользователей, категории пользователей, круга задач и т.д. Под шаблоном понимается сценарий, представляющий собой только алгоритм решения какой-либо задачи без указания конкретных данных.

Библиотека состоит из набора шаблонов, предназначенных для решения различных задач, и может быть как системной, так и пользовательской. Системные библиотеки не могут изменяться пользователями, но шаблоны из них легко могут использоваться для создания пользовательских сценариев на их основе. В системе автоматизированного анализа текста созданы две библиотеки шаблонов -для решения лингвистических задач и задачи классификации текстов, которые основываются на ранее описанных сценариях.

Библиотека для решения лингвистических задач включает в себя следующие шаблоны:

• получения списков глаголов, имен существительных, имен прилагательных и других частей речи;

Т— Ч

■I ||||»».|| '

■екл:» ТЬ'Г и'Ь : " -^-г у '-

чье! - гест №15 2 ' ОТЯ от ■-«*. 1" •ест:" СГ'* 1 ' 1 1 -

иМТ:- &Ю_КГУ5_!

■ал:» Е?_КЕ*5_2

ч-1 » И<_«>5^ част-- Ж Т-* ;

Т 1 I -

Ч>1 2 -

О

• определения процента глаголов, имен существительных, имен прилагательных и т.д. в тексте;

• получения словников писателей по словникам текстов их произведений;

• анализа текстов учебников для чтения начальных классов.

Библиотека для решения задачи классификации текстов включает в

себя шаблоны:

• для выделения ключевых слов из текста;

• для добавления текстов в базу областей знаний;

• для определения принадлежности текста к одной из областей.

Таким образом, предложенная система анализа текста и

инструментальные средства, входящие в ее состав позволяет решать широкий набор исследовательских и практических задач.

В заключении приводятся основные результаты и выводы диссертационной работы.

Выводы по результатам диссертации

В ходе решения задач, поставленных в диссертационной работе, были получены следующие результаты:

1. Проанализированы методы анализа естественно-языковых текстов и реализующие их автоматизированные системы.

2. В качестве отдельного уровня анализа текста выделено использование аналитических методов.

3. Предложена концептуальная модель открытой системы автоматизированной обработки текста.

4. Разработана структура и определен функционал открытой системы автоматизированной обработки текста.

5. Разработано ядро системы автоматизированной обработки текста.

6. Разработаны инструментальные средства анализа текста, основным из которых является язык сценариев.

7. Предложен метод оценки времени обработки текста, на его основе разработана методика прогнозирования времени обработки текста.

8. Продемонстрирована работа созданных инструментальных средств на примере решения некоторых задач анализа текста.

Список публикаций по теме диссертации

1. Добрышина Е.В. Программные средства статистического исследования текстов для построения семантической сети // Тезисы докладов Международной молодежной научной конференции «XXXII Гагаринские чтения». Т. 6. М.: МАТИ, 2006. С. 152.

2. Балакирев Н.Е., Гирин Б.Б., Добрышина Е.В. Проблемы автоматизированной обработки текстов на естественном языке // Тезисы

докладов Всероссийской научно-технической конференции «Новые материалы и технологии. НМТ-2006». Т.2. М.: ИТЦ МАТИ, 2006. С. 128129.

3. Добрышина Е.В. Основные проблемы и принципы автоматизированного определения смысла текста на естественном языке // Научные труды Международной молодежной научной конференции «XXXIII Гагаринские чтения». Т. 6. М.: МАТИ, 2007. С. 221.

4. Добрышина Е.В. Система анализа больших объемов текстовой информации // Научные труды Международной молодежной научной конференции «XXXIV Гагаринские чтения». Т. 6. М.: МАТИ, 2008. С. 173.

5. Балакирев Н.Е., Добрышина Е.В. Концептуальная модель системы автоматизированного анализа текста // Материалы VIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии». Т. 2. Воронеж, 2008. С. 51-52.

6. Балакирев Н.Е., Добрышина Е.В. Предполагаемая структура системы анализа текстов с целью создания базы знаний // Материалы XI Санкт-Петербургской международной конференции «Региональная информатика-2008». СПб.: СПИИРАН, 2008.

7. Балакирев Н.Е., Добрышина Е.В. Операции обобщения результатов анализа текста // Тезисы докладов Всероссийской научно-технической конференции «Новые материалы и технологии. НМТ-2008». М.: ИТЦ МАТИ, 2008. С. 148-149.

8. Балакирев Н.Е., Добрышина Е.В. Язык сценариев для анализа информации, извлекаемой из текстов на естественном языке // Материалы IX Международной научно-методической конференции "Информатика: проблемы, методология, технологии". Т. 1. Воронеж, 2009. С. 92-95.

9. Балакирев Н.Е., Добрышина Е.В. Способ оценки и методика прогнозирования времени обработки текстов // Материалы X Международной научно-методической конференции "Информатика: проблемы, методология, технологии". Т. 1. Воронеж, 2010. С. 46-51.

Ю.Балакирев Н.Е., Добрышина Е.В. Концептуальная модель и структура системы обработки текстовой информации // Информационные технологии. 2010. № 2. С. 2-7.

11. Добрышина Е.В. О подходах к исследованию текстов на основе анализа извлекаемых метазнаний // Научные труды Международной молодежной научной конференции «XXXVI Гагаринские чтения». Т. 4. М.: МАТИ, 2010. С. 87-88.

12. Балакирев Н.Е., Добрышина Е.В. Об одном из подходов к анализу текста на основе использования языка сценариев // Материалы XII Санкт-Петербургской международной конференции «Региональная информатика-2010». СПб.: СПИИРАН, 2010. С. 32.

13. Балакирев Н.Е., Полицына Е.В. Реализация адаптивно-динамической модели преобразования информации средствами языка

сценариев на примере задачи классификации текстов // Материалы XI Международной научно-методической конференции "Информатика: проблемы, методология, технологии". Т. 1. Воронеж, 2011. С. 73-77.

14. Полицына Е.В. Решение практических задач анализа текстов средствами языка сценариев // Научные труды Международной молодежной научной конференции «XXXVII Гагаринские чтения». Т. 4. М.: МАТИ, 2011. С. 99-101.

15. Полицына Е.В. Применение языка сценариев для исследования текстов для чтения в начальных классах. // Альманах современной науки и образования. - Тамбов: Грамота, 2012. № 3. С. 111-113.

16. Полицына Е.В. Исследования текстов для чтения средствами автоматизированного анализа // Научные труды Международной молодежной научной конференции «XXXVIII Гагаринские чтения». Т. 4. М.: МАТИ, 2012. С. 146-147.

Подписано в печать: 24.05.2012 Объем: 1,0 п.л Тираж: 100 экз. Заказ № 161 Отпечатано в типографии «Реглет» 119526, г. Москва, Страстной бульвар, д. 6. стр. 1 (495) 978-43-34, www.reglet.ru

Оглавление автор диссертации — кандидата технических наук Полицына, Екатерина Валерьевна

Введение

1. Исследование современного состояния и методов автоматизированного анализа текста

1.1. Понятие текста и необходимость автоматизации его анализа.

1.2. Исследование развития автоматического и автоматизированного анализа текста.

1.2.1. Исследование задачи автоматизации анализа текста.

1.2.2. Обзор сфер применения автоматизированного анализа текста.

1.2.3. Базовые методы, используемые при автоматизирован-ном анализе текста.

1.2.4. Основные этапы автоматизированного анализа текста.

1.3. Классификация и обзор систем и инструментов анализа текста.

1.4. Основные проблемы автоматизированного анализа текста.

1.5. Выводы.

2. Создание открытой системы автоматизированной обработки текста

2.1. Определение требований к системе.

2.2. Концептуальная модель открытой системы автоматизированной обработки текста.

2.3. Структура открытой системы автоматизированной обработки текста

2.3.1. Система базовой обработки.

2.3.2. Система хранения.

2.3.3. Система анализа результатов.

2.3.4. Аналитическая система накопления поступающей информации.

2.3.5. Система хранения.

2.3.6. Система поддержки пользователя.

2.4. Выводы.

3. Разработка инструментальных средств автоматизированного анализа текста

3.1. Создание инструментальных средств аналитической обработки текста

3.2. Разработка языка сценариев.

3.2.1. Общая характеристика языка сценариев.

3.2.2. Операции над структурами и их формальное описание.

3.2.3. Операции управления.

3.2.4. Статусы операций.

3.2.5. Практическое применение операций.

3.3. Прогнозирование времени обработки текста.

3.3.1. Экспериментальные оценки времени обработки.

3.3.2. Определение вида кривой регрессии.

3.3.3. Методика прогнозирования времени обработки.

3.3.4. Примеры оценки времени обработки текстов.

3.4. Выводы.

4. Экспериментальная проверка разработанных инструментальных средств анализа текста.

4.1. Возможность реализации множества подходов к анализу текста.

4.2. Реализация подхода «множество текстов - один сценарий»: составление словарей писателей.

4.2.1. Исходные данные.

4.2.2. Алгоритм и результаты работы сценария.

4.3. Реализация подхода «один текст - множество сценариев»: определение используемости одного текста в другом.

4.3.1. Исходные данные.

4.3.2. Алгоритм работы сценария.

4.3.3. Полученные результаты.

4.4. Реализация подхода «множество текстов - множество сценариев»: исследование словарного запаса писателей.

4.5. Применение адаптивно-динамической модели анализа текста на примере автоматизированного классифицирования текстов.

4.5.1. Исходные данные.

4.5.2. Алгоритм работы сценария.

4.5.3. Полученные результаты.

4.6. Создание библиотек шаблонов.

4.7. Результаты реализации предложенных моделей и перспективы развития.

4.8. Выводы.

Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Полицына, Екатерина Валерьевна

Актуальность темы диссертации

К середине XX века непрерывный рост объемов вырабатываемой человечеством информации сделал крайне актуальными задачи поиска информации в огромных массивах данных, ее выбора и упорядочения по тем или иным признакам. К этим задачам относятся классификация, кластеризация, составление картотек, словарей и энциклопедий и др. Появление вычислительной техники способствовало в 1960-е гг. созданию различных теорий в области лингвистики и представления знаний (Ю.Д. Апресян, М. Мински, Д.А. Поспелов, Р. Шенк, И. Уилкс, В.А. Звягинцев, Т. Виноград, А.К. Жолковский, Ч. Филмор и др.), развитию методов автоматизированного анализа текста, проектированию и разработке систем, реализующих их.

В последние десятилетия появилось множество систем автоматизированного анализа текста, предназначенных для решения отдельных задач или небольшого набора задач. Большая часть этих систем является экспериментальными и предназначены для работы с ограниченными объемами информации. При этом изменение алгоритма решения или расширение функционала системы пользователем практически невозможно.

Это определяет актуальность как теоретических работ по созданию новых подходов к построению систем автоматизированного анализа текста, открытых для расширения и модификации пользователями, так и практических разработок пользовательских инструментов, реализующих в рамках этих систем функции обработки текста.

Цель диссертационной работы

Целью диссертационной работы является создание новой системы автоматизированного анализа текста, предоставляющей пользователю возможность гибкой настройки на решаемую задачу путем выбора оптимального набора инструментов и создания новых инструментов.

Для достижения поставленной цели, в работе необходимо решить следующие задачи:

Выделение круга задач обработки текста для решения средствами новой системы автоматизированного анализа текста.

2. Анализ существующих методов автоматизированной обработки текста.

3. Анализ существующих систем автоматизированной обработки текста, решающих названные выше задачи.

4. Определение структуры и функционала создаваемой системы автоматизированной обработки текста.

5. Разработка ядра системы автоматизированной обработки текста.

6. Разработка инструментальных средств анализа текста.

7. Разработка метода оценки времени обработки текста и методики его прогнозирования.

8. Экспериментальная проверка разработанной системы автоматизированной обработки текста и инструментальных средств анализа текста.

Предмет исследования

Предметом исследования в диссертационной работе являются методы анализа естественно-языковых текстов на русском языке и реализующие их автоматизированные системы.

Методы исследования

Методы исследования заимствованы из следующих областей:

• компьютерная и структурная лингвистика;

• математический анализ;

• теория вероятностей и математическая статистика;

• теория множеств;

• базы данных;

• языки программирования высокого уровня.

Научная новизна

Научную новизну диссертационной работы составляют следующие результаты, полученные в ходе решения поставленных задач:

• структура открытой системы автоматизированной обработки текста;

• инструментальные средства обработки текстов и анализа полученных результатов;

• методика прогнозирования времени обработки текста. Практическая ценность работы

Практическую ценность работы составляют следующие результаты:

• базовые компоненты системы автоматизированного анализа текста;

• инструментальные средства построения алгоритмов анализа текстов.

Положения, выносимые на защиту

На защиту выносятся следующие основные положения:

• концептуальная модель и структурная схема открытой системы автоматизированной обработки текста;

• принципы организации инструментальных средств анализа результатов обработки текста;

• методика оценки времени обработки текста.

Структура и объем работы

Работа состоит из введения, четырех глав, заключения, списка литературы и 5 приложений. Работа изложена на 124 страницах и включает 20 рисунков, 6 таблиц, список литературы из 123 наименований, а также приложения на 13 страницах. Общий объём работы - 137 страниц.

Краткое содержание работы

Во введении обосновывается актуальность темы диссертационной работы. Характеризуется область исследования. Обосновываются научная новизна и практическая значимость выполненного исследования. Формулируются цели исследования и основные положения, выносимые на защиту.

В первой главе рассматриваются и характеризуются практические задачи и направления автоматизированной обработки текста, описываются методы и этапы автоматизированного анализа текста. Вводится классификация систем анализа текста, в соответствии с которой описываются существующие системы. Определяются основные проблемы автоматизированного анализа текста.

Вторая глава посвящена описанию структуры разрабатываемой открытой системы автоматизированного анализа текста. Определяются требования к системе, на основе которых предлагается концептуальная модель системы анализа текста. Описывается структура системы, ее свойства, подход к обработке данных, принципы развития и накопления информации.

Третья глава посвящена разработке инструментальных средств автоматизированного анализа текста. Формулируются подходы к анализу текста. Описываются операции и основные особенности языка сценариев, типы структур извлекаемой из текстов информации. Приводятся описания операций над структурами на примере операций над словниками и примеры практического применения этих операций. Предлагается способ оценки зависимости времени обработки от размера текста и методика прогнозирования времени.

Четвертая глава содержит примеры использования инструментальных средств анализа текста и реализацию описанных подходов к анализу текстов: «множество текстов - один сценарий», «один текст - множество сценариев», «множество текстов - множество сценариев» и адаптивно-динамической модели преобразования информации на примере классификации текстов.

В заключении приводятся основные результаты и выводы диссертационной работы.

Заключение диссертация на тему "Создание открытой системы автоматизированной обработки текста и инструментальных средств его анализа"

4.8. Выводы

1. С помощью разработанных инструментальных средств анализа текста были продемонстрированы решения разнообразных практических задач путем составление сценария анализа.

2. Приведены примеры реализации алгоритмов сравнения и классификации текстов, составления словарей писателей и их исследования.

3. Созданы библиотеки шаблонов для решения лингвистических задач и задачи классификации текстов.

4. Показано, что реализация адаптивно-динамической модели преобразования информации позволит автоматизировать процесс накопления в системе знаний, необходимых для решения различных задач.

5. Предложенные инструментальные средства анализа текста позволяют пользователям решать широкий набор исследовательских и практических задач.

Заключение

В ходе решения задач, поставленных в диссертационной работе, были получены следующие результаты:

1. Проанализированы методы анализа естественно-языковых текстов и реализующие их автоматизированные системы.

2. В качестве отдельного уровня анализа текста выделено использование аналитических методов.

3. Предложена концептуальная модель открытой системы автоматизированной обработки текста.

4. Разработана структура и определен функционал открытой системы автоматизированной обработки текста.

5. Разработано ядро системы автоматизированной обработки текста.

6. Разработаны инструментальные средства анализа текста, основным из которых является язык сценариев.

7. Предложен метод оценки времени обработки текста, на его основе разработана методика прогнозирования времени обработки текста.

8. Продемонстрирована работа созданных инструментальных средств на примере решения некоторых задач анализа текста.

112

Библиография Полицына, Екатерина Валерьевна, диссертация по теме Теоретические основы информатики

1. Анисимов, А. В. Компьютерная лингвистика для всех: Мифы. Алгоритмы. Язык / А. В. Анисимов. Киев: Наукова думка, 1991.- 208 е.: ил.

2. Бабин, Д. Н., Мазуренко, И. JL, Холоденко, А. Б. О перспективах создания системы автоматического распознавания слитной устной русской речи // Интеллектуальные системы, 2004. Т.8. - Вып. 1-4. -Стр. 45-70.

3. Балакирев, Н. Е., Гирин, Б. Б. Основные концепции языка описания алгоритмов анализа естественно-языкового текста // Информационные технологии. 2008. - №9, стр. 42-47.

4. Башмаков, А. И. Интеллектуальные информационные технологии: Учеб пособие / А. И. Башмаков, И. А. Башмаков. М.: Изд-во МГТУ им. Н. Э. Баумана, 2005. - 304с.: ил.

5. Белов, А. А., Волович М. М. Автоматическое распознавание тематики сверхкоротких текстов // Компьютерная лингвистика и интеллектуальные технологии. Международная конференция «Диалог 2007». Труды конференции. Наро-Фоминск, 2007.

6. Белоногов, Г.Г. Компьютерная лингвистика и перспективные информационные технологии. М.: Русский мир, 2004. - 248с.

7. Белоногов, Г.Г., Кузнецов, Б. А. Языковые средства автоматизированных информационных систем М.: Наука, 1983.

8. Белоногов, Г.Г., Калинин, Ю.П., Хорошилов, A.A., Хорошилов, Ал-сей А. Компьютерная лингвистика и перспективные информационные технологии. НТИ СЕР. 2 . Информ. процессы и системы. 2004 . № 8.

9. Большакова, Е. И. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. пособие / Е. И. Большакова, Э. С. Клышинский, Д. В. Ландэ, А. А. Носков, О. В. Пескова, Е. В. Ягунова — М.: МИЭМ, 2011. — 272 с.

10. Большая советская энциклопедия. Гл. ред. А.М. Прохоров, 3-е изд.Т. 1-30. М., «Сов. энциклопедия», 1969-78.

11. БСЭ. Статья «Автоматический анализ текста». Электронный ресурс. URL: http ://www. diclib. com/cgi-bin/ d 1. cgi?l=ru&base=bse& page=showid&id= 1041 (дата обращения: 27.12.2010).

12. БСЭ. Статья «Текст». Электронный ресурс. URL: http://slovari.yandex.ru/TeKCT/EC3/TeKCT/ (дата обращения: 27.12.2010).

13. Валгина, Н. С. Синтаксис современного русского языка / Н. С. Валгина. М.: Высшая школа, 2003. - 432с.

14. Валгина, Н. С. Теория текста: Учебное пособие. / Н. С. Валгина. -Москва: Изд-во МГУП «Мир книги», 1998. 210 с.

15. Воронина, И. Е., Кретов, А. А., Титова, О. С. Программные средства выявления семантического поля слов // Вестник ВГУ, серия: Системный анализ и информационные технологии, 2008, № 2. С.111-122.

16. Воронина, И. Е., Львович, Я. Е. Алгоритмизация системного анализа языковой среды человека // Вестник Воронежского государственного технического университета. 2009. Т. 5. № 12. С. 143-146.

17. Воронина, И. Е., Львович, Я. Е. Компьютерное моделирование лингвистических объектов // Вестник Воронежского государственного технического университета. 2009. Т. 5. № 12. С. 10-15.

18. Выготский, JI. С. Мышление и речь. Изд. 5, испр. / JI. С. Выготский. М.: Издательство "Лабиринт", 1999. — 352 с.

19. Гирин, Б. Б. О разработке языка описания алгоритмов анализа текста // XXXI Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2005.

20. Гирин, Б. Б. Основные концепции инструментальной системы для синтаксического анализа естественно-языковых текстов // XXXIV Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2008.

21. Гирин, Б. Б. Язык описания алгоритма анализа естественноязыкового текста// XXXIII Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2007.

22. Гладкий, А. Л. Синтаксический структуры естественного языка в автоматизированных системах общения. -М. Наука, 1985. 144с.

23. Добрышина, E. В. Основные проблемы и принципы автоматизированного определения смысла текста на естественном языке // XXXIII Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2007.

24. Добрышина, Е. В. Программные средства статистического исследования текстов для построения семантической сети // XXXII Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2006.

25. Добрышина, Е. В. Система анализа больших объемов текстовой информации // XXXIV Гагаринские чтения. Тезисы докладов Международной молодежной конференции. М.: МАТИ, 2008.

26. Евдокимова, И. С. Естественно-языковые системы: курс лекций / И.С. Евдокимова. Улан-Удэ: Изд-во ВСГТУ, 2006. - 92 е.: ил.

27. Ермаков, А. Е. Компьютерная лингвистика и анализ текста // Мир ПК, 2002. - №9.

28. Ермаков, А. Е. Неполный синтаксический анализ текста в информационно-поисковых системах. Компьютерная лингвистика и интеллектуальные технологии: труды Международного семинара Диалог, 2002. В двух томах. Т.2. "Прикладные проблемы". Москва, Наука, 2002.

29. Ермаков, А. Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000. - N 11. Электронный ресурс. URL: http://www.rco.ru/article.asp?obno=33 (дата обращения: 27.12.2010).

30. Ермаков, А. Е., Плешко, В. В. Ассоциативная семантическая сеть: статистическая модель восприятия и порождения текста // Труды международной конференции Диалог, 2001.

31. Зализняк, А. А. Грамматический словарь русского языка. Словоизменение / A.A. Зализняк. М.: Русский язык, 1987. - 880с.

32. Звягинцев, В. А. Очерки по общему языкознанию / В. А. Звягинцев. М.: Либроком. 2009. 384с.

33. Интернет Университет Информационных технологий. Интеллектуальные робототехнические системы. Системы представления знаний. Электронный ресурс. URL: http ://www. intuit.ru/department/ human/isrob/2/ (дата обращения: 24.12.2010).

34. Интернет Университет Информационных технологий. Интеллектуальные робототехнические системы. Проблемы понимания естественного языка. Электронный ресурс. URL: http://www.intuit.rU/department/human/isrob/5/ (дата обращения: 24.12.2010).

35. Кибрик, А. Е. Константы и переменные мира / А. Е. Кибрик,-СПб.: Алетейя, 2005. 720с.

36. Кирсанов, Д. Описание программы Свежий взгляд / Fresh Eye Электронный ресурс. URL: http://www.kirsanov.com/fresheye/ (дата обращения: 27.12.2010).

37. Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог, 2005. М.: Наука, 2005.

38. Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог, 2006. М.: Наука, 2006.

39. Кулагина, О. С. Об автоматическом синтаксическом анализе русских текстов. Препринт / ИПМ АН СССР. М. 1987. №205.

40. Леонтьева, Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие для студ. лигв. фак. Вузов / Н. Н. Леонтьева. М.: Издательский центр «Академия», 2006. - 304с.

41. Мальковский, М. Г. Прикладное программное обеспечение: системы автоматической обработки текстов / Мальковский М.Г., Грацианова

42. Т.Ю., Полякова И.Н. М.: МГУ, издательский отдел факультета ВМК, 2000. -52 с.

43. Манаев, О. Т. Контент-анализ — описание метода. «ПСИ-ФАКТОР» — информационный ресурсный центр по практической психологии. Электронный ресурс. URL: http://psyfactor.org/lib/kontent.htm (дата обращения: 27.12.2010).

44. Марчук, Ю. Н. Основы компьютерной лингвистики. Учебное пособие. Издание 2-е дополненное. / Ю. Н. Марчук. М.: Изд-во МПУ "Народный учитель", 2000. - 226с.

45. Машинный фонд русского языка. Электронный ресурс. URL: http://cfrl.ru/ (дата обращения: 24.12.2010).

46. Мельчук, И. А. Опыт теории лингвистических моделей «Смысл « Текст». М., 1974 (2-е изд., 1999). - 345с.

47. Налимов, В. В. Вероятностная модель языка. О соотношении естественных и искусственных языков. 2 изд., перераб. и доп. / В. В. Налимов. М.: Наука, 1979. - 272с.

48. Нечипоренко, А., Русин, А. Система автоматизированного извлечения знаний из текстов на естественном языке // Труды международной научно-технической конференции "Информационные системы и технологии 2003" НГТУ, Новосибирск, 2003.

49. Новейший философский словарь: 3-е изд., исправл. — Мн.: Книжный Дом. 2003,— 1280 с.

50. Общая психология. Словарь. Статья «Язык» / Под. ред. А.В. Петровского //Психологический лексикон. Энциклопедический словарь в шести томах / Ред.-сост. JI.A. Карпенко. Под общ. ред. А.В. Петровского. — М.: ПЕР СЭ, 2005, —251 с.

51. Описание системы Ngram Statistics Package Электронный ресурс. URL: http://www.d.umn.edu/~tpederse/nsp.html (дата обращения: 27.12.2010).

52. Описание продукта Google Mini, Google Desktop Электронный ресурс. URL: http://www.googlestore.com/appliance/product.asp?catid=3 (дата обращения: 27.12.2010).

53. Пиотровский, Р. Г. Инженерная лингвистика и теория языка. JL: Наука, 1979.- 111 с.

54. Попов, М. Ю. Визуализация семантической структуры и реферирование текстов на естественном языке. Труды конференции Диалог-2003. Электронный ресурс. URL: http://www.dialog-21 .ru/Archive/2003/Popov.htm (дата обращения: 27.12.2010).

55. Попов, Э. В. Общение с ЭВМ на естественном языке / Э. В. Попов. М.: Едиториал УРСС. 2004. - 360с.

56. Протасов, С. Описание программы лингвистического анализа и обработки текстов Link Grammar Parser for Russian Электронный ресурс. URL: http://slashzone.ru/parser/ (дата обращения: 27.12.2010).

57. Ростовцев, В. С. Принципы построения экспертных систем. Учебное пособие / В. С. Ростовцев. Киров: Изд-во ВятГУ, 2007. - 155с.

58. Русская виртуальная библиотека. Описание программы WordTabulator Электронный ресурс. URL: http://www.rvb.ru/soft/index.html (дата обращения: 27.12.2010).

59. Сайт рабочей группы АОТ. Электронный ресурс. URL: www.aot.ru (дата обращения: 24.12.2010).

60. Сайт корпорации «Галактика». Описание продукта Galaktika-ZOOM Электронный ресурс. URL: http://www.galaktika-zoom.ru/ (дата обращения: 27.12.2010).

61. Сайт ОАО «Интелл Сервис». Описание поисковой системы AskNet Электронный ресурс. URL: http://info.asknet.ru/portal.htm (дата обращения: 27.12.2010).

62. Сайт компании «Медиалогия». Электронный ресурс. URL: http://www.mlg.ru (дата обращения: 27.12.2010).

63. Сайт компании НооЛаб. Опсиание продукта URS v. 1.1 Электронный ресурс. URL: http://www.noolab.ru/index.php7icNabout (дата обращения: 27.12.2010).

64. Сайт компании САЙТЭК. Описание НАС «АРИОН» Электронный ресурс. URL: http://sytech.ru/about.php?id-5 (дата обращения: 27.12.2010).

65. Сайт компании "ЭР СИ О". Описание технологии Russian Context Optimizer Электронный ресурс. URL:http://www.rco.ru/ (дата обращения: 27.12.2010).

66. Сайт компании «Яндекс». Описание программы My stem Электронный ресурс. URL: http://company.yandex.ru/technologY/mystem/ (дата обращения: 27.12.2010).

67. Сайт компании «Яндекс». Описание технологии Яndex.Server Электронный ресурс. URL: http://company.yandex.ru/technology/server/ (дата обращения: 27.12.2010).

68. Сайт компании Athelstan. Системы Mono Сопс/ Para Cone. Электронный ресурс. URL: http://athel.com/product info.php?productsid=81 (дата обращения: 27.12.2010).

69. Сайт компании Cognitive Technologies. Описание продукта Cognitive Астарта Электронный ресурс. URL: http://www.cognitive.ru/products/astarta/ (дата обращения: 27.12.2010).

70. Сайт компании LingSoft, Inc. Описание системы LingSoft Электронный ресурс. URL: http://www.lingsoft.fi/?lang=en (дата обращения: 27.12.2010).

71. Сайт компании Microsystems, Ltd. Система TextAnalist. Электронный ресурс. URL: http://www.analyst.ru (дата обращения: 27.12.2010).

72. Сайт компании NeurOK. Описание продукта Semantic Explorer Электронный ресурс. URL: http://soft.neurok.ru/products/semantic.shtml (дата обращения: 27.12.2010).

73. Сайт компании Ontos AG. Описание системы Ontos Электронный ресурс. URL: http://ontos.com/ (дата обращения: 27.12.2010).

74. Сайт компании Relevant Software Inc. Описание продукта netXtract Электронный ресурс. URL: http ://www.relevantsoftware .сот/ (дата обращения: 27.12.2010).

75. Сайт компании SourceForge. Описание системы Forson, a sentence generation tool Электронный ресурс. URL: http://sourceforge.net/proiects/forson/ (дата обращения: 27.12.2010).

76. Сайт проекта BAAJI. Электронный ресурс. URL: www.vaal.ru (дата обращения: 27.12.2010).

77. Селезнев, К. Обработка текстов на естественном языке // «Открытые системы» , № 12, 2003. Электронный ресурс. URL: http://stem.osp.ru/os/2003/12/183694/ (дата обращения: 15.11.2011).

78. Скороходько, Э. Ф. Семантические сети и автоматизированная обработка текста / Э.Ф.Скороходько. Киев: Наукова думка. 1983.- 217с.

79. Сокирко, A.B. Программная реализация русского общесемантического словаря. // НТИ. Сер 2. 1997.- N 12.-е 20-24.

80. Соколова, Е. Н. Алгоритмы лемматизации для русского языка. // Рабочий проект многоязычного автоматического словаря на 60 тыс. словарных статей. Т.1. Лингвистическое обеспечение. М. 1984. Стр. 45-62.

81. Справочно-информационный портал ГРАМОТА.РУ. Словари языка писателей и отдельных произведений. Электронный ресурс. URL: http://www.gramota.ru/slovari/types/17 23 (дата обращения: 27.12.2010).

82. Тарасов, В. Б. Логико-лингвистические модели в искусственном интеллекте: прошлое, настоящее, будущее// Политехнические чтения: Сб.тр. Вып. 7. Искусственный интеллект проблемы и перспективы / Политехи, музей. - М.: декабрь, 2006. -194с.

83. Технология автоматического анализа текстов, Microsystems, Ltd 2001. Электронный ресурс. URL: http://www.analyst.ru/index.php? lang=rus&dir=content/tech/&id=wp&left=content/tech/menu.txt (дата обращения: 24.12.2010).

84. Технологии компании ПРОМТ. Электронный ресурс. URL: http://www.promt.ru/ru/technology/promt/ (дата обращения: 24.12.2010).

85. Фрумкина, Р. М. Психолингвистика / Р. М. Фрумкина. М.: Академия, 2003. - 320с.

86. Фомичев, В. А. Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть I. Модель системы первичных единиц концептуального уровня. "Информационные технологии", 2002, № 10 (октябрь). С. 16-25.

87. Фомичев, В. А. Понятие текстообразующей системы как компонент нового формального аппарата для проектированиялингвистических процессоров // Теоретический и прикладной научно-технический журнал "Информационные технологии", 2005, № 8. С. 22-27.

88. Фомичев, В. А. Формализация проектирования лингвистических процессоров / В. А. Фомичев. М.: МАКС Пресс, 2005. - 368 с.

89. Харламов, А. А. // Открытые системы. СУБД : Журнал для профессионалов в области информационных технологий. 2002. - №10. - С. 62-65.

90. Холоденко, А. Б. О построении статистических языковых моделей для систем распознавания русской речи Электронный ресурс. URL: http://intsys.msu.ru/invest/speech/articles/ruslm.htm (дата обращения: 03.01.2012).

91. Хмелев, Д. Описание программы ЛингвоАнализатор Электронный ресурс. URL: http://www.rusf.ru/books/analysis/index.htm (дата обращения: 27.12.2010).

92. Шаров, С. А. Средства компьютерного представления лингвистической информации. Обзор Российский НИИ искусственного интеллекта, 1996. Электронный ресурс. URL: http://www.ksu.ru/eng/science/ittc/vol000/002/ (дата обращения: 24.12.2010).

93. Шемякин, Ю. И. Начала компьютерной лингвистики: Учеб. пособие / Ю. И. Шемякин. М.: Иэд-во МГОУ, А/О "Росвузнаука", 1992.

94. Энциклопедия КРУГОСВЕТ. Компьютерная лингвистика. Электронный ресурс. URL: http://www.krugosvet.ru/enc/ gumanitarnye nauki/lingvistika/KOMPYUTERNAYA LINGVISTIKA.html (дата обращения: 24.12.2010).

95. Энциклопедия КРУГОСВЕТ. Основные разделы и направления прикладной лингвистики. Электронный ресурс. URL:105. http://www.krugosvet.rU/articles/82/l008267/1008267a2.htm (дата обращения: 24.12.2010).

96. Ягунова, Е. В. Ключевые слова в исследовании текстов Н.В. Гоголя // Проблемы социо- и психолингвистики. Пермь, 2011.

97. Ягунова, Е. В. Тема и рема, данное и новое при восприятии текста // Компьютерная лингвистика и интеллектуальные технологии. Международная конференция «Диалог 2007». Труды конференции, г. Наро-Фоминск, 2007г.

98. Ягунова, Е. В. Эксперимент и вычисления в анализе ключевых слов художественного текста // Философия языка. Лингвистика. Лингводидактика № 1. Пермь, 2010. с.83-89.

99. Языкознание.ру. Компьютерная лингвистика. Электронный ресурс. URL: http://yazykoznanie.ru/contentyview/89/281/ (дата обращения: 27.12.2010).

100. Языкознание.ру. Типы лингвистических моделей. Электронный ресурс. URL: http://yazykoznanie.ru/content/view/77/266/ (дата обращения: 27.12.2010).

101. Bradford Paley W. Textarc Электронный ресурс. URL: http://www.textarc.org/ (дата обращения: 27.12.2010).

102. Fomichov, Vladimir A. Semantics-Oriented Natural Language Processing. Mathematical Models and Algorithms. 2010, XXVI, 328 p. 20 illus., Hardcover

103. Indiana University. Library Electronic Text Resource Service. Textual Analysis Computing Tools (TACT) Электронный ресурс. URL: http://www.indiana.edu/4etrs/help-services/QuickGuides/about-tact.html (дата обращения: 27.12.2010).

104. Kanevsky, D., Monkowsky, M., Sedivy, J. Large Vocabulary Speaker-Independent Continuous Speech Recognition in Russian Language // Proc. SPECOM'96. St.-Petersburg, October 28-31, 1996.

105. Hastie, Т., Tibshirani, R., Friedman, J. The Elements of Statistical Learning. — Springer, 2001.

106. Jurafsky, D., Martin James, H. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Prentice-Hall, 2000.

107. Manning, С., Schutze H. Foundations of Statistical Language processing. The MIT Press, 1999.

108. Nahm, U., Mooney, R. Mining soft-matching rules from textual data. WA, 2001.

109. Sebastiani, F.: Machine learning in automated text categorization, ACM Computing Surveys, vol. 34, pp. 1-47, 2002.

110. SRILM The SRI Language Modeling Toolkit. Электронный ресурс. http://www.speech.sri.com/projects/srilm (дата обращения: 02.06.2011).

111. GATE General Architecture for Text Engineering. Электронный ресурс. URL: http://gate.ac.uk (дата обращения: 02.06.2011).

112. LingPipe. Электронный ресурс. URL: http://alias-i.com/lingpipe/index.html (дата обращения: 02.06.2011).

113. UIMA Unstructured Information Management applications. Электронный ресурс. URL: http: //uima. apache. org (дата обращения: 02.06.2011).