автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка и исследование моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста

кандидата технических наук
Бледнов, Андрей Михайлович
город
Ижевск
год
2007
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста»

Автореферат диссертации по теме "Разработка и исследование моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста"

На правах рукописи

БЛЕДНОВ Андрей Михайлович

УДК 519 767 6

ООЗОВУ

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МОДЕЛЕЙ И ИНФОРМАЦИОННОЙ ТЕХНОЛОГИИ СЕМАНТИКО-СИНТАКСИЧЕСКОГО АНАЛИЗА РУССКОЯЗЫЧНОГО ТЕКСТА

Специальность

05 13 18 — Математическое моделирование, численные методы и комплексы программ, 05 13 01 — Системный анализ, управление и обработка информации (в машиностроении и вычислительной технике)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

2 4 МАЙ 2007

Ижевск 2007

003063135

Работа выполнена на кафедре вычислительной техники ГОУ ВПО «Ижевский государственный технический университет» (ИжГТУ)

Научный руководитель: кандидат технических наук,

профессор

Моченой Станислав Васильевич

Официальные оппоненты: доктор технических наук,

профессор

Мурынов Андрей Ильич (ИжГТУ)

доктор физико-математических наук, профессор

Летчиков Андрей Владимирович (ГОУ ВПО «Удмуртский государственный университет»)

Ведущая организация: ГОУ ВПО «Казанский государствен-

ный технический университет имени А Н Туполева» (КАИ), г. Казань

Защита состоится 30 мая 2007 г в 15 часов на заседании диссертационного совета Д 212.065.04 при ГОУ ВПО «Ижевский государственный технический университет» по адресу: 426069, г Ижевск, ул Студенческая, 7, корпус 1, аудитория 4

Отзыв на автореферат, заверенный гербовой печатью, просим выслать по указанному адресу на имя ученого секретаря диссертационного совета

С диссертацией можно ознакомиться в библиотеке ГОУ ВПО «Ижевский государственный технический университет».

Автореферат разослан 28 апреля 2007 г

Ученый секретарь диссертационного совета д т н , профессор

Б Я Бендерский

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность работы С развитием информационных технологий высокими темпами растут объемы информации по тем или направлениям развития науки и техники В качестве источников могут выступать различные информационные ресурсы (Интернет, лекции, электронные книги, диссертации, статьи, журналы и др ), представленные в текстовом виде Актуальность задачи компьютерного анализа текстовой информации связана с необходимостью обработки пользователем больших объемов неструктурированной информации по его профессиональной деятельности

Среди задач обработки текстов можно выделить следующие- автоматическое реферирование, автоматический машинный перевод, определение принадлежности текста конкретному автору, создание профессиональных каталогов и др

Основные методы анализа текста достаточно подробно изложены в трудах Апресяна ЮД, Виноградова ДВ »Гладкого A.B., Клосса БМ, Ко-жуновой О.С., Мельчука И Д , Солтона Г , Селезнева К., Супруна А Е , Тодца А , Трубецкого Н С , Филмора Ч., Финна В К , Фоменко А Т., Харина Н П , Шведовой Н Ю. и др Ряд современных усовершенствованных методов представлены в статьях Ермакова А Е , Леонтьевой H.H., Мозгового М В , Ппеш-ко В В , Сокирко А., Толпегина ПВ., Тузова В А и др За последние 10 лет реализованы и специализированные программные средства для анализа и поиска информации, например, такие как Cros (Кронос-Информ), diskMETA (ЗАО "МЕТА"), Oracle Text, ODB-Text (НПЦ «ИНТЕЛТЕК ПЛЮС»), TextAnalyst, инструменты компании Smartware, XANALYS Link. Explorer, «Аналитический курьер», инструменты компании Гарант-Парк-Интернет, «Медиалогия», «Система управления досье X-Files» и целый ряд других

Анализ текста предполагает извлечение семантически связанной, полезной для пользователя информации, которая может быть использована им при построении различных онтологий, классификаторов, банков данных, баз данных, баз и систем знаний, в том числе, профессиональных.

Однако можно отметить, что на текущий момент задачи автоматического проведения анализа русскоязычных текстов до конца не решены. Это связано, в первую очередь, с характерной особенностью русскоязычных текстов, отличающихся разнообразием и сложностью структуры предложений Существующие методы компьютерного анализа текста показывают относительно невысокие результаты на уровне семантического анализа предложений сложной структуры

Таким образом, существующие методы компьютерного анализа текста не полностью обеспечивают потребности конечных пользователей, связанные с обработкой русскоязычных текстов, автоматизацией процессов накопления и использования информационных ресурсов по различным направлениям профессиональной деятельности Указанные обстоятельства и обусловили выбор темы диссертационного исследования

Объектом исследования являются методы компьютерного анализа русскоязычного текста на естественном языке

Предметом исследования являются методы синтаксического и семан тического анализа русскоязычного текста

Цслыо диссертационной работы является разработка и исследование моделей и информационной технологии семантико-синтаксического анализ; русскоязычного текста, обеспечивающих эффективное решение экспертом задач, связанных со структуризацией текстовой информации и формированием информационных ресурсов

Решаемые задачи Для достижения поставленной цели требуется решение следующих задач:

- проведение оценки современного состояния проблем анализа русскоязычных текстов и выявление направлений возможных вариантов совершенствования методов анализа текста,

- разработка процедуры нормализации сложных предложений русскоязычного текста,

- построение статистической и векторной моделей текста;

- исследование методов сокращения объема текстовой информации,

- разработка информационной технологии семантико-синтаксического анализа;

- экспериментальная проверка предложенных решений анализа русскоязычных текстов на базе специально созданной компьютерной программы

Методы исследований. Теоретические исследования выполнены с применением методов системного анализа, метода аналогий, теории графов и математической логики, методов искусственного интеллекта

Исследование базируется на всестороннем анализе отечественных и зарубежных источников, сравнительном анализе известных программных продуктов компьютерной обработки текстовой информации

Экспериментальные исследования выполнены с помощью разработанного программного комплекса анализа текстовой информации

Достоверность и обоснованность результатов подтверждены теоретическими и экспериментальными исследованиями по анализу текстов различных предметных областей, выполненными на базе специально разработанного программного комплекса «ТЕКСТАН»

На защиту выносятся предлагаемые модели анализа текстовой информации, а также результаты исследования предложенных методов

- статистическая модель текста,

- векторная модель текста,

- векторная технология анализа текстовой информации,

- метод нормализации сложных предложений,

- структурная схема и ГОЕРО-диаграмма процессов анализа текстовой информации в программной системе, созданной на основе предложенных моделей и технологии;

- сравнительный анализ результатов работы известных компьютерных * -. программ с результатами работы разработанного компьютерного комплекса «ТЕКСТ АН»

Научная новизна полученных результатов заключается в следующем

- разработана векторная модель представления текста, основанная на целевой функции структурной единицы текста,

- разработан метод нормализации сложных предложений русскоязычных текстов,

- разработана информационная технология анализа русскоязычного текста, включающая в себя этап предварительного анализа и этап семан-тико-синтаксического анализа текста, при этом, на этапе предварительного анализа текста осуществляется сокращение объема текстовой информации за счет направленной фильтрации с использованием статистических методов анализа, а на этапе семантико-синтаксического анализа проводится качественный разбор и осуществляется структуризация текста, представляемая в виде развернутого плана анализируемого текстового документа.

Практическая полезность. Разработанные модели и технология анализа русскоязычных текстов позволяют повысить эффективность систем анализа текста за счет.

- направленной фильтрации на этапе предварительной обработки и уменьшения за счет этого объема обрабатываемой информации,

- применения векторной технологии анализа текста, обеспечивающей высокий уровень структуризации текста и формирование развернутого плана анализируемого текстового документа для работы эксперта,

- применения процедуры нормализации сложного предложения, обеспечивающей однозначное разбиение сложного предложения на множество простых

Полученные результаты могут быть применимы для дальнейшей научной разработки принципов и методов, связанных с разработкой профессионально-ориентированных информационных систем и формированием соответствующих информационных ресурсов

Разработанная информационная технология может быть использована при решении следующих задач анализа и обработки русскоязычных текстов

- классификации объектов,

- разработки систем информационного поиска,

- формирования информационных ресурсов,

- разработки технологий машинного перевода,

- разработки модулей проверки правописания,

- разработки диалоговых систем,

- определения авторства;

- создания spam - фильтров для электронной почты,

- синтеза текстовой информации и др.

Практические рекомендации по решению указанных выше задач могут быть использованы в деятельности образовательных учреждений, коммерческих и других предприятий при создании и использовании соответствующих информационных ресурсов

Реализация результатов работы. Основные положения, модели и тех-

нология обработки русскоязычных текстов реализованы автором в виде программного комплекса «ТЕКСТАН» Данный программный комплекс разработан как часть программного обеспечения информационной системы Иж-ГТУ и применен при формировании «Фонда электронных изданий» (создание онтологии предметных областей, формирование рефератов, выделение метаинформации) по направлению «Информатика и вычислительная техника»

Программный комплекс «ТЕКСТАН» послужил прототипом создания АРМ преподавателя для подготовки к лекционным и практическим занятиям Апробация работы. Основные положения диссертационной работы докладывались на следующих конференциях- Научно-техническая конференция с международным участием в рамках форума «Высокие технологии -2004», ноябрь 2004, г Ижевск, Технологии информатизации профессиональной деятельности (в науке, образовании и промышленности), Ижевск, 23-26 ноября 2004 г; Международная научная конференции аспирантов «Управление экономикой в условиях интеграции хозяйственных систем», г. Ижевск, 18-20 апреля 2005 г., Межрегиональная научно-практическая конференция «Реализация стратегии устойчивого развития города Ижевска опыт и проблемы, г Ижевск, 28 сентября 2005 г., Современные информационные технологии и письменное наследие от древних рукописей к электронным текстам материалы международной научной конференции, г. Ижевск, 13-17 июля 2006 г, на рабочих семинарах, проводимых Управлением информатизации и Центром телекоммуникаций и технологий Интернет ИжГТУ по вопросам создания «Фонда электронных изданий» и организации дистанционного обучения

Публикации. По материалам диссертации опубликовано 6 статей Структура и объем работы определены целью и задачами исследования Работа состоит из введения, четырех глав, заключения, библиографии и приложений Основной текст изложен на 120 машинописных страницах с иллюстрациями Список литературы включает 102 наименования

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность работы, сформулированы цель и перечень решаемых задач. Кратко изложено содержание работы, сформулированы научная новизна и практическая полезность

В первой главе диссертационной работы описаны существующие методы и подходы к анализу текстовой информации Основное внимание уделено особенностям анализа русскоязычных текстов

Принято выделять четыре основных уровня анализа текста на естественном языке Эти уровни выполняются друг за другом в следующей последовательности. морфологический, синтаксический, семантический и прагматический

Целью и результатом морфологического анализа является определение морфологических характеристик слова и его основных словоформ

В процессе синтаксического анализа определяются взаимосвязи между

отдельными словами и частями предложения

Семантический анализ текста направлен в основном на выявление смысла слов и именованных групп

Прагматический анализ направлен на раскрытие взаимодействия автора и читателя, устанавливает меру полезной информации в тексте, ориентируясь на типологию читателя текста Здесь решаются такие вопросы как определение типа текста, определение авторства, эпохи написания и т п

На сегодняшний день задачи морфологического и некоторые процедуры решения задач синтаксического уровня достаточно хорошо разработаны Основная проблема, связанная с качественным анализом текста, заключается в сложности выделении семантики того или иного текста или его структурных единиц, а также большими объемами перерабатываемой информации Объем анализируемой информации можно существенно сократить за счет применения направленной фильтрации, основанной на использовании статистических характеристик текста В то же время, решение задачи выявления семантики является сложным и трудоемким процессом и требует использования специальных семантических словарей, создание которых также требует разработки специальных процедур и связано со значительными затратами времени.

Следует отметить, что для выявления роли отдельных слов или предложений не требуется выяснять их смысл Достаточно выделить их значимость и роль среди других структурных единиц текста, а выяснение смысла текста целесообразно возложить на эксперта, предоставив ему полноценную контекстную, хорошо структурированную информацию, получаемую в процессе анализа Предлагаемый подход основывается не только на выделении значений слов или именованный групп, но и основывается на анализе текста с учетом динамики его построения

Таким образом, для сокращения объемов анализируемой информации и проведения качественного анализа русскоязычного текста необходимо решить следующие задачи.

- разработать статистическую модель текста,

- разработать методы семантико-синтаксического анализа и структуризации текста,

- разработать алгоритмы и компьютерные программы реализации разработанных моделей и технологии анализа текста,

- провести экспериментальные исследования разработанных методов и технологии анализа текста

В диссертационной работе основное внимание уделено разработке моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста, которые обеспечивают уменьшение объема анализируемого текста при сохранении семантики, и структуризацию текста для последующего использования результатов структуризации экспертом.

Во второй главе диссертационной работы описывается разработанная автором модель и метод статистического анализа текстовой информации

В данной главе описываются результаты исследований, проведенных с

целью определения статистических зависимостей, характеризующих текстовые документы из различных предметных областей

В ходе проведения экспериментов использовались русскоязычные тексты по научной и учебной тематике (лекции, статьи, методические указания и т п ) Составные части текстов, такие как рисунки, таблицы, формулы не анализировались. Общее количество текстов, на которых проводились исследования и эксперименты, составило порядка трехсот, каждый из которых содержал до 300 предложений различной сложности.

Целью исследований являлось изучение статистических зависимостей в тексте, связанных с особенностями построения отдельных предложений, абзацев, с возможностью проведения направленной фильтрации для сокращения объема информации, с формированием рефератов, с решением других задач

В работе предлагается следующая математическая модель текста, используемая для проведения направленной фильтрации и решения выше перечисленных задач

Модель текста Т представляется в виде набора абзацев А и соответствующих атрибутов

Г= (1)

где А^ка.Ь^а) - ;-ый абзац, ( = 1 п ка - количество абзацев в 1-ом тексте,

¿о - средняя длина абзацев, выражаемая числом предложений в абзаце, ¿а - среднеквадратическое отклонение длины абзацев,

В свою очередь, каждый абзац А представляется в виде

А = (2)

где Р/кр,Ьр,.^р) -}-ое предложение 1-го абзаца, г = 1 к кр - количество слов ву-ом предложении,

Ьр — средняя длина предложений, выражаемая через число слов в предложении;

- среднеквадратическое отклонение длины предложений, На основе разработанной модели предложен метод статического анализа текста

Сущность метода статического анализа текста заключается в выделении абзацев, предложений и слов, вычислении количественных статистических характеристик текста и применения их для организации направленной фильтрации

Задача направленной фильтрации состоит в том, чтобы выбрать только те абзацы или предложения, которые удовлетворяют заданным условиям

Д-Г/У&Ав), (3)

где У(к,Ь,$) - заданные условия

к - заданное максимальное число слов в предложении, Ь - заданная в словах средняя длина предложения, .у - заданное в словах среднеквадратическое отклонение длин предложений

Для фильтрации текстов использовались статистические количественные характеристики распределения длин предложений Пример распределения количества слов в предложениях для экономического текста представлен на рис 1 В частности, данные характеристики использовались для выделения заголовков, отдельных тем, основного содержания текста, формирования реферата, сокращения объема текста при сохранении смыслового содержания

45

40 -

| 35

% 30 о

§ 25 8. 20-о 15 | 10 -т 5 О

<1 <2 <4 <6 <8 <10 <12 <14 <16 <18 <20 <22 <24 <26 <28 <30 <32 <34 кол-во слов в предложении

Рис 1 Пример распределения количества слов в предложениях для экономического текста В работе дается интерпретация результатов исследования статистической модели текста на основе различных характеристик распределений единиц текстовой информации (предложений и абзацев)

Возможности статистической модели и связанного с ним статистического метода анализа текста проверялись на текстах по экономической, экологической и правовой тематике

В табл приведены значения статистических характеристик распределений количества слов в предложениях для трех типов текстов

Статистические характеристики распределения количества слов в предложениях

Показатель Экономический текст Экологический текст Правовой текст

Среднее значение 12,8 13,9 14,1

Среднеквадратическое отклонение 3,5 2,0 2,3

Эксцесс 35,3 31,4 28,8

Асимметрия 5,5 -4,9 -5,3

В работе показано, что статистические характеристики распределения длин предложений, такие как математическое ожидание, дисперсия, моменты высших порядков могут быть использованы в качестве интегральных характеристик, определяющих особенности построения русскоязычных текстов. В то же время, данные характеристики могут быть использованы для организации направленной фильтрации с целью сокращения объема информации и выделения информативных зон, удовлетворяющих заданным условиям При этом, потеря ключевых слов при уменьшении объема информации на 50% за счет применения направленной фильтрации составляла величину порядка 14-

В третьей главе рассматриваются вопросы, связанные с разработкой алгоритмов морфологического, синтаксического и семантического анализа текста

Как отмечалось выше, задачи морфологического анализа текста достаточно хорошо решены Поэтому основное внимание в работе уделено разработке методов, связанных с семантико-синтаксическим анализом текста В работе рассматривается трехуровневая модель текста Первый уровень — уровень абзаца

где Т' - текст,

Ат — т-ът абзац текста, т = 1 . ка,

На этом уровне определяются такие характеристики как объем текста Q, (измеряемый количеством слов), количество абзацев ка и длина абзацев Ь 'а (выражаемая числом предложений)

Второй уровень — уровень предложения-

где А' - абзац текста,

Рк - к-ое предложение абзаца, к = 1 . Ь 'а.

На этом уровне вычисляется длина предложений Ь'р (измеряемая количеством слов), тип предложений /р, вид предложений V,, и класс предложений ср

Третий уровень - уровень слова

19%

Т'={Аа},

(4)

(5)

где Р' - предложение,

- слово предложения, V = 1 . Ь'р

На этом уровне определяются морфологические характеристики Рт (части речи, род, одушевленность, число, падеж, грамматические особенности) и синтаксические характеристики Л (переходность глагола, вид глагола, залог, форма глагола, время, лицо, принадлежность к концепту (именной группе) и др) характеристики каждого слова

Как было показано во второй главе количественные характеристики текста (длина абзацев, длина предложений и их статистические характеристики) характеризуют тип предложения или тип текста, но не позволяют определить их семантику

В данной главе, для понимания роли предложений в структуре текста были проанализированы группы предложений информативных зон, выбираемых из текстов по различной тематике с использованием направленной фильтрации Проведенные исследования позволили выделить следующие ролевые функции предложения

- связующую fi (определяющую тип связи Бр между предложениями в тек-

- структурную /2 (определяющую предложение как базовую структуру для формирования ключевых слов и именных групп),

- семантическую /3 (определяющую значимость предложения в структуре абзаца или текста).

Ключевой проблемой анализа текста является построение действующей модели предложения как формализованной структуры, которая обеспечивает его интерпретацию При этом ролевые функции являются основными атрибутами модели предложения

В работе с целью формализации и обеспечении возможности последующего автоматического анализа текста предложена векторная модель текста, основанная на использовании ролевых функций предложений.

Математическая интерпретация векторной модели текста (ВМТ-метод) некоторого законченного фрагмента, состоящего, например, из глав, содержащих абзацы, которые, в свою очередь, состоят из предложений, выражается следующим образом

где С - множество глав, С, - 1-ая глава, / = 1. И, Vg - множество векторов целей глав, - вектор цели 1-ой главы

В свою очередь,

сте),

С? — {С7Ь С?2. , <5,, ., Он), У8={У8„У82. ,У8„),

I,

(7)

Л/= {А,\,Аа,.. ,А„ш...,Ат}, {Га,ь Уаа, , Уа,3, , Уат),

' "ч.

где А, - множество абзацев 1-ой главы,

A,j-j-ый абзац i-ой главы, j= 1 п, Va, - множество векторов целей абзацев, Vcty - вектор цели j-ого абзаца i-ой главы

Математическая интерпретация векторной модели для предложений выражается в следующем виде

Рц = {/> Р,д , ■ , P.jj, ,Рк), Vp.j = {Vp,j,, Vp.,2, , Vp,jJt ., Урцк}, (9)

где Pv - множество предложений i-ой главы j-го абзаца,

Pijh — d-oe предложение i-ой главы j-го абзаца, d= 1 к,

Vpij - множество векторов целей предложений i-oii главы j-го абзаца,

Vpijh — вектор цели h-ого предложения i-ой главы j-го абзаца

Таким образом, каждому структурному элементу текс га ставится в соответствии некоторый вектор цели При этом вектор цели предложения выделяется на семантическом уровне, а векторы цели абзацев, глав и текста формируются по результатам выделения векторов целей предложений Модель вектора цели представляется в виде трех компонент: Vbegin — начальная цель, выражаемая через начальный вектор X с заданными координатами;

Vend - конечная цель, выражаемая через конечный вектор Y с заданными координатами,

2 - вид связи между начальным вектором X и конечным вектором У В качестве координат вектора могут выступать отдельные слова, именные группы, отдельные предложения или абзацы

Для ВМТ-метода выделены следующие типы векторов

1) простой вектор- V = (X) или V = (К) со связью Z,

2) нулевой вектор: V = (0),

3) полный вектор V = {X, ?) со связью Z,

4) пустой вектор- V = (X, F) без связи Z,

5) левый вектор V =(Х),

6) правый вектор V =(У)

В свою очередь вектора X и У могут состоять из подвекторов Каждая координата вектора цели имеет свои атрибуты atr, которые могут выражаться через временные или пространственные характеристики.

Состав координат вектора цели предложения или абзаца определяется, в общем случае, сложностью их построения Соподчиненность отдельных частей сложного предложения может быть устранена путем разбиения его на множество простых предложений

Для приведения всех типов предложений к стандартной форме в ВМТ-методе предусматривается этап нормализация предложений

Процедура нормализация предложения включает в себя, в общем случае, следующие этапы:

1) определение типа и вида предложения,

2) удаление неинформативных слов,

3) разбиение сложного предложения на части;

4) устранение отрицания

Тип предложения ^ определяется исходя из принятой классификации предложений Особые трудности при автоматизации процессов анализа возникают в связи с наличием в тексте сложных предложений типа сложносочиненных, сложноподчиненных, бессоюзных, которые определяют класс предложений ср с многоуровневой семантикой Описываемая далее информационная технология анализа текста базируется на ВМТ-методе и позволяет выявить эту семантику.

В процессе выявления понятий и определения однородных членов предложения определяются именные группы, являющиеся множествами текущих координаг вектора ¥р.

Устранение отрицания направлено на упрощение структуры вектора цели предложения при сохранении семантики исходного предложения

После процедуры нормализации осуществляется выявление связей 2 векторов целей полученных предложений.

Под семантикой в рассматриваемой информационной технологии анализа текста понимается «значение» единиц языка (слов и предложений) и отношения, характеризующие связи между соответствующими уровнями представления этих единиц При этом под понятием «значение единиц языка» здесь понимается их принадлежность к морфологическим и семантико-синтаксическим группам На уровне слов это означает отнесение их к частям речи, падежам и т д, на уровне предложений - отнесение к типу, виду и классу предложений Таким образом, через значения единиц языка формируются векторы цели Смысл же того или иного предложения, абзаца или текста определяется экспертом

В соответствии с описываемой в данной главе информационной технологией анализа текста вектора целей абзацев и последующих более высоких уровней представления текста формируются на основе векторов целей предложений Итерационная процедура формирования таких векторов цели включает в себя следующие этапы1

- формирование вектора цели предложения на данном уровне итерации,

- выделение именованных групп,

- сопоставление именованных групп другим именованным группам в

структуре всего текста;

- выявление уровней подчиненности именованных групп;

Рассмотрим применение данной информационной технологии анализа

текста на следующем примере.

Пусть заданы следующие предложения для анализа*

«Во все времена люди сталкиваются с одними и теми же проблемами экономики Они всегда заботятся об удовлетворении своих потребностей посредством развития и совершенствования производства материальных благ и услуг»

Оба предложения простые, поэтому имеем два вектора Ур\(х\,У\) (гх) и Ург(хх,уг) (г2)

Координаты и атрибуты первого вектора Ур1. координата X] = {люди}, координата_у/ = {проблемы экономики}, связь г/ = (сталкиваются), атрибуты координаты X/ - ах/ = {во все времена}, а атрибуты координаты» - аУ1 = {одни и те же}.

Координаты и атрибуты второго вектора Ур2 х2 = {люди}, координата У2 = {удовлетворении своих потребностей}, связь г2 — (заботятся), атрибуты координаты X/ - ах/ = {всегда}, атрибуты координаты у2 - ау2 = {посредством развития и совершенствования производства материальных благ и услуг}.

Устранение отрицания иллюстрируется на примере анализа следующего предложения

«Основные положения меркантилизма являются результатом не теоретического анализа хозяйственной жизни, а просто описания наблюдаемых явлений и отчасти их классификации»

После выполнения процедуры нормализации получаем «Основные положения меркантилизма являются результатом просто описания наблюдаемых явлений и отчасти их классификации» В данном примере один вектор Ур 1(^1 ,^1) (гО

Здесь координата х/ = {основные положения меркантилизма}, координата у\ — {результатом описания наблюдаемых явлений и отчасти их классификации}, связь г/ = (являются)

Атрибут координаты у/ - ау/ = {не теоретического анализа хозяйственной жизни}

Таким образом, основу предложенной информационной технологии анализа текста составляют следующая последовательность процедур

- нормализация предложений,

- выделения векторов целей предложений,

- выделения векторов цели абзацев и последующих уровней представления текста (итерационная процедура)

Разработанная информационная технология включает в себя все уровни анализа текста морфологический, синтаксический и семантический. Если методы первого уровня мало чем отличаются от известных, то методы, применяемые на втором и третьем уровнях анализа текста разработаны с учетом специфических особенностей построения предложений русскоязычного текста, рассматриваемого как множество векторов целей

В четвертой главе описываются архитектура системы анализа текста, которая была разработана и использована для проведения экспериментальных исследований Система анализа текста реализована в виде программного комплекса «ТЕКСТАН» (ПК «ТЕКСТАН») Архитектура системы представлена на рис 2 и включает в себя лингвистический процессор, семантический анализатор, морфологический и семантический словари В основу работы системы положены методы и технология, описанные в главах 2 и 3 С помощью ПК «ТЕКСТАН» можно проводить направленную фильтрацию текста,

структуризацию текста, создавать и пополнять, в т ч и автоматически, тематические рубрикаторы, выделять ключевые понятия, формировать рефераты ПК «ТЕКСТАН» может быть использован в качестве АРМ специалиста конкретной профессиональной области

Система работает следующим образом На вход лингвистического процессора поступает текст для анализа, происходит разбиение предложений на множество простых, затем происходит выделение составных слов После процедуры морфологического анализа, происходит устранение омонимии и выполняются этапы синтаксического и семантико-синтаксического анализа Результаты работы лингвистического процессора поступают на вход семантического анализатора, где после разрешения референтности и анафорично-сти происходит выделение векторов цели предложений и формирование векторов цели абзацев

Текст для анализа

Массив

текстов^

Лингвистическая информация

Настройки разрешения ко референтности

Правиле извлечения информации

Разбиение на предложения

г

Выделение составных слов

£ о.

Л 8

£ о 11-

Морфологический анализ

.......1........

Устранение омонимии

........т

Синтаксических анализ

Семантимхмнтаксический анализ

V ' Разрешение кореферентности

I Г"..............У

| ---

„ ||—

Разрешение анафоричиости

±

Применение правил выделения векторов цели

Объединение векторов цели

Результаты

Рис 2. Архитектура системы «ТЕКСТАН»

Экспериментальные исследования разработанных моделей, алгоритмов и методов проводились на текстах различных предметных областей техническом, экономическом, экологическом и правовом

В ходе проведения экспериментов решались такие задачи как проверка правильности выделения именованных групп, определения ключевых слов, выделение векторов цели предложений и абзацев, структуризация текста

На рис 3 показаны результат работы системы при проведении семантического анализа сложного предложения В поле 1 представлено исходное предложение для анализа, а в поле 2 - семантическое дерево разбора. Данный результат, подтвержденный экспертной оценкой, свидетельствует о правильной работе семантического анализатора

Одновременно рис 3 иллюстрирует результат работы системы при

выделении векторов цели предложения. Экспертный анализ результатов показывает, что система правильно выделила три вектора цели;

1. «Реформа системы осуществляемая в России»;

2. «Реформа системы требует подхода»;

3. «Подхода основывается на законах и принципах управления» (леммэтилированная форма: «Подход основывается иа законах и принципах управления»).

.г ТЕКСТАМ

Файл Прарка Вил Анаяю Сервис данощь

V ла *)

. й--'-

В нгютоящее время реформа политической системы, осуществляемая в Росс*«, требует научного подхода к государственному и муниципальному управлению, который основывается не объективных законах и принципах утр зеленил

реформа системы осуществляемая в Росс»« 0 реформа

в паслояшъе врет

реформе системы требует подхода 0- подходе | некого В- к управлению

Й упраеданаю

государственному и муниципальному подхода основывается на законе* и принципе« управления 0 законах

объективных

К2)

Рис.3. Результат семантического анализа

На рис.4. представлены результаты нахождений именованных групп И выделения среди них ключевых понятий.

.Г ТЕКСТАМ

Файл Правка Вид Аналиэ Сервис Помощь

ПИ га|£М ?Ш|й|

В настоящее время реформа политической системы, осуществляемая в России, требует научного подхода к государственной и муниципальному управлению, который основывается на объективных законах и принципах управлений

реформа системы о< Ш реформа системы те № подюжа основывает ■|р»Формв политической системы ■1нау#юго подхода I государстве«*»^ и мутнипальному управлешю II объективных законам —" Итмиипах ^рмпения

М 1 2] ■[реформа политической системы »научного подхода

Рис. 4. Результаты нахождения именованных групп и выделения ключевых понятий

На рис, 4, именованные группы представлены в поле 3, а выделенные ключевые слова: «реформа политической системы», «научного подхода» (лемматизированная форма: «научный подход») в поле 4.

По результатам экспертной оцеики, можно отметить, что операция нахождения ключевых слов среди выделенных именованных понятий проведена правильно.

На рис. 5 представлен другой вариант формирования вектора цели сложного предложения, который включает в себя два подвектора, Данный разбор также подтверждает правильность работы системы. В данном случае первый вектор цели Ур1: принцип (хГ), состоит (г/), [Ур2, УрЗ] (у!).

Первый вектор цели Ур1 содержит координату х («принцип»), связь г («состоит») и координату у, которая является составным вектором, имеющим два подвектора Ур2, УрЗ:

Ур2: ЭВМ (х2), изготавливается (г2), в виде набора модулей (V-?).

УрЗ: модулей (л'З), имеющих (гЗ), оформление и алгоритмы обмена информацией (уЛ).

»С ТЕКСТ^Н ;И§ ШЕ^Ш!

Файл Правка Вид Диализ Сервис Помощь

ш

Модульный принцип состоит в том, что ЭВМ изготавливаются в виде набора самостоятельны« Функциональны« модулей, имеющим закончеиюе стандартнее конструктивное оформление и алгоритмы (протоколы) обмена информацией.

0 ВТОМ ЭВМ изготавливаются в воде набора моделей модулей имеющих оформление и алгоритмы обмена информацией

Рис.5. Вектор цели предложения с подвекторами

На рис. 6. показана возможность структуризации текста на основе группы выделенных векторов абзацев. Данный подход позволяет создавать тематические каталоги, представлять тексты в форме значимых, обобщающих понятий, представленных в виде иерархической структуры с несколькими уровнями вложений, что может быть использовано экспертом для организации тематических каталогов, рубрикаторов, автоматизации направленного поиска требуемой информации, реферирования.

файл главке вид Аналт Сервис Поношь

ВЫ и1«И 91В1Ы

Модульный принцип состоит в том что ЭВМ изготавливаются в виде наборе самостоятельный функциональных модулей, «иеюцих законченное стащартное конструктивное оформление и алгоритмы (протоколы) обмана информацией

Это означает, что структура любой реальной ЭВМ может синтезироваться в соотоетстеш с тем классом задач, который предполагается реализовать. Такой псйяой к построению ЭВМ открывает широчайшие возможности для использования машин, в том числе и для решения задач АСУ ТП. Пользователь может создавать конфигурацию вычислительной системы, наиболее полно ^оалет воряющвй его потребностям

Достоинство модульного принципа состоит в том, что пользователь создает набор внешних устройств в соответствии с решаемой задачей либо из стащартньй модулей, /ибо из блоке» собственной разработки. Однако такой подход не позволяет разработчику ЭВМ априори предусмотреть все требуемые связи между будущими блоками, Конфликтная ситуация между 1**тересами потребителя и разработчика разрешалась за счет создания некоторого специального устройства (магистрали), предназначенного л ля организации обмена информацией между любыми проиэво льнычи модулями, но по строго стаццарпым алгоритмам (протоколам) и со станаартным конструктивным подключением]

Модульнья! принцип

(В - МсйупьныА пр»щип В Достоинство модульного принципа

Рис.6. Структуризация текста на основе выделенных векторов целей абзаца

ПК «ТЕКСТАМ» разработан как часть программного обеспечения информационной системы ИжГТУ и применен при формировании «Фонда электронных изданий» (создание онтологии предметных областей, формирование рефератов, выделение мета информации) по направлению «Информатика и вычислительная техника»,

ПК «ТЕКСТАН» послужил прототипом создания АРМ преподавателя для подготовки к лекционным и практическим занятиям.

Па основе проведенных исследований и экспериментов с использованием программного комплекса «ТЕКСТАН» были получены следующие результаты (приводятся экспертные оценки):

- потеря ключевых слов при уменьшении объема информации на 50% за счет применения направленной фильтрации составляет 14-19%;

- в 90% случаях, результаты работы ПК «ТЕКСТАН» и эксперта при проведении семантического анализа совпадали;

- вероятность правильного т.1 деления ключевых слов по оценке экспертов находится на уровне 0,95;

- в 76% случаях качество реферата, полученного с помощью ПК «ТЕКСТАН» удовлетворяло запросам эксперта;

- вероятность правильного отнесения текста к определенной предметной области на основе экспертных оценок составляет 0,82 - 0,86 (при наполнении классификатора предметных областей ключевыми понятиями, которые определяют заданную предметную область, точность результатов увеличивается).

Необходимо заметить, что разработанная информационная технология

анализа текста, основанная на ВМТ-методе может быть использована для наполнения баз знаний необходимыми данными Кроме того, данная технология может быть применена в системах анализа текста, использующих технологию на основе фреймов (создании соответствующего конвертора преобразования вектора в цели в формат фрейма) В приложении представлены

- результаты сравнительного анализа качества разбора предложений на семантическом уровне с использованием ПК «ТЕКСТАН» и ПК Dialing (модуль Semantics) Данные результаты свидетельствуют о том, что с использованием ПК «ТЕКСТАН» семантический анализ сложных предложений проводится значительно качественнее,

- результаты работы системы при проведении семантического анализа группы сложных предложений,

- структурная схема и IDEFO-диаграмма процессов анализа и обработки текста в системе «ТЕКСТАН»

ЗАКЛЮЧЕНИЕ

В работе получены следующие основные выводы и результаты 1. Характерной особенностью русскоязычных текстов является разнообразие и сложность структуры предложений Существующие методы компьютерного анализа текста показывают относительно невысокие результаты на уровне семантического анализа предложений сложной структуры

2 Повышение эффективности анализа текста в данной работе достигается путем разработки соответствующих моделей и информационной технологии, основанной на векторном представлении текстовой информации

Разработанные модели и информационная технология анализа русскоязычных текстов позволяют повысить эффективность систем анализа текста за счет

- направленной фильтрации на этапе предварительной обработки и уменьшения за счет этого объема обрабатываемой информации;

- применения векторной технологии анализа текста, обеспечивающей высокий уровень структуризации текста и формирование развернутого плана анализируемого текстового документа для работы эксперта,

- применения процедуры нормализации сложного предложения, обеспечивающей однозначное разбиение сложного предложения на множество простых

3 Разработана процедура нормализации сложных предложений русскоязычного текста

4 Построена статистическая и векторная модели текста

5 Разработана информационная технология семантико-синтаксического анализа

6 Выполнены экспериментальные исследования предложенных решений анализа русскоязычных текстов на базе специально созданного ПК «ТЕКСТАН»

7 Применение разработанной информационной технологии анализа

русскоязычных текстов позволяет автоматизировать многие процессы, св занные с созданием и использованием информационных ресурсов профе сиональной направленности

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Бледнов А М, Моченов С В , Луговских Ю А Применение статистич! ских методов при анализе текстовой информации // Технологии И1 форматизации профессиональной деятельности (в науке, образовании промышленности) Сб тр науч -техн конференции с междунар уч; стием в рамках форума «Высокие технологии-2004», Ижевск, НИ «Регулярная и хаотическая динамика», 2005, с 354 - 359

2 Моченов С В , Бледнов А М , Луговских Ю А Использование стат! стических методов для семантического анализа текста // Технологи информатизации профессиональной деятельности (в науке, образовг нии и промышленности) Сб тр науч -техн конференции с междунар участием в рамках форума «Высокие технологии - 2004, Ижевск, НИ1 «Регулярная и хаотическая динамика», 2005, с 360 -365

3 Моченов С В , Бледнов А М , Луговских Ю А Применение системное анализа и синтеза текстовой информации в информационных техноло гиях управления муниципальными службами // Сборник тезисов док ладов Межрегиональной научно-практической конференции «Реализа ция стратегии устойчивого развития города Ижевска, опыт и пробле мы» - Ижевск- ИРТ, 2005 -С 195-196

4 Бледнов А М , Моченов С.В , Луговских Ю А. Об одном методе статистической фильтрации текстовой информации. // Современные информационные технологии и письменное наследие, от древних рукописей к электронным текстам материалы междунар науч конф (Ижевск, 1317 июля 2006 г) - Ижевск Изд-во ИжГТУ, 2006 С 126-130

5 Бледнов А М , Моченов С В , Луговских Ю А Векторная модель представления текстовой информации - Современные информационные технологии и письменное наследие от древних рукописей к электронным текстам [Текст] материалы междунар науч конф (Ижевск, 13-17 июля 2006 г) / отв ред В А Баранов - Ижевск Изд-во ИжГТУ, 2006 -С 136-145

6 Бледнов А М Применение векторной модели представления текстовой информации для пополнения базы знаний // Вестник ИжГТУ период науч -теор Журн ИжГТУ - 2006 - №4 Ижевск Изд-во ИжГТУ, 2006 С. 56-60

Подписано в печать 26 04 07 Формат 60x84/16 Бумага офсетная Уел печ л 1,0 Тираж 100 экз Заказ 217 Отпечатано в типографии Издательства ИжГТУ 426069, г Ижевск, Студенческая, 7

Оглавление автор диссертации — кандидата технических наук Бледнов, Андрей Михайлович

УСЛОВНЫЕ ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ.

ВВЕДЕНИЕ.

1. ТЕОРЕТИЧЕСКИЙ ОБЗОР МЕТОДОВ АНАЛИЗА ТЕКСТА.

1.1. Задачи обработки текстов.

1.2. Этапы анализа текста.

1.2.1. Общая схема обработки текстов.

7.2.2. Анализ отдельных слов.

1.2.3. Анализ отдельных предложений.

1.2.4. Семантический анализ.

1.3. Методы семантического анализа.

1.4. Комплексные интеллектуальные программные системы для обработки текстов.

1.5. Выводы и постановка задачи исследования.

2. РАЗРАБОТКА И ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ МОДЕЛИ ТЕКСТА.

2. 1. Статистическая модель текста.

2.2. Информационный портрет текста.

2.3. Выводы по главе.

3. ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ АНАЛИЗА ТЕКСТА.

3.1. Описание модели текста.

3.2. Этапы анализа текста.

3.3. Выделение векторов цели.

3.4. Выводы по главе.

4. СИСТЕМА АНАЛИЗА ТЕКСТА.

4.1. Архитектура системы и сценарий диалога.

4.2. Эксперименты с текстом.

4.2.1. Изучение статистических характеристик текста.

4.2.1. Выделение векторов цели.

4.3. Пополнение баз знаний на основе информационной технологии.

4.4. Выводы по главе.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Бледнов, Андрей Михайлович

С развитием информационных технологий высокими темпами растут объемы информации по тем или направлениям развития науки и техники. В качестве источников могут выступать различные информационные ресурсы (Интернет, лекции, электронные книги, диссертации, статьи, журналы и др.), представленные в текстовом виде. Актуальность задачи компьютерного анализа текстовой информации связана с необходимостью обработки пользователем больших объемов неструктурированной информации по его профессиональной деятельности.

Среди задач обработки текстов можно выделить следующие: автоматическое реферирование, автоматический машинный перевод, определение принадлежности текста конкретному автору, создание профессиональных каталогов и др.

Особую актуальность приобретает разработка методов извлечения и формирования новых знаний, необходимых для решения конкретных задач в той или иной профессиональной деятельности специалиста. Одним из стратегических направлений решения данной проблемы является комплексное системное использование различных лингвистических подходов и методов искусственного интеллекта, направленных на сокращение объемов хранимой информации, выявление семантической составляющей текста, определяющей основную идею, заложенную автором.

Проблеме анализа текстовых документов посвящено значительное количество работ [1, 2, 7,16, 18, 20, 21, 26, 37, 41 - 45, 60, 64, 66, 81-83, 88-90, 94-98]. В качестве широко используемых методов компьютерного анализа выделяют статистические и лингвистические методы [4, 31, 33, 48, 57, 66, 71, 80, 87].

Статистические методы достаточно хорошо зарекомендовали себя при построении поисковых систем, выделении ключевых слов и словосочетаний и т.п. В основном в них используются общие законы теории вероятности и математической статистики. Ряд алгоритмов основаны на использовании закона Зипфа [25].

В то же время, при решении задач анализа текстовой информации, возникающих при построении информационных систем, в частности, при формировании профессиональных баз знаний, требуется привлечение алгоритмически более сложных процедур проведения синтаксического и семантического анализа.

Основную часть знаний специалисты конкретной предметной области получают в результате сравнения, анализа и синтеза информации из разрозненных фактов, размещенных в текстах. При работе с большими потоками документов процесс автоматического структурирования текстовой информации заменяет экспертный процесс выделения фактографической информации и объектов, выполняемый вручную. В работе рассматривается использование новой технологии извлечения знаний из текстов на русском языке.

До 85% новых знаний пользователи получают, изучая тексты и в ближайшем будущем наиболее востребованными будут системы с максимально автоматизированными ETL-процессами (extract, transfer, load -сбор, выделение, преобразование, загрузка) структурирования контента [38]. Другой важной чертой современных технологий является наличие функции оперативного анализа информации, полученной по запросу для выбора дальнейшего направления исследования документов, выполняемой с помощью методов интеллектуального анализа текста.

Основные методы анализа текста достаточно подробно изложены в трудах Апресяна Ю.Д., Виноградова Д.В., Гладкого A.B., Клосса Б.М., Кожуновой О.С., Мельчука И.Д., Солтона Г., Селезнева К., Супруна А.Е., Тодда А., Трубецкого Н.С., Филмора Ч., Финна В.К., Фоменко А.Т., Харина Н. П., Шведовой Н.Ю. и др. Ряд современных усовершенствованных методов представлены в статьях Ермакова А.Е., Леонтьевой H.H., Мозгового М.В., Плешко В.В., Сокирко А., Толпегина П.В., Тузова В.А. и др. За последние 10 лет реализованы и специализированные программные средства для анализа и поиска информации, например, такие как Cros (Кронос-Информ), diskMETA (ЗАО "МЕТА"), Oracle Text, ODB-Text (НПЦ «ИНТЕЛТЕК ПЛЮС»), TextAnalyst, инструменты компании Smartware, XANALYS Link Explorer, «Аналитический курьер», инструменты компании Гарант-Парк-Интернет, «Медиалогия», «Система управления досье X-Files» и целый ряд других.

Анализ текста предполагает извлечение семантически связанной, полезной для пользователя информации, которая может быть использована им при построении различных онтологий, классификаторов, банков данных, баз данных, баз и систем знаний, в том числе, профессиональных [17, 19, 24, 27, 53, 69].

Однако можно отметить, что на текущий момент задачи автоматического проведения анализа русскоязычных текстов до конца не решены. Это связано, в первую очередь, с характерной особенностью русскоязычных текстов, отличающихся разнообразием и сложностью структуры предложений. Существующие методы компьютерного анализа текста показывают относительно невысокие результаты на уровне семантического анализа предложений сложной структуры.

Таким образом, существующие методы компьютерного анализа текста не полностью обеспечивают потребности конечных пользователей, связанные с обработкой русскоязычных текстов, автоматизацией процессов накопления и использования информационных ресурсов по различным направлениям профессиональной деятельности. Указанные обстоятельства и обусловили выбор темы диссертационного исследования.

Объектом исследования являются методы компьютерного анализа русскоязычного текста на естественном языке.

Предметом исследования являются методы синтаксического и семантического анализа русскоязычного текста.

Целью диссертационной работы является разработка и исследование моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста, обеспечивающих эффективное решение экспертом задач, связанных со структуризацией текстовой информации и формированием информационных ресурсов.

Для достижения поставленной цели требуется решение следующих задач:

- проведение оценки современного состояния проблем анализа русскоязычных текстов и выявление направлений возможных вариантов совершенствования методов анализа текста;

- разработка процедуры нормализации сложных предложений русскоязычного текста;

- построение статистической и векторной моделей текста;

- исследование методов сокращения объема текстовой информации;

- разработка информационной технологии семантико-синтаксического анализа;

- экспериментальная проверка предложенных решений анализа русскоязычных текстов на базе специально созданной компьютерной программы.

Методы исследований. Теоретические исследования выполнены с применением методов системного анализа, метода аналогий, теории графов и математической логики, методов искусственного интеллекта.

Исследование базируется на всестороннем анализе отечественных и зарубежных источников, сравнительном анализе известных программных продуктов компьютерной обработки текстовой информации.

Экспериментальные исследования выполнены с помощью разработанного программного комплекса анализа текстовой информации.

На защиту выносятся предлагаемые модели анализа текстовой информации, а также результаты исследования предложенных методов:

- статистическая модель текста;

- векторная модель текста;

- векторная технология анализа текстовой информации;

- метод нормализации сложных предложений;

- структурная схема и ГОЕРО-диаграмма процессов анализа текстовой информации в программной системе, созданной на основе предложенных моделей и технологии;

- сравнительный анализ результатов работы известных компьютерных программ с результатами работы разработанного компьютерного комплекса «ТЕКСТАН».

Научная новизна полученных результатов заключается в следующем:

- разработана векторная модель представления текста, основанная на целевой функции структурной единицы текста;

- разработан метод нормализации сложных предложений русскоязычных текстов;

- разработана информационная технология анализа русскоязычного текста, включающая в себя этап предварительного анализа и этап семантико-синтаксического анализа текста, при этом, на этапе предварительного анализа текста осуществляется сокращение объема текстовой информации за счет направленной фильтрации с использованием статистических методов анализа, а на этапе семантико-синтаксического анализа проводится качественный разбор и осуществляется структуризация текста, представляемая в виде развернутого плана анализируемого текстового документа. Практическая полезность. Разработанные модели и технология анализа русскоязычных текстов позволяют повысить эффективность систем анализа текста за счет:

- направленной фильтрации на этапе предварительной обработки и уменьшения за счет этого объема обрабатываемой информации;

- применения векторной технологии анализа текста, обеспечивающей высокий уровень структуризации текста и формирование развернутого плана анализируемого текстового документа для работы эксперта;

- применения процедуры нормализации сложного предложения, обеспечивающей однозначное разбиение сложного предложения на множество простых.

Полученные результаты могут быть применимы для дальнейшей научной разработки принципов и методов, связанных с разработкой профессионально-ориентированных информационных систем и формированием соответствующих информационных ресурсов.

Разработанная информационная технология может быть использована при решении следующих задач анализа и обработки русскоязычных текстов:

- классификации объектов;

- разработки систем информационного поиска;

- формирования информационных ресурсов;

- разработки технологий машинного перевода;

- разработки модулей проверки правописания;

- разработки диалоговых систем;

- определения авторства;

- создания spam - фильтров для электронной почты;

- синтеза текстовой информации и др.

Практические рекомендации по решению указанных выше задач могут быть использованы в деятельности образовательных учреждений, коммерческих и других предприятий при создании и использовании соответствующих информационных ресурсов.

Реализация результатов работы. Основные положения, модели и технология обработки русскоязычных текстов реализованы автором в виде программного комплекса «ТЕКСТАН». Данный программный комплекс разработан как часть программного обеспечения информационной системы ИжГТУ и применен при формировании «Фонда электронных изданий» (создание онтологий предметных областей, формирование рефератов, выделение метаинформации) по направлению «Информатика и вычислительная техника».

Программный комплекс «ТЕКСТАН» послужил прототипом создания АРМ преподавателя для подготовки к лекционным и практическим занятиям.

Апробация работы. Основные положения диссертационной работы докладывались на следующих конференциях: научно-техническая конференция с международным участием в рамках форума «Высокие технологии - 2004», ноябрь 2004, г. Ижевск; научная конференции «Технологии информатизации профессиональной деятельности (в науке, образовании и промышленности)», Ижевск, 23-26 ноября 2004 г.; международная научная конференции аспирантов «Управление экономикой в условиях интеграции хозяйственных систем», г.Ижевск, 18-20 апреля 2005 г.; межрегиональная научно-практическая конференция «Реализация стратегии устойчивого развития города Ижевска: опыт и проблемы, г. Ижевск, 28 сентября 2005 г.; международная научная конференция «Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам», г. Ижевск, 13-17 июля 2006 г.; на рабочих семинарах, проводимых Управлением информатизации и Центром телекоммуникаций и технологий Интернет ИжГТУ по вопросам создания «Фонда электронных изданий» и организации дистанционного обучения.

Публикации. По материалам диссертации опубликовано 6 статей.

Структура и объем работы определены целью и задачами исследования. Работа состоит из введения, четырех глав, заключения, библиографии и приложений. Основной текст изложен на 120 машинописных страницах с иллюстрациями. Список литературы включает 102 наименования.

Аннотация диссертационной работы по главам.

В первой главе диссертационной работы описаны существующие методы и подходы к анализу текстовой информации. Основное внимание уделено особенностям анализа русскоязычных текстов.

Во второй главе диссертационной работы описывается разработанная автором модель и метод статистического анализа текстовой информации.

В данной главе описываются некоторые результаты исследований, проведенных с целью определения статистических зависимостей, характеризующих текстовые документы из различных предметных областей.

В третьей главе рассматриваются вопросы, связанные с разработкой алгоритмов морфологического, синтаксического и семантического анализа текста.

Основное внимание в работе уделено разработке методов, связанных с семантико-синтаксическим анализом текста.

В четвертой главе описываются архитектура системы анализа текста, которая была разработана и использована для проведения экспериментальных исследований.

Экспериментальные исследования разработанных моделей, алгоритмов и методов проводились в основном на текстах следующих предметных областей: техническом, экономическом, экологическом и правовом.

В ходе проведения экспериментов решались такие задачи как проверка правильности выделения именованных групп, определения ключевых слов, выделение векторов цели предложений и абзацев, структуризация текста.

В заключении приведена общая характеристика работы, а также основные выводы и результаты диссертационного исследования.

Заключение диссертация на тему "Разработка и исследование моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста"

Выводы и рекомендации, полученные в результате проведенного в работе исследования, применимы для дальнейшей научной разработки принципов и методов решения актуальных проблем создания информационных ресурсов.

Методические подходы и практические рекомендации по решению ряда ключевых проблем анализа текстовой информации могут быть рекомендованы для использования образовательными учреждениями, коммерческими предприятиями в практической деятельности, а также в любой организации, использующей информационные ресурсы.

Основные положения диссертационной работы докладывались на следующих конференциях: научно-техническая конференция с международным участием в рамках форума «Высокие технологии - 2004», ноябрь 2004, г. Ижевск; научная конференции «Технологии информатизации профессиональной деятельности (в науке, образовании и промышленности)», Ижевск, 23-26 ноября 2004 г.; международная научная конференции аспирантов «Управление экономикой в условиях интеграции хозяйственных систем», г.Ижевск, 18-20 апреля 2005 г.; межрегиональная научно-практическая конференция «Реализация стратегии устойчивого развития города Ижевска: опыт и проблемы, г. Ижевск, 28 сентября 2005 г.; международная научная конференция «Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам», г. Ижевск, 13-17 июля 2006 г.; на рабочих семинарах, проводимых Управлением информатизации и Центром телекоммуникаций и технологий Интернет ИжГТУ по вопросам создания «Фонда электронных изданий» и организации дистанционного обучения.

Достоверность и обоснованность результатов подтверждены теоретическими и экспериментальными исследованиями по анализу различных текстов, выполненными на базе специально разработанного программного комплекса «ТЕКСТАН» анализа текстовой информации.

В настоящее время наиболее приоритетным направлением исследований автора данной работы является механизм пополнения баз знаний.

ЗАКЛЮЧЕНИЕ

Подводя итог проделанной работе, необходимо отметить ситуацию, сложившуюся в области компьютерного анализа текста на ЕЯ. На сегодняшний день задача обработки текстов на естественном языке является одной из наиболее актуальных проблем. Алгоритмы, опирающиеся на частотные характеристики текста (встречаемость слов, корреляция слов и т.п.) уже не дают адекватных результатов. Существующие методы компьютерного анализа текста показывают относительно невысокие результаты на уровне семантического анализа предложений сложной структуры. Это связано, в первую очередь, с характерной особенностью русскоязычных текстов, отличающихся разнообразием и сложностью структуры предложений.

Одним из способов повышения эффективность анализа русскоязычных текстов могут служить методы и информационная технология, основанные на векторном представлении текстовой информации. Подобное представление обеспечивает выражение основной идеи анализируемого текста путем раскрытия множества целей разного ранга, определяемых отдельными предложениями, абзацами, параграфами, главами и т.п.

Целью работы являлась разработка и исследование моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста, обеспечивающих эффективное решение экспертом задач, связанных со структуризацией текстовой информации и формированием информационных ресурсов.

В работе получены следующие основные выводы и результаты:

1. Характерной особенностью русскоязычных текстов является разнообразие и сложность структуры предложений. Существующие методы компьютерного анализа текста показывают относительно невысокие результаты на уровне семантического анализа предложений сложной структуры.

2. Повышение эффективности анализа текста в данной работе достигается путем разработки соответствующих моделей и информационной технологии, основанной на векторном представлении текстовой информации.

Разработанные модели и информационная технология анализа русскоязычных текстов позволяют повысить эффективность систем анализа текста за счет:

- направленной фильтрации на этапе предварительной обработки и уменьшения за счет этого объема обрабатываемой информации;

- применения векторной технологии анализа текста, обеспечивающей высокий уровень структуризации текста и формирование развернутого плана анализируемого текстового документа для работы эксперта;

- применения процедуры нормализации сложного предложения, обеспечивающей однозначное разбиение сложного предложения на множество простых.

3. Разработана процедура нормализации сложных предложений русскоязычного текста.

4. Построена статистическая и векторная модели текста.

5. Разработана информационная технология семантико-синтаксического анализа.

6. Выполнены экспериментальные исследования предложенных решений анализа русскоязычных текстов на базе специально созданного ПК «ТЕКСТАН».

7. Применение разработанной информационной технологии анализа русскоязычных текстов позволяет автоматизировать многие процессы, связанные с созданием и использованием информационных ресурсов профессиональной направленности.

Основные положения, методы и технология обработки текста реализованы автором в виде законченного программного комплекса «ТЕКСТАН». Данный программный комплекс был использован при формировании информационной системы ИжГТУ, при формировании информационных ресурсов по различным направлениям подготовки бакалавров, специалистов, магистров, при изучении принципов построения ИС.

Библиография Бледнов, Андрей Михайлович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Андреев А.М.,Березкин Д.В.,Сюзев В.В., Шабанов В.И. Модели и методы автоматической классификации текстовых документов// Вестн. МГТУ. Сер. Приборостроение. М.:Изд-во МГТУ.- 2003.- №3.

2. Анно Е.И. К типологии алгоритмов синтаксического анализа (для формальных моделей естественного языка). // НТИ. Сер. 2. 1980,- № 3. - С.15-22.

3. Аношкина Ж.Г. Морфологический процессор русского языка // Альманах «Говор». Сыктывкар. 1995. - С. 17-23.

4. Апресян Ю.Д. Избранные труды, Том 1. Лексическая семантика: 2-е изд., испр. и доп. М.:Школа «Языки русской культуры», 1995. - 302 с.

5. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. Москва: «Наука», 1967. - 185 с.

6. Арутюнова Н.Д. Время: модели и метафоры. Логический анализ языка: язык и время. М., 1979. - 88 с.

7. Ахутина Т.В. Порождение речи. Нейро-лингвистический анализ синтаксиса. М.: МГУ, 1989. - 41 с.

8. Бледнов A.M. Применение векторной модели представления текстовой информации для пополнения базы знаний. // Вестник ИжГТУ: период, науч.-теор. Журн. ИжГТУ. 2006. - №4. Ижевск: Изд-во ИжГТУ, 2006. С. 56-60.

9. Бледнов A.M., Моченов C.B., Луговских Ю.А. Применение статистических методов при анализе текстовой информации. //

10. BAAJI: Экспертная компьютерная психолингвистическая программа, http ://www.logic.ru/~shalack.

11. Виноград Т. Об одном подходе к изучению дискурса. В сб. «Взаимодействие с ЭВМ на естественном языке», Новосибирск, ВЦ СО АН СССР, 1978. С. 11-47.

12. Гарвин П. Алгоритм синтаксического анализа «Фулькрум» (для русского языка) // Автоматический перевод. -М.: Прогресс, 1971. С. 26-40.

13. Гладкий A.B. Формальные грамматики и языки. М.: Наука, 1973. - 52 с.

14. Гладкий A.B. Синтаксические структуры естественного языка в автоматизированных системах общения. М.,1985. 67 с.

15. Гладун В. П. Процессы формирования новых знаний. София: Педагог, 1994.-190 с.

16. Грязнухина Т.А., Дарчук Н.П., Критская В.И., Маловица Н.П. и др. Синтаксический анализ научного текста на ЭВМ, К.: Научная мысль, 1999.-77 с.

17. Ермаков А.Е. Проблемы полнотекстового поиска и их решение // Мир ПК. 2001. - № 5. (http://www.osp.ru/pcworld/2001/05/161575/)

18. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000. - № 11. (http://www.metric.ru/publications.asp?obno=319)

19. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. - № 12.-С. 34-37

20. Ермаков А.Е., Плешко В.В. Тематическая навигация в полнотекстовых базах данных // Мир ПК. 2001. - № 8. (http://www.osp.ru/pcworld/2001/08/16203II)

21. Зализняк A.A. Грамматический словарь русского языка: словоизменение. 3-е изд. Москва: Рус. яз., 1987.

22. Игумнов Е. Основные концепции и подходы при создании контекстно-поисковых систем на основе реляционных баз данных. (http://www.citforum.ru/database/articles/searchsys.shtml).

23. Иванов С.А. Стохастические фракталы в информатике / /НТИ. Сер. 2. -2002.-№8.-С. 7-18.

24. Иомдин Л.Л. Симметричные предикаты в русском языке. Проблемы структурной лингвистики 1979, М., Наука, 1981.

25. Искусственный интеллект. В 3-х кн. Кн.1. Системы общения и экспертные системы: Справочник. /Под ред. Д.А.Поспелова. -М.: Наука, 1990.

26. Кандрашина Е.Ю., Очаковская О.Н., Голубева JI.A. Экспериментальная вопросно-ответная система ВОСТОК-О. Описание средств для представления семантической информации. Препринт ВЦ СО АН СССР№ 174,1979.

27. Карпова Г. Д., Пирогова Ю. К., Кобзарева Т. Ю., Микаэлян Е. В. Компьютерный синтаксический анализ: описание моделей и направлений разработок. // Итоги науки и техники (серия «Вычислительные науки»). Т.6. -М.: ВИНИТИ, 1991.

28. Касевич В.Б. Семантика. Синтаксис. Морфология. -М. 1988.

29. Касевич В.Б. Элементы общей лингвистики. М., 1977.

30. Кендалл МДж., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973.

31. Ковальченко И.Д. О применении математических методов при анализе историко-статистических данных // История СССР. 1964. - №1. - С. 3 -15.

32. Кудряшова И.М. О семантическом словаре в системе ФРАП.- М.: МГПИИЯ им. М. Тореза. Сборник научных трудов. Вып. 271., 1986.

33. Кузнецов И.П. Семантические представления. М.: Наука, 1986.

34. Кузнецов И.П., Козеренко Е.Б. Поиск языковых универсалий для лингвистического моделирования на расширенных семантических сетях. Труды Международного семинара Диалог-99 по компьютерной лингвистике и ее приложениям. Таруса, 1999г., С.157-164.

35. Кулагина О.С. Исследования по машинному переводу. М.: Наука, 1979.

36. Ландэ Д.В. Поиск знаний в Internet. М.:Диалектика, 2005. - 272 с.

37. Левин Д.Я., Нариньяни A.C. Экспериментальный минипроцессор: семантически-ориентированный анализ. В сб. «Взаимодействие с ЭВМ на естественном языке», Новосибирск, ВЦ СО АН СССР. 1978, С. 223-233.

38. Леонтьева H.H. «Политекст»: информационный анализ политических текстов. // НТИ. Сер 2. - 1995.- № 4.- С. 20-24.

39. Леонтьева H.H. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. -МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 271., М.,1986.

40. Леонтьева H.H. Строение семантического компонента в информационной модели автоматического понимания текста. Автореф. и дисс. д.т.н. М., 1990.

41. Леонтьева H.H. Русский общесемантический словарь (РОСС):структура, наполнение. // НТИ. Сер. 2. - 1997. - № 12. - С. 5-20.

42. Леонтьева H.H., Кудряшова И.М., Малевич О.Б. Семантические заготовки к пониманию целого текста. М.: МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 271., 1986.

43. Леонтьева H.H., Никогосов С.Л. Система ФРАГТ и проблема оценки качества автоматического перевода. -М.: МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 20., 1980.

44. Лукашевич Н.В. Автоматизированное формирование информационно-поискового тезауруса по общественно-политической жизни России // НТИ. Сер.2. 1995.-Х» 7.-С. 21-24.

45. Лукашевич Н.В., Салий А.Д. Представление знаний в системе автоматической обработки текстов // НТИ. Сер.2. 1997. - № 3. - С. 27 -33.

46. Лурия А.Р. Язык и сознание. М.1979;

47. Мельчук И.А Опыт теории лингвистических моделей «Смысл-Текст». Семантика, синтаксис. М.: Школа «Языки русской культуры», 1999.

48. Нариньяни A.C. Работы по искусственному интеллекту в

49. Вычислительном центре СО АН СССР. Доклад на Международной конференции по искусственному интеллекту, Репино, 1977.

50. Никогосов С.Л. Программное обеспечение машинного перевода. -ВЦП. Серия Машинный перевод и автоматизация информационных процессов. Вып 9.1984.

51. Новицкий Д.В. Система интерактивной работы с текстом с применением искусственного интеллекта (на семантическом уровне) // История и компьютер. 1998. - №23. - С. 45 - 49.

52. Павиленис Р.И. Проблема смысла. Современный логико-философский анализ языка. М.1983.

53. Падучева Е.В. Коммуникативное выделение на уровне синтаксиса и семантики. Сборник «Семиотика и информатика», Вып. 36,1998.

54. Панкратов Д.В., Гершензон Л.М. Описание синтаксического анализа в системе Диалинг. (http://www.aot.ru/docs/synan.htm)

55. Панфилов В.З. Логика и грамматика. М.1963.

56. Петров А.И. Компьютерный анализ текста. Историография метода // Круг идей: модели и технологии исторической информатики. М., -1999.-С. 255-277.

57. Пешковский A.M. Русский синтаксис в научном освещении. 8-е изд. -М.: УРСС. - 2001.-432 с.

58. Пиотровский Р.Г., Билан В.Н., Боркун М.Н., Бобков А.К. Методы автоматического анализа и синтеза текста. Минск: Вышейшая школа, 1985.

59. Плешко В.В., Ермаков А.Е., Липинский Г.В. TopSOM: визуализация информационных массивов с применением самоорганизующихся тематических карт // Информационные технологии. 2001. - № 8.

60. Попов Э.В. Общение с ЭВМ на естественном языке. -М.: Наука, 1982.

61. Поспелов Д.А. Искусственный интеллект. Кн. 2. М.: Радио и связь, 1990.

62. Прагматика и семантика. ИНИОН. М.1991

63. Прикладное языкознание / Отв. ред. A.C. Герд. СПб., 1996.

64. Реформатский A.A. Введение в языковедение. М.: Аспект Пресс, -2004.-536 с.

65. Розенталь Д.Э. Управление в русском языке. Словарь-справочник. М.: Книга, 1986.

66. Салмин П. Проект фразеологического словаря в системе ПОЛИТЕКСТ. РГТУ, ФТИПЛ, дипломная работа, 1998.

67. Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика. Киев, Наукова думка, 1981.

68. Семенова С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Труды Международного семинара Диалог'96 по компьютерной лингвистике и приложениям. М., 1996. - С.227-230.

69. Семенова С.Ю. Прилагательные в семантическом словаре одной прикладной системы. // Труды Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям. -С.553-564.

70. Сепир Э. Статус лингвистики как науки / Сепир Э. Избранные трудыпо языкознанию и культурологии. — М.: Прогресс, 1993. — С. 259-265.

71. Скрипник К.Д. Семиотика. М.: Диалог, 2000. - 102 с.

72. Сменцарев Г.В. О возможностях анализа исторических источников с помощью систем искусственного интеллекта // Информационный Бюллетень Комиссии по применению математических методов и ЭВМ в исторических исследованиях при Отделении истории РАН. 2000. №25.

73. Сокирко A.B. Программная реализация русского общесемантического словаря. // НТИ. Сер 2. 1997.- № 12.- С. 20-24.

74. Сокирко A.B. Реализация первичного семантического анализа в системе Диалинг // Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям, Протвино, 1-5 июня 2000 года, (http://www.aot.ru/docs/graphan.html)

75. Солодуб Ю.П. Сопоставительный анализ структуры лексического и фразеологического значений // Филологические науки. НДВШ. 1997. №5. С.43-54.

76. Сусов И.П. Введение в теорию языкознания: Программно-справочное пособие. Тверь, 1978.

77. Сущанская Н.Ф. Программный препроцессор для естественноязыковых интерфейсов. Автореф. дисс. к.т.н. К.: РИО РЖ, 1989.

78. Тихонова Н.В. Концепт как инструмент лингвистического анализа текста, (http://hist.asu.ru/kleio/aik/bullet/23/30.html)

79. Тузов В.А. Компьютерная семантика русского языка. Спб.: Изд-во СПбГУ, 2004.-400 с.

80. Файн В. С. Машинное понимание естественного языка в рамках концепции реагирования// Интеллектуальные процессы и их моделирование. М. Наука, 1987.- С. 375-392.

81. Цейтин Г.С., Откупщикова М.И., Лейкина Б.М., Невлева Т.Н. Система анализа текста с процедурным представлением словарной информации. В кн.: Актуальные вопросы практической реализации систем автоматического перевода. М. 1982.

82. Шихов К. Л. TACT и его тактичность. (http://hist.asu.ru/kleio/aibbullet/23/32.html)

83. E.Bach and B.Halms, N.Y., 1968. 95.International Standards Organization (ISO): 8879: Information Processing: Text and Office Systems: Standard General Markup Language (SGML). Geneva. 1986.

84. ISO/TR 9573: Information Processing SGML Support Facilities -Techniques for Using SGML (ISO, 1988)

85. Levi, Judith N. 1978. The Syntax and Semantics of Complex Nominals. New York: Academic Press.

86. Meadow C.T. Text Information Retrieval Systems. San Diego. 1992.

87. The Computer & Literary Style: Introductionary Essays and Studies. Ed. by J.Leeds. Kent. Ohio. 1966.

88. А Яи в 06 V 17/20. Способ автоматического реферирования при помощи ЭВМ несегментированного текста на языке с идеографической системой письменности / Загибалов Т.Е. № 2004114542/09; Заявл. 27.10.2005.-№30.-С. 462.