автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка и исследование методов и моделей автоматической проверки текстов на соответствие требованиям технической документации

кандидата технических наук
Тарасенко, Антон Витальевич
город
Таганрог
год
2009
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование методов и моделей автоматической проверки текстов на соответствие требованиям технической документации»

Автореферат диссертации по теме "Разработка и исследование методов и моделей автоматической проверки текстов на соответствие требованиям технической документации"

На правах рукописи

Тарасенко Антон Витальевич 2 7 АВГ

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ И МОДЕЛЕЙ АВТОМАТИЧЕСКОЙ ПРОВЕРКИ ТЕКСТОВ НА СООТВЕТСТВИЕ ТРЕБОВАНИЯМ ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ

Специальность: 05.13.17 - Теоретические основы информатики.

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Таганрог-2009 г.

003475Б98

003475698

Работа выполнена в Технологическом институте Южного федерального университета в г. Таганроге.

НАУЧНЫЙ РУКОВОДИТЕЛЬ:

доктор технических наук, профессор

Вячеслав Филиппович Гузик

ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:

доктор технических наук,

профессор

Ромм Яков Евсеевич

ВЕДУЩАЯ ОРГАНИЗАЦИЯ:

кандидат технических наук Чапцев Антон Генрихович

ТАНТК им. Г. М. Бериева (г. Таганрог)

Защита состоится 2Ь~У'КЧу. 2009 г. в /на заседании диссертационного совета Д 212.208.21 Южного федерального университета по адресу: ауд. Д-406, пер. Некрасовский 44, г. Таганрог, 347928.

С диссертацией можно ознакомиться в Зональной научной библиотеке ЮФУ по адресу: ул. Пушкинская 148, г. Ростов-на-Дону, 344000.

Автореферат разослан « 7У» 1Ы>*. 2009 года.

Ж £ьР?.

Ученый секретарь

диссертационного совета Д 212.208.21 доктор технических наук, профессор

Н. И. Чернов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. В последние годы роль технической документации как информационного ресурса в производственном процессе существенно возросла. Сложность и многофункциональность даже бытовых приборов требует внимательного изучения правил и особенностей их эксплуатации. Важность подробного документирования всех процедур в тех областях, где безопасность является ключевым понятием, например, в авиастроительной промышленности, невозможно переоценить, поскольку надежность работы комплексной системы зависит не только от совершенства технических решений, но и от правильности их эксплуатации и обслуживания в течение всего жизненного цикла. Составление четкой, однозначной и понятной технической документации, а также ее перевод, является сложной и дорогостоящей операцией, требующей привлечения большого количества ресурсов и лингвистических средств.

Для решения этой проблемы создаются проекты контролируемых технических языков - сводов правил, искусственно ограничивающих естественный язык с целью повышения точности и однозначности высказываний. Одним из примеров такого языка, разработанного представителями Ассоциации Европейских Авиалиний (АЕА), является стандарт Упрощенного Технического Английского языка, представленный спецификациями "ASD-STE100". Этот стандарт одобрен Группой Разработки Упрощенного Технического Английского (Simplified Technical English Maintenance Group - STEMG) и обязателен при составлении технической документации крупнейшими зарубежными авиапроизводителями.

В связи с ростом экспорта российской техники за рубеж применение концепции упрощенного языка технической документации для русскоязычной документации становится приоритетной задачей. Хотя отдельные представители российской авиакосмической промышленности уже разрабатывают проекты ограничения технического русского языка, единого и общепринятого стандарта не существует. Кроме того, большие объемы документации требуют создания автоматизированных средств проверки соответствия текстов этим ограничениям.

Таким образом, разработка методов и моделей функционирования автоматического инструмента для проверки текстов на соответствие требованиям упрощенного технического языка является чрезвычайно актуальной задачей и имеет практическое значение.

Цель и основные задачи диссертации. Целью диссертационной работы является исследование и разработка методов и алгоритмов анализа текста на русском языке в контексте его применения в системе лингвистической валидации технической документации (ЛВТД), предназначенной для проверки технической документации на соответствие проекту спецификаций Упрощенного Технического Русского (УТР) языка.

-4В соответствии с поставленной целью в диссертации решаются следующие основные задачи:

1. Проводится анализ спецификаций АБО-БТЕЮО, УТР и других проектов контролируемых языков, в результате чего определяются языковые характеристики, существенные для контроля процесса составления технической документации на русском языке.

2. Проводится анализ существующих методов анализа текстов на естественных языках, что позволяет выделить методы, оптимальные для контроля процесса составления технической документации.

3. Разрабатывается универсальная модель представления предложения на русском языке, позволяющая манипулировать различными вариантами трактовки предложения в рамках единой структуры.

4. Разрабатываются методы и алгоритмы автоматического анализа текста на русском языке, позволяющие определять и снимать лексические и синтаксические неоднозначности и определять синтаксические функции отдельных слов и словосочетаний.

Объекты исследования. Объектами исследования являются существующие проекты управляемых языков, лингвистические особенности процесса составления технической документации, техническая документация, методы и алгоритмы анализа текстов на естественном языке.

Методы исследований. В процессе работы использовались методы дискретной математики, теории графов, теории компиляторов.

Научная новизна. В процессе работы над диссертацией были получены следующие результаты:

1. Разработан реестр языковых характеристик, который отличается от англоязычного аналога А80-8ТЕ100 правилами, свойственными русскому языку как языку со свободным порядком слов, и который позволяет реализовать стратегию упрощения русского языка с целью контроля процесса составления технической документации.

2. Разработана модель представления предложения на русском языке, отличающаяся от известных моделей инвариантностью формы описания синтаксической схемы и позволяющая анализировать множественные варианты трактовки предложения в рамках единой структуры.

3. Предложен метод и синтезированы алгоритмы автоматического анализа текста на русском языке, отличающиеся от аналогов снятием лексических и синтаксических неоднозначностей, и позволяющие определять синтаксические функции отдельных слов и словосочетаний.

Практическая ценность. Практическая ценность исследования заключается в синтезе метода синтаксического анализа текстов на русском языке для системы лингвистической валидации технической документации, которая позволяет максимально упростить разработку технической документации в соответствии с принципами Упрощенного Технического Русского языка. Результаты исследования использованы компанией АВИАОК Интернейшенел в процессе реализации концепции Упрощенного Технического Русского языка, в ходе которой разрабатывается программный комплекс, регламентирующий процесс разработки документации. Предложенная в работе модель представления текста и результаты экспериментальной программы послужили основой для создания инструмента проверки текста на соответствие спецификациям УТР. Теоретические результаты использованы при составлении проекта спецификаций УТР.

Достоверность и обоснованность научных положений, результатов и выводов, приведенных в работе, обеспечивается корректным использованием математического аппарата, аналитическим и имитационным моделированием.

Положения, выносимые на защиту:

1. Модель представления многозначного предложения на естественном языке в виде лексико-синтаксического графа (ЛСГ).

2. Метод и алгоритмы проведения автоматического лексико-синтаксического анализа в рамках модели ЛСГ.

Апробация основных идей и результатов исследований проведена на следующих конференциях и семинарах:

- VII Международная научно-практическая конференция "Информационная безопасность", г. Таганрог, ТРТУ, 2005г;

- Всероссийская научно-техническая конференция с международным участием посвященная 60-летию Победы "Компьютерные и информационные технологии в науке, инженерии и управлении" г. Таганрог, ТРТУ, 2005г;

- заседания кафедры Вычислительной Техники Таганрогского Технологического Института ЮФУ, г. Таганрог, 2006,2007,2008г.

Публикации. По материалам работы опубликовано 7 печатных работ, из них 3 в изданиях, рекомендованных Высшей Аттестационной Комиссией.

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, библиографического списка, включающего 102 наименования, и приложений. Текст изложен на 202 страницах, содержит 29 рисунков, 7 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность исследования, определяется предмет изучения, цель, задачи и методы работы, аргументируется научная новизна, теоретическая значимость и практическая ценность исследования; указываются источники фактического материала; формулируются положения, выносимые на защиту; содержатся сведения об апробации результатов работы.

В первой главе исследуются существующие проекты стандартизации естественных языков. Анализу подлежат спецификации, разработанные для различных европейских языков, с различными областями применения. Представлена классификация стандартизованных языков. Целью анализа является определение критических языковых свойств и характеристик, которым необходимо уделить внимание при построении системы валидации технической документации. Подробному анализу подвергаются спецификации упрощенного технического английского языка АБО-ВТЕЮО, разработанные Ассоциацией Европейских Авиалиний, которые на сегодняшний день являются стандартом с полностью завершенной структурой. Спецификации представляют собой ограниченную терминологическую базу и свод грамматических правил. В ходе исследования выявляются те части спецификаций, которые применимы к русскому языку, и те, которые требуют значительной доработки с учетом особенностей русского языка, на основе чего определяется проект спецификаций Упрощенного Технического Русского языка - набор правил, регламентирующий лингвистическую составляющую процесса создания технической документации на русском языке.

Анализ таких правил позволяет определить реестр языковых характеристик, необходимых и достаточных для реализации стратегии упрощения естественного языка для нужд составления технической документации на русском языке. Полный реестр языковых характеристик приводится в заключении к главе и включает в себя перечень синтаксических функций, частей речи и других грамматических категорий русского языка, которые необходимо учесть при разработке методов и алгоритмов анализа текста на соответствие правилам Упрощенного Технического русского языка (УТР). По результатам анализа сделан вывод о том, что для автоматизации большинства правил УТР необходимо реализовать лексическую и синтаксическую составляющие процесса анализа текста. Семантический анализ необходим только как возможность повысить качество синтаксического анализа, а как отдельный процесс не является существенным. Определяется задача лингвистической валидации технической документации как процесс контроля соответствия текста терминологическому и грамматическому разделам спецификаций УТР.

Вторая глава посвящена анализу автоматических методов разбора текстов на естественном языке в рамках вычислительной лингвистики. Основной целью данной главы является оценка того, насколько применимы существующие

методы автоматического анализа текстов для проверки соответствия текста спецификациям Упрощенного Технического Русского языка.

В процессе рассмотрения методов отмечаются как их достоинства, так и недостатки, включая языковые сложности, разрешение которых в рамках данных методов не представляется возможным. Подробному анализу подвергаются методы синтаксического анализа (СА) в рамках квантитативного и комбинаторного лингвистических подходов. Рассматриваются методы, основанные на стохастических теориях, теориях порождающих грамматик и варианты их комбинирования.

Проводится анализ различных подходов к описанию синтаксической структуры предложения: с помощью систем составляющих, с помощью деревьев зависимостей и Систем Синтаксических Групп (ССГ). Рассматриваются варианты практической реализации анализируемых подходов на примерах таких систем как Т11ЕЕТ(Ж, ЬткСгаттаг, ДИАЛИНГ.

По результатам анализа, проведенного в главе, сделан вывод о том, что ни один из рассмотренных методов анализа русского языка не соответствует в полной мере задаче контроля технической документации в силу либо незавершенности метода, либо его излишней универсальности, приводящей к появлению некорректных результатов или чрезмерных вычислительных затрат. В главе дается определение лексико-синтаксического анализа (ЛСА) как основы процесса проверки предложения на соответствие спецификациям УТР.

В третьей главе разрабатывается модель представления предложения на русском языке, позволяющая объединить различные трактовки предложения в рамках единой структуры (лексико-синтаксического графа [ЛСГ]), и алгоритмы лексико-синтаксического анализа (ЛСА) в рамках модели ЛСГ.

Неоднозначность предложения обусловлена как лексической неоднозначностью отдельных его элементов (слов), так и различными вариантами отношений между ними. Для описания множества различных синтаксических структур предложения в работе предлагается использовать математический аппарат многодольных графов (М-дольных).

В главе вводятся понятия начального графа предложения, модифицированного графа предложения и графа трактовок предложения.

Пусть неоднозначное предложение 8 образовано из N слов (/: ¡..Ы). Каждое слово представлено в виде множества его словоформ /ч (/': /..«,)> где и, является количеством словоформ ¡-го слова.

Тогда начальным графом предложения 8 является п-дольный неориентированный неполный граф Кз, для которого выполняются следующие условия:

a) количество долей N графа /Сз равно количеству слов в предложении

b) порядок ¡-ой доли графа равен количеству словоформ ¡-ого слова

О',)-

c) любые две смежные доли графа образуют полный двудольный граф;

ё) граф имеет две дополнительные доли, представленные начальной и конечной вершинами, обозначающими соответственно начало и конец предложения. Таким образом, если неоднозначное предложение образовано из трех слов, первое и последнее имеют по три словоформы, второе - две, то начальный граф Кэ представляет из себя тридольный граф на рисунке 1:

|5ТАЯТ

\ N

-;Тг| 2, 0 1 3.0 ]

г.ч /

с ^ ■ / V У/

I; \ 3.1 у

, \ /

Ч 3.2

-,|е>Ш |

слово 1 слово 2 слово 3

Рис. 1 Пример начального тридольного графа предложения

Каждая вершина графа однозначно идентифицируется вектором: индекс слова + индекс словоформы.

Количество вершин Л/,.- (порядок графа Кб) вычисляется по формуле (без учета дополнительных долей):

",=11/; о

Для приведенного выше примера = .8.

Количество ребер /V/. (размер графа Кб) вычисляется по формуле (без учета дополнительных долей):

Для приведенного выше примера Лу. = 12.

В диссертации определяется понятие решения графа как пути на графе & от начальной вершины к конечной. Решением графа является любой подграф Т графа Кв, для которого выполняются следующие условия:

1) в составе графа Т присутствуют начальная и конечная вершины в степени 1;

2) все остальные вершины графа Т имеют степень 2, т.е. связаны только с двумя вершинами, принадлежащими соседним долям;

Таким образом, любое решение графа Кб содержит строго одну вершину из каждой доли и представляет собой уникальную трактовку неоднозначного предложения Б, представленного графом Кб. Иными словами, решение графа - п-клика, содержащая в себе начальную и конечную вершины. Размером решения является количество его вершин. Размер любого решения начального графа равен количеству слов в предложении.

Для приведенного выше примера решениями являются подграфы (1,0 2,1 3,0), (1,2 2,1 3,1). Множество таких графов образует гиперграф, содержащий в себе все возможные трактовки данного предложения.

[5TART |

СЛОВО 1 слово 2 СЛОВО 3

Рис. 2 Отображение трактовок предложения

Общее количество трактовок Nr предложения S вычисляется по формуле:

NT=f\". (3)

Для приведенного выше примера NT = 18, т.е. предложение S может быть трактовано 18-ю разными способами.

В главе вводится понятие модифицированного графа предложения S, т.е. графа Ms, полученного в результате применения операций модификации ребер и вершин начального графа предложения Ks.

Модификация ребер графа заключается в изменении их веса и ориентации. Для объяснения механизмов изменения весов ребер в главе вводится I понятие грамматической характеристики (ГХ) вершины графа (словоформы).

В пространстве морфологических значений каждая словоформа однозначно идентифицируется с помощью набора граммем, т.е. грамматических значений, понимаемых как элементы грамматических категорий. С каждой I вершиной графа Ks свяжем два множества:

a) С (Ci...C„) - множество грамматических категорий (ГК);

b) V (Vi„Vn) - множество граммем,

где Vj является значением грамматической категории С,. ' Пусть ребро Lkm соединяет вершины к и ш, с которыми связаны

множества ГК соответственно Ск и Ст. Тогда весом ребра L^ является мощность множества, полученного в результате пересечения множеств Ск и Ст при условии, что соответствующие граммемы равны.

4„, =|QnC.|, причем Vh = Fm/V/sCt nCm (4)

Примером совпадения граммем является ребро, соединяющее существительное и прилагательное, имеющие одинаковые значения в грамматических категориях числа, рода и падежа. Мощность такого ребра равна 3.

Если граммемы соседних вершин в рамках хотя бы одной ГК не совпадают, то вес соединяющего их ребра является нулевым.

1Ы = 0, если 3¡еСкп Ст, такое что Ук, * К„„ (5)

Обнуление связи между двумя соседними словами фактически разрывает ребро, соединяющее соответствующие словам вершины, соответственно делает невозможным нахождение пути от начала предложения к его концу через эти вершины. Таким образом, обнуление весов ребер исключает из рассмотрения существенное количество трактовок. Количество трактовок, исключаемых путем обнуления веса ребра между вершинами к-1 и к, можно вычислить по формуле:

11-1 N

(6)

1=1 ¡-клI

Помимо изменения веса к операциям модификации ребер относится также ориентирование ребер. Начальный граф является неориентированным, однако задание направления позволяет реализовывать формализм деревьев зависимостей в рамках данной модели, тем самым синтаксически подчиняя одни вершины другим.

Модификация вершин графа заключается в слиянии двух вершин с образованием новой. Обозначим через апЬ вершины, послужившие исходными, для создания новой вершины с. Тогда

1) после образования вершины с вершины а и Ь не уничтожаются, а остаются частью графа;

2) если а и Ь принадлежат соседним долям, то с связывается со всеми элементами из доли, стоящей слева от а и справа от Ъ.

Полученную вершину с будем называть Синтаксической Группой (СГ), , а вершины а и Ь - родительскими к СГ.

Длиной СГ является количество вершин начального графа, участвовавших в ее создании. Длина каждой вершины начального графа =1, такие вершины будем называть атомарными. Если в процессе образования участвовали неатомарные вершины, т.е. вершины длиной больше 1, то длина ' такой вершины равна сумме длин ее родительских вершин

М^Ш + МчЛ (7)

Если все доли начального графа предложения имеют одинаковый | порядок п (т.е. все слова имеют п словоформ), и модифицированный граф образован ю начального слиянием всех возможных вершин, то количество вершин модифицированного графа вычисляется по формуле:

N„=^'(N-1), (8)

<=1

которая представляет собой полином N-1 степени, где N - количество слов в предложении.

Ит = п"'1 + 2 пы~г + Згс"-3 +... ■+ Ип ■ (9)

Очевидно, что бесконтрольное слияние вершин приводит к созданию модифицированного графа значительных размеров. Если предположить, что две вершины могут образовать новую СГ только при выполнении некоторых условий, и обозначить вероятность выполнения этих условий как q, то количество вершин в модифицированном графе можно определить по формуле:

Nm4 = X (N ~г')= Я'+ 2?"-V"2 + 3V-3 +... + Nn (Ю)

V=!

Для регламентирования процесса образования новых СГ в модифицированном графе предложения вводится понятие Правила Слияния (ПС), т.е. механизма, определяющего какие родительские вершины могут образовывать новые синтаксические группы и какие характеристики эти группы должны получать. Примером ПС является:

объединить вершины aube вершину с при условии, что их атрибуты Са и С/, равны, и назначить вершине с атрибут Са.

Для формализации понятия ПС в работе предлагается использовать формализм атрибутивных грамматик. Поскольку атрибуты в предлагаемой модели наследуются от родительских вершин и никогда в обратном направлении, то для формализации правил слияния достаточно сформулировать грамматику с синтезируемыми атрибутами. Примером правила слияния в виде правила атрибутивной грамматики является:

<NP> ::= А N | <NP> N ! case(NP) case(N) | case(NP) case(NP2)

case(A) = case(N) case(NP) = case(N),

где A, N - терминальные символы, <NP> нетерминальный символ, case -синтезируемый атрибут категории падежа.

Наличие некоторого набора таких правил позволяет контролировать [троцесс слияния вершин. Будучи построены в соответствии с синтаксисом эусского языка, эти правила образовывают новые вершины, длина которых может достигать количества слов в предложении.

Оба типа модификаций начального графа Ks позволяют выделить из îcex возможных трактовок предложения S те, которые соответствуют синтаксису эусского языка. В ходе исследования был сделан вывод, что предлагаемая модели удобна для апробации различных методов проведения синтаксического анализа, поскольку трактовки предложения могут быть описаны как с помощью деревьев синтаксического подчинения (ДСП), так и систем составляющих (СС) и систем синтаксических групп (ССГ).

Предположим, что предложение для графа на рисунке 1 имеет две трактовки: (1,0 2,0 3,0) и (1,0 2,1 3,2). Для описания данных трактовок с помощью механизма ДСП необходимо построить следующие два дерева (возможны и альтернативные деревья):

1 1,0 I I 2,0 | [

Рис. 3 Деревья зависимостей Такую же структуру можно построить в виде графа, полученного из начального графа предложения ориентированием ребер. Пример такого графа представлен на рисунке 4

Рис. 4 Реализация системы деревьев зависимостей

I

Те же самые трактовки, описанные с помощью системы составляющих, выглядят следующим образом (скобочная форма): [1,0 [2,0 3,0|| и |1,0 2,0 3,0].

Эту же структуру можно отобразить в виде графа, полученного после слияний следующих элементов: "2,0" + "3,0" = "2,0 3,0"; "1,0" +"2,1"+ "3,2" = "1,0 2,1 3,2".

Рис. 5 Реализация системы составляющих

Механизм Систем Синтаксических Групп (ССГ), являющийся в некотором роде симбиозом СС и ДСП, описывает трактовки следующим образом:

"{2.0 , 3.0} = А, 3.0 — 2.0, 1.0 А" "1.0-»2.1, 2.1->3.2".

Данный подход к описанию синтаксической структуры также может

Рис. 6 Реализация систем синтаксических групп

Далее в главе определяется задача лексико-синтаксического анализа как нахождение всех решений модифицированного графа с минимальной длиной. В идеальном случае длина решения равняется 1, единственным элементом такого решения является СГ, длина которой равна количеству слов в предложении.

Решение данной задачи предлагается в три этапа. !. Для каждой вершины начального графа перебираются связи с соседними слева вершинами. Для каждой такой пары вершин применяются правила слияния. В случае удовлетворения условий правила слияния, образуется новая СГ. Для каждой новой СГ по такой же схеме применяются все ПС.

2. На следующем этапе первым (прямым) проходом обходятся все вершины модифицированного графа от начала предложения по направлению к концу, при этом каждая вершина помечается расстоянием до начала предложения. При подсчете расстояния мощности всех связей считаются равными I. Некоторые вершины будут обходиться более одного раза. С целью оптимизации менять расстояние нужно, только если новое значение меньше предыдущего.

3. За время второго прохода (обратного) из всех левых связей каждой вершины выбираются те, которые помечены минимальным расстоянием до начала предложения, и помечаются как части найденного решения. При этом дальнейшее продвижение влево по графу ведется только по ребрам с минимальным расстоянием.

Реализация предложения в виде дольного графа позволяет использовать рекурсивные алгоритмы для решения поставленных задач. Т.е. достаточно определить базовый алгоритм применения правил для одной вершины и вызывать его рекурсивно для всех соседей этой вершины.

Для каждого из трех этапов в главе предложены рекурсивные алгоритмы реализации, проведена оценка их вычислительной сложности.

В заключении к главе делается вывод о том, что предлагаемая модель представления предложения является удобной площадкой для апробации различных методов проведения синтаксического анализа. Разработанный метод JICA эффективно решает задачи синтаксического анализа, сужая список возможных трактовок от начального количества, определяемого по формуле 3, до количества естественных трактовок предложения в рамках синтаксиса языка.

Четвертая глава посвящена экспериментальным исследованиям и некоторым аспектам разработки программы для реализации предлагаемых алгоритмов лексико-синтаксического анализа в рамках модели представления предложения. Работа, программы проверяется на примерах, взятых из существующих технических текстов и иллюстрирующих синтаксически неоднозначные предложения на русском языке. При этом проверяются разные виды синтаксической и лексической омонимии и анализируются результаты работы ЛСА с точки зрения последующего применения к ним правил УТР.

Для проверки достоверности теоретических результатов была разработана программная среда, реализующая модель ЛСГ и алгоритмы ЛСА. Поскольку данное исследование посвящено синтаксическому анализу, в программе отсутствует полноценный лексический анализатор. На данном уровне исследования источником лексической информации для программы является доступный в сети Интернет грамматический словарь А. А. Зализняка, который стал основой практически для всех компьютерных программ автоматического морфологического анализа.

Результаты лексического анализа передаются в программу в XML структуре следующего вида: <sentence> <word>

<text>pacncuiaraeTCH</text>

<form pos="verb" num="sg" tense="past" gen="neu" person="3rd" mood="ind" macc="false" mgen="false" mdat="false" mins="false"/> </word> <word>

<text>Ta6flo</text>

<form pos="noun" gen="neu" case="acc" num="sg" tp="inan"/> <form pos="noun" gen="neu" case="nora" num="sg" tp="inan"/> <form pos="noun" gen="neu" case="dat" num="sg" tp="inan"/> <form pos="noun" gen="neu" case="ins" num="sg" tp="inan"/> <fortn pos="noun" gen="neu" case="gen" num="sg" tp="inan"/> <form pos="noun" gen="neu" case="prp" num="sg" tp="inan"/> </word>

[...]

</sentence>

Узел <word> содержит в себе омонимичные словоформы для каждого слова с перечислением их грамматических характеристик. На основе этих данных программа строит начальный граф предложения (рис. 7), каждая доля которого обозначает слово в предложении и содержит все его варианты.

- 15В соответствии с формулой (3) количество теоретических трактовок такого предложения равно 240.

располагается

[I/O) V«A, «¡JUS« pist ig figij Зга mg ral;

табло

[2/D] noun, object .iccieneu_

'абло

12/2] noun, object Д' ig rw

табло

[2/3] noun, object Ijni ig neu

табло

12/4] noun, object gen ч neu

(табло

- [2/5] noun, object brolfliwj_

табло

[2/1] noun, subject

— ^ee _

nfc

, I

[3/1] pfep, n/i

панели noun, object gen гф fern N приборной |SAJj têi «uribut* prp sq fern n/* n/« n/*

панели [4/1] noun, object lat sq hem приборной I5/I]*dj,«ttribut« dit sq rem ni* ni» n/a

панели [4/2] noun, objtct Dfp rem ; фиборной [S/2]*dj,«ttHbut« ms itf rem nJ« n/« n/a

панели [4Ь] noun, subject nom pi fern приборной [5/3] «di, »ttribut« ç«n sq f*m n/« n/« n/i

панели [4/4] noun, object .j« pi fern t

Рис. 7. Начальный граф предложения

Для выбора синтаксически корректных трактовок в соответствии с методом JICA необходимо модифицировать граф путем применения правил слияния ко всем его элементам. Правила слияния, используемые программой, составляются с учетом синтаксиса русского языка и определяют, могут ли две вершины образовать СГ, и каковы будут атрибуты этой СГ. Если две вершины графа из соседних долей определить как BASE (базовая) и ЬЕРТ(левая). Тогда ПС представляет собой совокупность пяти условий: BASECONDITION, LEFTCONDITION, MATCH, RESPOS, SET. Понимать это правило следует так: если базовая вершина удовлетворяет условиям BASECONDITION, левая вершина удовлетворяет условиям LEFTCONDITION, граммемы обеих вершина из множества MATCH совпадают, то необходимо породить новую вершину типа RESPOS и определить значения ее атрибутов в соответствии с указаниями из SET.

Например, для правила образования прямой глагольной группы:

<DIRVP> ::= V N | N V model(DIRVP) model (V) case (N) = nominative number (V) = number , (N) gender (V) = gender (N) определены следующие параметры: BASECONDITION: pos = глагол LEFTCONDITION: pos = сущ., case = им. п. MATCH: число, род RES: прямая глагольная группа SET: res.model = base.model где case, number, gender, model - синтезируемые атрибуты, соответствующие категориям падежа, числа, рода и модели управления глагола.

Все правила хранятся в едином списке, отсортированные по полю basepos, что позволяет ускорить алгоритмы применения ПС, поскольку к каждой вершине графа применяется только подмножество правил, соответствующее

части речи этой вершины. Программа содержит более 200 правил, регламентирующих процессы слияния существительных, прилагательных, глаголов, причастий, деепричастий, числительных, частиц, предлогов и наречий, а так же синтаксических групп вида: прямая и косвенные глагольные, именная, предложная, предикативная, атрибутивная и другие.

Применение правил слияния позволяет построить модифицированный граф предложения, а выполнение алгоритмов поиска решений выделяет решения с минимальной длиной. Из рисунка 8 видно, что модифицированный граф состоит из 46 вершин (начальный - 18), при этом одна из них (выделена) является синтаксической группой максимальной длины, т.е. в соответствии с алгоритмом является единственным и правильным решением (1/0 2/1 3/0 4/2 5/0).

Гт«бяона панеяи

Гт«6яо

IÚ"-

■7(1 ?И 41?! пе. «ib^,

(табло и* гммемГ-

шшш.

Гт«бяона imhcjm

42/1 ?/1 ^ln.whttt...

(7Ж5. . _________

Щ «ы no. ohw.

5г«6м1 tva гшкм

щ -т гл.

Гтлбяо на i_______

Граспомгвется т*бяо í

1Г.ог/| э/кй» <¿dW d^s»

Гт«бяо н« гансяй-

fap щ n.. ttfcw*

(табяома imhcjw пр^орной ~

и приборной

laiuptm.« „ь

(гtimo м (мнем цнборнои

Ítiíwm паиели лри£ориои~

Í?Ü ЗЙ 4(2 6Й1 не.

(твбло т пне ям приборном

U2fl ЭЙ «В 6Ю1 ra. abwt

freÓno м лене*« приборной

(pacnóW«er<fl гшю«а

Юд таг тьм*. йш»

Ír<6no м писан приборном

{паны*

3

3

Рис. 8. Модифицированный граф и его решение

Помимо этого помечаются все элементы графа, которые являются частью этого решения. Для каждого слова из всех его словоформ выбирается только одна (правильная), для остальных групп, состоящих из нескольких слов, назначается синтаксическая функция (подлежащее, сказуемое, дополнение,

определение). Для указанного выше примера выделены такие вершины как "панели приборной", "на панели приборной", которые можно рассматривать как словосочетания. Результатом анализа является нахождение решений вида (рис. 9).

<ВДпап1> <сКгрЬгазе> <сИгрМгаБе>

<чесЬ (епзе^разГ регвоп="Згс1" деп="пеи" пит="зд" тоос!="т(Г 5Шп="ргес11са1е">располагается</тегЬ> <поип деп="реи" сазе="асс" пит-'вд" 8(ип="зи^ес1">та6ло</поип> </с!1грЬгазе> <рр сазе="ргр"> <ргер сазе="ргр"/>на</ргер> <пр деп='Тет" сазе="ргр" пит="зд" зй]п="оЬ]есГ> <поип деп='Тет" сазе="ргр" пит="зд" зйл1="оЬ]ес1">панели</поип> «¿УесШе деп-Тет" сазе="ргр" пит="зд" 5^п="а11пЬи1е">приборной</ас)]ес1м> </пр> </рр> </<ЛгрЬгазе> </уапап1>

Рис. 9. Решение модифицированного графа

Экспериментальные предложения подбирались специальным способом для иллюстрации работоспособности алгоритма ЛСА на различных видах неоднозначностей. Проблема полисемии в процессе проверки соответствия текста УТР устраняется на уровне терминологии: в словарь добавляются только разрешенные слова в разрешенном значении. Наиболее успешно алгоритм ЛСА справляется с разрешением омонимии на уровне частей речи, например слово "печь" в предложении "Работник не может открыть печь закаливания металла" получает однозначную трактовку. В случае если синтаксическая структура предложения допускает две формулировки, как в предложении "Он видел их семью своими глазами", то алгоритм укажет на то, что у данного предложения две трактовки.

Схожая ситуация наблюдается и с разрешением омонимии на уровне грамматических форм. Например, такие слова как "механизм", "правило" могут представлять собой как форму именительного, так и винительного падежа. Это, в свою очередь, ведет к неопределенности в выборе синтаксической функции слов и, соответственно, синтаксических конструкций. Таким образом, для предложения "Механизм определяет правила[" алгоритм из восьми возможных трактовок однозначно определяет одну: механизм (сущ., им., ед., муж.) определяет (гл., фин., ед., муж.,) правша (сущ., вин., мн., ср.). Так же определяются синтаксические функции слов: подлежащее-сказуемое-дополнение. Однако если поставить существительное "правила" в единственное число (Механизм определяет правило), то становится неясно, имеем ли мы дело с

неким механизмом, определенным правилом, или неким правилом, определенным механизмом. В таком случае алгоритм определяет, что есть два варианта выбора слова "механизм" (им. п. и вин. п.) и два варианта выбора слова "правила" (им. п. и вин. п.) и формирует две синтаксически корректные трактовки, в которых подлежащим является либо "механизм", либо "правило". Данная неоднозначность не нуждается в дальнейшем разрешении, поскольку синтаксис русского языка действительно допускает обе трактовки. Применительно к валидации текста на соответствие УТР нахождение таких случаев важно, поскольку все неоднозначные предложения должны быть перефразированы.

В главе приводятся примеры обработки других характерных синтаксических конструкций, показывающие способность предложенного метода разбирать сложные случаи омонимии. Например, в предложении "Система вносит в список задание и его характеристики" местоимение "его" выбирается из 14-ти омонимичных вариантов.

В некоторых случаях алгоритм генерирует избыточные трактовки. Например, для однозначного предложения "Система вносит в список последовательности действий" алгоритм генерирует две трактовки. Первая иллюстрирует собой процесс внесения некоторых последовательностей действий в некоторый список. Вторая - внесение чего-то (отсутствующего в предложении) в некоторый список последовательности действий. Вторая трактовка является неполноценной потому, что ей не хватает субъекта, вносимого в список. Для избавления от неполноценных трактовок в алгоритм ЛСА был добавлен механизм фильтрации трактовок.

Примерами таких фильтров являются:

■ если в результате анализа определены две именные группы - вин.п. и им.п. - правильной считается группа в им.п., так как такие словосочетания используются в тексте в качестве заголовков;

■ если в результате получились косвенная глаг. группа и прямая глаг. группа, правильной считается прямая глаг. группа, так как она содержит подлежащее (т.е. является двусоставным предложением). В технической документации не используются односоставные предложения в изъявительном наклонении.

Отдельный раздел главы посвящен тому, как результаты предложенного метода лексико-синтаксического анализа используются для контроля соответствия текста правилам УТР, приведенным в приложении к диссертации.

Проводится оценка производительности реализованных алгоритмов в двух режимах: симуляционном и достоверном. В симуляционном режиме правила слияния отсутствуют, при этом каждая вершина автоматически сливается с каждым своим соседом. Данный режим иллюстрирует проблему экспоненциального взрыва, т.е. неконтролируемого роста количества вариантов разбора. Производительность реализованных алгоритмов соответствует теоретическим оценкам (9), полученным в главе 3. В среднем количество

словоформ для каждого русского слова колеблется в пределах одной - трех. Случаи с 4 или более словоформами редки. Приняв за среднее количество словоформ 2, подсчитываются временные характеристики обработки предложений с количеством слов от 7 до 30 (14 - 60 словоформ). При этом время обработки самых сложных предложений не превышает 9 секунд.

В достоверном режиме программа оперирует набором правил слияния, соответствующих синтаксису русского языка. При этом количество вариантов разбора существенно ниже и соответствует теоретической оценке (10) при значении ц~0.44. Время обработки тестовых предложений (до 30 слов) не превышает 1 секунды.

В заключении сформулированы основные выводы и результаты диссертационной работы и перечислены преимущества, которые имеет предлагаемый метод ЛСА в силу упрощений, заложенных в него спецификой работы с Упрощенным Техническим Русским языком, позволяющие быстро и эффективно снимать лексическую и синтаксическую омонимию при анализе предложений.

В приложениях приведены: результаты анализа спецификаций А$0-БТЕЮО с целью создания проекта Упрощенного Технического Русского языка, примеры ошибок, выявляемых системой ЛВТД, список правил слияния, используемых экспериментальной программой, и основные типы и классы экспериментальной программы.

Основные научные и практические результаты диссертационной работы заключаются в следующем:

1. разработан реестр языковых характеристик, который отличается от англоязычного аналога АВО-БТЕЮО правилами, свойственными русскому языку как языку со свободным порядком слов, и который позволяет реализовать стратегию упрощения русского языка с целью контроля процесса составления технической документации;

2. разработана модель представления предложения на русском языке, отличающаяся от известных моделей инвариантностью формы описания синтаксической схемы и позволяющая анализировать множественные варианты трактовки предложения в рамках единой структуры;

3. предложен метод и синтезированы алгоритмы автоматического анализа текста на русском языке, отличающиеся от аналогов снятием лексических и синтаксических неоднозначностей, и позволяющие определять синтаксические функции отдельных слов и словосочетаний;

4. выполнена программная реализация разработанных алгоритмов, метода и модели, представляющая решение задачи автоматического анализа текста на естественном языке, позволяющая проверять текст на соответствие спецификациям УТР и иллюстрирующая достоверность полученных результатов.

Основные положения исследования отражены в следующш публикациях:

1. В. И. Божич, А. В. Тарасенко. Омонимические неоднозначности при анализ текстов, Сборник материалов 7 международной научно-практическо конференции "Компьютерная Безопасность" - Таганрог: Изд-во ТРТУ, 2005, 331-333;

2. В. И. Божич, А. В.Тарасенко. Синтаксический анализ: методы и модели. Всероссийская научно-техническая конференция с международным участие? посвященная 60-летию Победы "Компьютерные и информационные технологи в науке, инженерии и управлении" - Таганрог: Изд-во ТРТУ, 2005, с. 83-84.

3. А. В. Тарасенко. Современная тенденция в разработке техническо документации в авиакосмической промышленности., Сборник работ лауреато конкурса молодых ученых им. академика И. И. Воровича. - Ростов-на-Дону Изд-во СКНЦ ВШ, 2006, с. 97-100.

4. А. В. Тарасенко. Упрощенный язык., Журнал "ИНЖЕНЕР" - Киев: Изд-в ДРУК-ИНФО, №7,2006г, с. 205-208

5. В. И. Божич, А. В.Тарасенко. Агентная модель предложения на естественно языке., Радиоэлектроника, электротехника и энергетика, Тринадцатая межд науч.-технич. конференция студентов и аспирантов, Тезисы докладов.- М.: Изд во МЭИ, 2007.

6. Гузик В. Ф., Тарасенко А. В. Разработка формата словарной базы дл системы валидации технической документации, Журнал "Телекоммуникации" • Курск: 2008, №1, с. 53-55.

7. Гузик В. Ф., Тарасенко А. В. Дагаев А. В. Реализация методик системногс анализа при моделировании сложных объектов, Известия ЮФУ. Технически науки. Тематический выпуск "Интеллектуальные САПР". - Таганрог: Изд-в ТТИ ЮФУ, 2008, №4, с. 163-167.

В работах, опубликованных в соавторстве, лично автору принадлежа следующие результаты: в работах [1,5]- структура многозначного предложени и принципы агентной реализации процесса анализа текста; в работе [2] - анапи методик разбора текста зарубежной лингвистической школы; в работе [6] принципы реализации словарной статьи; в работе [7] - методика моделировани сложных объектов.

Соискатель

Тарасенко А. В.

Типография ТТИ ЮФУ Заказ Тираж 100 экз.

Оглавление автор диссертации — кандидата технических наук Тарасенко, Антон Витальевич

Содержание.

Введение.

1. Стандартизация естественных языков.

1.1. Естественные, искусственные, формальные языки.

1.2. Контролируемые языки и подмножества языка.

1.2.1. Проекты контролируемых языков.

1.2.2. Спецификации ASD-STE100.

1.3. Адаптация спецификаций ASD-STE100 к другим языкам.

1.4. Определение языковых характеристик, необходимых для автоматического контроля технической документации на русском языке.

1.4.1. Анализ психологических аспектов восприятия текстовой информации.'.

1.4.2. Сравнительный анализ спецификаций ASD-STE100 и УТР.

1.5. Постановка задачи лингвистической валидации технической документации.

1.6. Выводы.

2. Анализ автоматических методов разбора текста на естественном языке

2.1. Цели и задачи прикладной лингвистики.

2.2. Наука о языке.

2.2.1. Подходы к автоматическому анализу естественного языка.

2.2.2. Компоненты грамматики.

2.3. Автоматический анализ естественного языка.

2.4. Автоматический морфологический разбор.

2.4.1. Слова и формы слова.

2.4.2. Категоризация.

2.4.3. Анализ автоматических методов распознавания словоформ.

2.5. Анализ методов автоматического синтаксического разбора.

2.6. Анализ систем автоматического синтаксического разбора.

2.7. Определение лексико-синтаксического анализа.

2.8. Выводы.

3. Разработка обобщенной модели представления предложения на русском языке и метода лексико-синтаксического анализа.

3.1. Обобщенный лексико-синтаксический граф.

3.1.1. Начальный граф предложения.

3.1.2. Модификация ребер начального графа.

3.1.3. Модификация вершин начального графа.

3.1.4. Правила слияния.

3.2. Поддержка методов описания синтаксической структуры.

3.3. Разработка метода лексико-синтаксического анализа.

3.4. Алгоритмы лексико-синтаксического анализа.

3.5. Оценка вычислительной сложности алгоритмов JICA.

3.6. Выводы.

4. Программная реализация JICA и результаты экспериментальных исследований.

4.1. Основные требования к программной модели разрабатываемого метода.

4.2. Программная реализация JTCA.

4.2.1. Лексический анализ.

4.2.2. Правила слияния синтаксических групп.

4.2.3. Выявление и разрешение синтаксических неоднозначностей

4.3. Экспериментальная проверка теоретической оценки вычислительной сложности алгоритмов.

4.4. Применение модели ЛСГ и метода ЛСА в Системе валидации технической документации.

4.5. Выводы.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Тарасенко, Антон Витальевич

В последние годы роль технической документации в производственном процессе существенно возросла. Сложность и многофункциональность даже бытовых приборов требует внимательного изучения правил и особенностей их эксплуатации. Важность подробного документирования всех процедур в тех областях, где безопасность является ключевым понятием (например, авиастроительная промышленность), невозможно переоценить, поскольку надежность работы комплексной системы зависит не только от совершенства технических решений, но и от правильности их эксплуатации и обслуживания в течение всего жизненного цикла. На сегодняшний день детальная документация наряду с такими компонентами, как аппаратное и программное обеспечение, является обязательной и неотъемлемой частью современной продукции, систем и оборудования.

Стремительное развитие современной техники имеет оборотную сторону медали - ввиду зачаточного состояния исследований в области создания искусственного интеллекта любая техника должна управляться оператором-человеком. Обучение оператора требует значительных временных и финансовых затрат. Уже сейчас оборудование военного или гражданского назначения сопровождается огромным количеством эксплуатационной или ремонтной документации, освоение которой оператором требует наличия специализированных и долговременных учебных курсов. Для наукоемких промышленных изделий затраты на создание и поддержку эксплуатационной технической документации могут составлять значительную часть общих затрат на эксплуатацию самого изделия.

Для решения этой проблемы создаются проекты контролируемых технических языков — сводов правил, искусственно ограничивающих естественный язык с целью повышения точности и однозначности высказываний. Одним из примеров такого ограничения (для английского языка) являются спецификации ASD-STE100 [100], которые представляют собой свод правил, ограничивающих словарь и грамматику английского языка. Новый язык получил название Simplified Technical English или STE (Упрощенный Технический Английский). STE удобен в тех видах документации, где однозначность толкований имеет решающее значение, но неуместен в деловых и художественных текстах. Сторонники ASD-STE100 утверждают, что упрощенный язык позволяет: сократить время чтения текста; устранить неоднозначности; сделать перевод проще и дешевле; облегчить восприятие текста человеку, не являющемуся носителем языка; вплотную приблизиться к решению проблемы автоматического перевода.

Стандартизация технического английского языка доказала свою состоятельность большим числом авиастроительных компаний, активно использующих стандарт ASD-STE100, в число которых входят такие гиганты как Boeing, EADS, Embraer.

Специфическая задача для отечественных производителей, в условиях жесткой конкуренции поставляющих свою продукцию на экспорт или желающих выйти на внешний рынок, состоит в том, что вся экспортная продукция должна сопровождаться электронной версией документации, выполненной в соответствии с международными стандартами на подготовку электронной технической документации, в число которых входит и соответствие спецификациям ASD-STE100. Точный перевод русскоязычной документации на английский язык с дальнейшим его приведением к упрощенному виду является задачей ' трудоемкой и дорогостоящей. Целесообразнее организовать разработку документации на русском языке в уже упрощенном и стандартизованном виде. В связи с ростом экспорта российской техники за рубеж применение концепции упрощенного языка технической документации для русскоязычной документации становится приоритетной задачей. Хотя отдельные представители российской авиакосмической промышленности уже разрабатывают проекты ограничения технического русского языка, единого и общепринятого стандарта не существует. Кроме того, большие объемы документации требуют создания автоматизированных средств проверки соответствия текстов этим ограничениям. Таким образом, создание единого стандарта для упрощения технического русского языка, а так же проектирование автоматического инструмента проверки текстов на соответствие такому стандарту, является чрезвычайно актуальной задачей.

Целью настоящей диссертационной работы является исследование и разработка методов и моделей автоматического анализа текста на русском языке в контексте его применения в системе лингвистической валидации технической документации (СЛВТД), предназначенной для проверки технической документации на соответствие проекту спецификаций Упрощенного Технического Русского (УТР) языка.

В соответствии с поставленной целью в диссертации решаются следующие основные задачи:

1. Проводится анализ спецификаций ASD-STE100, проекта спецификаций УТР, в результате чего определяются языковые характеристики, существенные для контроля процесса составления технической документации.

2. Проводится анализ существующих методов анализа текстов на естественных языках, что позволяет выделить методы, оптимальные для контроля процесса составления технической документации.

3. Разрабатывается универсальная модель представления предложения на русском языке, позволяющая манипулировать различными вариантами трактовки предложения в рамках единой структуры и представлять эти трактовки с помощью различных подходов к описанию синтаксической структуры предложения.

4. Разрабатываются методы и алгоритмы автоматического анализа текста на русском языке, позволяющие определять и снимать лексические и синтаксические неоднозначности и определять синтаксические функции отдельных слов и словосочетаний.

Объекты исследования. Объектами исследования являются существующие проекты управляемых языков, техническая документация, методы, модели и алгоритмы анализа текстов на естественных языках.

Методы исследований. В процессе работы использовались методы дискретной математики, теории графов, теории компиляторов.

Основные теоретические результаты работы, выносимые на защиту и определяющие научную новизну работы, следующие:

1. разработан реестр языковых характеристик, который отличается от англоязычного аналога ASD-STE100 правилами, свойственными русскому языку как языку со свободным порядком слов, и который позволяет реализовать стратегию упрощения русского языка с целью контроля процесса составления технической документации;

2. разработана модель представления предложения на русском языке, отличающаяся от известных моделей инвариантностью формы описания синтаксической схемы и позволяющая анализировать множественные варианты трактовки предложения в рамках единой структуры;

3. предложен метод и синтезированы алгоритмы автоматического анализа текста на русском языке, отличающиеся от аналогов снятием лексических и синтаксических неоднозначностей, и позволяющие определять синтаксические функции отдельных слов и словосочетаний;

4. выполнена программная реализация разработанных алгоритмов, метода и модели, представляющая решение задачи автоматического анализа текста на естественном языке, позволяющая проверять текст на соответствие спецификациям УТР и иллюстрирующая достоверность полученных результатов.

Практическая ценность исследования заключается в синтезе эффективного метода синтаксического анализа текстов на русском языке для системы лингвистической валидации технической документации, которая позволяет максимально упростить разработку технической документации в соответствии с принципами Упрощенного Технического Русского языка. Результаты исследования использованы компанией АВИАОК Интернейшенел в процессе реализации концепции Упрощенного Технического Русского языка, в ходе которой разрабатывается программный комплекс, регламентирующий процесс разработки документации. Предложенная в работе модель представления текста и результаты экспериментальной программы послужили основой для создания инструмента проверки текста на соответствие спецификациям УТР. Теоретические результаты использованы при составлении проекта спецификаций УТР.

Достоверность результатов работы

Достоверность и обоснованность научных положений, результатов и выводов, приведенных в работе, обусловлена экспериментальными исследованиями в рамках программной реализации предлагаемого метода.

Апробация результатов исследования

Некоторые положения результатов работы доложены на следующих конференциях и семинарах:

VII Международная научно-практическая конференция "Информационная безопасность", г. Таганрог, ТРТУ, 2005г;

Всероссийская научно-техническая конференция с международным участием посвященная 60-летию Победы "Компьютерные и информационные технологии в науке, инженерии и управлении" г. Таганрог, ТРТУ, 2005г; заседания кафедры Вычислительной Техники Таганрогского Технологического Института ЮФУ, г. Таганрог, 2006,2007,2008г.

Публикации

По материалам работы опубликовано 7 печатных работ, из них 3 в изданиях, рекомендованных Высшей Аттестационной Комиссией.

Структура и объем диссертации

Диссертационная работа состоит из введения, пяти разделов, заключения и двух приложений. Текст изложен на 202 страницах, содержит 30 рисунков, 7 таблиц, список литературы из 102 наименований. В приложениях приводится результаты анализа спецификаций ASD-STE1000 и УТР, правила слияния для метода JICA и примеры ошибок, идентифицируемых СЛВТД.

Заключение диссертация на тему "Разработка и исследование методов и моделей автоматической проверки текстов на соответствие требованиям технической документации"

4.5. ВЫВОДЫ

В четвертой главе были приведены результаты экспериментальных исследований программы, разработанной в соответствии с предложенными методами и алгоритмами.

На характерных примерах показаны преимущества, которые имеет предлагаемый метод JICA в силу упрощений, заложенных в него спецификой работы с Упрощенным Техническим Русским языком. Отдельно отмечаются сложности, с которыми пришлось столкнуться при разработке метода. Исследования показали согласованность практических результатов с теоретическими оценками вычислительной сложности алгоритмов. Временная оценка в размере 5 секунд на обработку предложения из 38 слов по самому худшему сценарию показывает, что алгоритм гарантированно не войдет в состояние экспоненциального взрыва для длинных предложений.

В конце главы было показано, как результаты разработанных модели и метода используются системой лингвистической валидации технической документации с целью проверки текста на соответствие правилам УТР.

ЗАКЛЮЧЕНИЕ

В заключении обобщим результаты исследования.

В первой главе проведен анализ проектов упрощенных технических языков, что позволило сформировать реестр языковых характеристик, который отличается от англоязычного аналога ASD-STE100 правилами, свойственными русскому языку как языку со свободным порядком слов, и который позволяет реализовать стратегию упрощения русского языка с целью контроля процесса составления технической документации.

На основе данного реестра сделан вывод о том, что для автоматизации большинства правил УТР необходимо реализовать лексическую и синтаксическую составляющие процесса анализа текста. Семантический анализ необходим только как возможность повысить качество синтаксического анализа, а как отдельный процесс не является существенным.

На основе анализа, проведенного вол второй главе, сделан вывод о том, что ни один из рассмотренных методов анализа русского языка не соответствует задаче контроля технической документации в силу либо незавершенности метода, либо его излишней универсальности, приводящей к появлению некорректных результатов. В качестве способа, позволяющего обойти эти проблемы, предложено отказаться от разметки синтаксических отношений. На основе этого упрощения было дано определение лексико-синтаксического анализа (JICA) как основы процесса проверки предложения соответствия спецификациям УТР.

В третьей главе была разработана модель представления многозначного предложения на русском языке. Предложенная модель обобщенного лексико-синтаксического графа (ОЛСГ) позволяет объединить в единую структуру лексически и синтаксически омонимичные значения.

Кроме того, ОЛСГ позволяет задавать множество синтаксических трактовок предложения в рамках различных подходов к описанию синтаксических структур, что отличает модель от существующих аналогов и является удобной площадкой для апробации различных методов проведения синтаксического анализа.

В рамках данной модели был разработан метод и синтезированы алгоритмы автоматического анализа текста на русском языке, отличающиеся от аналогов снятием лексических и синтаксических неоднозначностей, и позволяющие определять синтаксические функции отдельных слов и словосочетаний. Была проведена оценка вычислительной сложности предложенных алгоритмов для русского языка.

В четвертой главе были приведены результаты экспериментальных исследований программы, разработанной в соответствии с предложенными методами и алгоритмами. Эффективность предложенных алгоритмов проиллюстрирована на синтаксически неоднозначных примерах предложений. Исследование показали согласованность практических результатов с теоретическими оценками вычислительной сложности алгоритмов. Временная оценка в размере 5 секунд на обработку предложения из 38 слов по самому худшему сценарию показывает, что алгоритм гарантированно не войдет в состояние экспоненциального взрыва для длинных предложений.

Отдельно показано, как результаты ЛСА могут быть использованы для поиска несоответствий предложения правилам УТР и применения в системе лингвистической валидации технической документации.

Достигнутые результаты доказывают достоверность основных теоретических результатов работы, выносимых на защиту и определяющих научную новизну исследования.

Библиография Тарасенко, Антон Витальевич, диссертация по теме Теоретические основы информатики

1. Аванесов Р. И., Сидоров В. Н. Очерк грамматики русского литературного языка. М., 19451.

2. Автоматическая Обработка Текста. URL: www.aot.ru

3. Алексеев Е.Р. Программирование на Microsoft Visual С++ и Turbo С++ Explorer. М.: Изд-во НТ Пресс, 2007 г.

4. Апресян Ю.Д. и др. Лексическая семантика. М.: Наука, 1974. - с. 99.

5. Арнольд И.В. "The English Word", изд. Высшая Школа, 1973г.

6. Ахо А., Сети Р., Ульман Дж. Компиляторы: принципы, технологии, инструменты. Спб.: Издательский дом "Вильяме", 2001г.

7. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. Т. 1. Синтаксический анализ, М., 1978

8. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. Т. 2. Компиляция, М., 1978.

9. Бадд Тимоти. Объектно-ориентированное программирование в действии. СПб.: Изд-во ПИТЕР, 1997.

10. Баранов А.Н. "Введение в прикладную лингвистику" Серия "Новый лингвистический учебник". Изд.2. 2003. 360 с.

11. Беляева Л.Н., Откупщикова М.И. Автоматический (машинный) перевод. СПб.: Прикладное языкознание, 1996г.

12. Берштейн Л. С., Боженюк А. В. Нечеткие графы и гиперграфы. М. : Науч. мир, 2005. -255с.

13. Божич В. И, А. В. Тарасенко. Омонимические неоднозначности при анализе текстов, Сборник материалов 7 международной научнопрактической конференции "Компьютерная Безопасность" Таганрог: Изд-во ТРТУ, 2005, с. 331-333;

14. Божич В. И., Тарасенко А. В. Агентная модель предложения на естественном языке., Радиоэлектроника, электротехника и энергетика, Тринадцатая межд. науч.-технич. конференция студентов и аспирантов, Тезисы докладов.- М.: Изд-во МЭИ, 2007.

15. Божко А.Н., А.Ч. Толпаров, Структурный синтез на элементах с ограниченной сочетаемостью. Электронное научно-техническое издание Наука и Образование, май 2004г.

16. Большаков И. А., А. Ф. Гельбух. "Модель "Смысл-Текст": Тридцать лет спустя", J. International Forum on Information and Documentation, FID 519, ISSN 0304-9701, N 1,2000.

17. Бузикашвили H.E., Г.А. Крылова,. Д.В. Самойлов, N-граммы в лингвистике

18. Бузикашвили Н.Е., Стохастические грамматики с отсечением. // Методы и средства работы с документами. М., Эдиториал УРРС. 2000.

19. Виноградов В.В. Избранные труды: Исследования по русской грамматике. М., 1975

20. Вишняков Ю. М., Кизянов А. Ф. Корректировка разбивки слов на морфемы с помощью самообучающейся нейронной сети. Материалы V международной научной конференции "НАУКА И ОБРАЗОВАНИЕ" В 4 ч. / Белово: Беловский полиграфист. 2004. 4.4 . 629 с

21. Выготский JI.C., "Мышление и речь". Изд. 5, испр. М.: Лабиринт, 1999г.

22. Гинзбург С. Математическая теория контекстно-свободных языков. М. 1970.

23. Гладкий А. В. Синтаксические структуры естественного языка. М.: Наука, 1985

24. Гладкий А. В. Формальные грамматики и языки. М.: Наука, 1973.

25. Гладкий А. В., Мельчук А. В. Элементы математической лингвистики. -М.: 1969. 192 с.

26. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения. Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика. М., 1989г.

27. Гросс М., Лантен А. Теория формальных грамматик. М.: Мир, 1971. 294с.

28. Гузик В. Ф., Тарасенко А. В. Разработка формата словарной базы для системы валидации технической документации, Журнал "Телекоммуникации" Курск: 2008, №1, с. 53-55.

29. Гуриев В., Таран О., Мирошниченко С. Ничего никому не скажу. -Компьютерра ONLINE, 2005, окт., №36.

30. Демьянков В. 3., Доминирующие лингвистические теории в конце XX века // Язык и наука конца 20 века. М.: Институт языкознания РАН, 1995. с.239-320.

31. Евграфова С. Синтаксис и семантика в пунктуации // Русский язык (приложение к газете <Первое сентября>). 2004. - № 14.

32. Зализняк А. А., Грамматический словарь русского языка (электронная версия) URL: http://starling.rinet.ru/cgi-bin/main.cgi?flags=eygtmnl

33. Зализняк А. А., Русское именное словоизменение, М., 1967.

34. Зализняк, Андрей Анатольевич, Материал из Википедии свободной энциклопедии.

35. URL: http://ru.wikipedia.org/wiki/Зaлизняк,AндpeйAнaтoльeвич

36. Замятин А. П., Шур А. М. Языки, грамматики, распознаватели: Учебное пособие. Екатеринбург: Изд-во Урал, ун-та, 2007, - 248с.

37. Иванов А.Г., Пятницкий А.А, Филинов Ю.Е. Объектно-ориентированный подход технологии программирования. СПб.: Питер, 2003. 443 с.

38. Иомдин Л.Л., Сизов В.Г., Цинман Л.Л. "Использование эмпирических весов при синтаксическом анализе", ИППИ РАН.

39. Ионов М. Теория порождающих грамматик Н. Хомского и ее сравнение с лингвистами начала XX века. URL: http://www.philol.msu.ru/~otipl/new/archive/essays/ionov2007.pdf.

40. Касьянов В.Н. Лекции по теории формальных языков, автоматов и сложности вычислений. Новосибирск: НГУ. - 1995. - 112 с.

41. Кибрика А. Е. Аспекты теории синтаксиса. / Пер. с англ. А. Е. Кибрика, В. В. Раскина, В. И. Шовкуна. М.: Изд-во МГУ, 1972. 259 с.

42. Клобуков Е. В., "Формальные грамматические средства", Современный русский литературный язык: учебник для филологических специальностей пед. институтов/ П.А. Лекант, Н.Г. Гольцова, В.П. Жуков и др.; Под ред. П. Леканта М.: Высш. шк., 1988.

43. Кнут Д. Э. Искусство программирования, том 3, Сортировка и поиск. Второе издание., Москва 2007.

44. Койт М.Э., Роосмаа Т.А., Ыйм Х.Я. ОТ СИНТАКСИСА К СЕМАНТИКЕ О ВЫБОРЕ ФОРМАЛИЗМОВ И ЛИНГВИСТИЧЕСКИХ РЕСУРСОВ // труды Международной конференции Диалог'2007. - Москва, Наука, 2007

45. Крищенко В.А. ИСПОЛЬЗОВАНИЕ LR-ТАБЛИЦ ДЛЯ РАЗБОРА ОГРАНИЧЕННОГО ЕСТЕСТВЕННОГО ЯЗЫКА, Электронный журнал <ИССЛЕДОВАНО В РОССИИ>, 6/7 2000г,

46. Любецкий В.А., А.В. Селиверстов. Многодольные графы с двумя вершинами в каждой доле. Информационные процессы, 2004, том 4, No 2, стр. 127-132

47. Мальковский М.Г., Грацианова Т.Ю., Полякова И.Н. Прикладное программное обеспечение: системы автоматической обработки текстов. М.: МГУ, издательский отдел факультета ВМК, 2000. - 52 с.

48. Марчук Ю.Н. Основы компьютерной лингвистики. Учебное пособие. Издание 2-е дополненное. М.: Изд-во МПУ "Народный учитель", 2000. -226с.

49. Мелихов А. Н. Ориентированные графы и конечные автоматы. М.: Изд-во НАУКА, 1971.

50. Мелихов А. Н., Берштейн Л. С., Курейчик В. М., Применение графов для проектирования дискретных устройств. М.: Изд-во НАУКА, 1974.

51. Мельчук И.А. Логические основы лингвистической теории. Пер. с англ. И. А. Мельчука. / Логические основы лингвистической теории. Биробиджан: ИЦ "Тривиум", 2000. С. 3-114.

52. Мельчук И.А. Опыт теории лингвистических моделей "смысл<=>текст" : Семантика, синтаксис / И.А.Мельчук.-Переизд.. // Школа "Языки русской культуры". Москва, 1999.

53. Пентус А. Е., Пентус М. Р. Теория формальных языков: Учебное пособие. М.: Изд-во ЦПИ при механико-математическом ф-те МГУ, 2004. -80 с.

54. Плискин М."Эволюция языков программирования" СПб.: Изд-во ПИТЕР, 2003.

55. Попов Э. В., Фридман Г. Р. Алгоритмические основы интеллектуальных роботов и искусственного интеллекта. -М.: Наука, 1976.

56. Попов Э.В., общение с ЭВМ на естественном языке, УРСС, 2004.

57. Протасов С. В. Вывод и оценка параметров дальнодействующей триграммной модели языка. http://www.dialog-21 .ru/dialog2008/materials/pdf769.pdf

58. Протасов С. В. Обучение с нуля грамматики связей для. русского языка. http://slashzone.ru/parser/Protasov-CAI06-present.pdf.

59. Сокирко А., диссертация "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)"

60. Старостин А.С., М.Г. Мальковский, МОДЕЛЬ СИНТАКСИСА В СИСТЕМЕ МОРФОСИНТАКСИЧЕСКОГО АНАЛИЗА <TREETON>, Труды международной конференции <Диалог 2006>

61. Сухарев М. В. Основы Delphi. Профессиональный подход. М.: Изд-во Наука и техника, 2004 г.

62. Тарасенко А. В. Современная тенденция в разработке технической документации в авиакосмической промышленности., Сборник работ лауреатов конкурса молодых ученых им. академика И. И. Воровича. Ростов-на-Дону: Изд-во СКНЦВШ, 2006, с. 97-100.

63. Тарасенко А. В. Упрощенный язык., Журнал "ИНЖЕНЕР" Киев: Изд-во ДРУК-ИНФО, №7, 2006г, с. 205-208

64. Токарева О.В, Изучение научного наследия А.А. Ляпунова в области машинного перевода и математической лингвистики как элемент формирования информационной культуры студентов-гуманитариев.

65. Конференция, посвященная 90-летию со дня рождения Алексея Андреевича Ляпунова, Новосибирск, 2001г.

66. Фитиалов С .Я. Формальные грамматики. Л.: Изд-во Ленингр. ун-та, 1984. 99 с.

67. Харари Ф. Теория графов. М.: Едиториал УРСС, 2003

68. Хомский Н., Миллер Дж. Введение в формальный анализ естественных языков // Кибернетический сборник / Под ред. А.А.Ляпунова и О.Б.Лупанова. -М.: Мир, 1965.

69. Шаров С.А. Средства компьютерного представления лингвистической информации, URL: http://ittc.ksu.ru/vol000/002/

70. ALLEN J., BARTHE К., Introduction to Controlled Languages. Society for Technical Communication (France chapter) meeting. Paris, 2 April 2004.

71. Boguslavsky I., S. Grigorieva, N. Grigoriev, L. Kreidlin, N. Frid. Dependency Treebank for Russian: Concept, Tools, Types of Information // Proceedings of the 18th International Conference on Computational Linguistics (COLING 2000), 2000, p. 987-991

72. Bourland D. David, Jr., TO BE OR NOT TO BE: E-Prime as a Tool for Critical Thinking, E-Prime! The Fundamentals. http://www.esgs.org/uk/art/eprl.htm.

73. Brill E., "A SIMPLE RULE-BASED PART OF SPEECH TAGGER"

74. Bruza P., D. Song "A Comparison of Various Approaches for Using Probabilistic Dependencies in Language Modeling".

75. Chandler Daniel. The Sapir Whorf Hypothesis // Web site of University of Wales, Aberystwyth.

76. Chomsky N., "Three Models for the Description of Language," IRE Transactions on Information Theory, vol. IT-2, Proceedings of the Symposium on Information Theory, 1956.

77. Chomsky, N. Aspects of the Theory of Syntax. MIT Press, 1965

78. Church K.W., "A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text"

79. EU Network of Excellence REWERSE (Reasoning on the Web with Rules and Semantics). URL: http://rewerse.net/.

80. Francis W. N., H. Kucera. Frequency Analysis of English Usage: Lexicon and Grammar., 1982.

81. Greibach S.A. A note on undecidable properties of formal languages // Math. Systems Theory, 1968. Vol. 2, №1.

82. Han, Song-Chun Zhu. Bottom-Up/Top-Down Image Parsing with Attribute Grammar. IEEE Trans Pattern Anal Mach Intell. 2009 Jan;31(l):59-73.

83. Hausser Roland, Foundations of Computational Linguistics. 2nd rev. and ext. ed., 2001, XIV, 578 p.

84. Hieronymus J., Larsson S., Gronqvist L., "Associating the Dialogue Move Engine with Speech Input"

85. John F. Sowa, Common Logic Controlled English, 24 February 2004.

86. Johnson Edward, "Talking across Frontiers: Building Communication between Emergency Services", Regional & Federal Studies, 12, 2002, 88-110. http://www.prolingua.co.uk/talking.pdf

87. Joshi A, Kosaraju S. R., Yamada H. String Adjunct Grammars. Proceedings Tenth Annual Symposium on Automata Theory, Waterloo, Canada, 1969

88. Jurafsky D, Martin J. Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall. 2000.

89. Karlsson F., "CONSTRAINT GRAMMAR AS A FRAMEWORK FOR PARSING RUNNING TEXT"

90. Katz J. J. Chomsky on meaning // Lg. 1980. V.56, №1:1-41.

91. Kittredge R. I. Sublanguages and controlled languages (The Oxford Handbook of Computational Linguistics).

92. Knuth D. E. The genesis of attribute grammars. Proceedings of the international conference on Attribute grammars and their applications (1990), 1-12. Some informal, historical information.

93. Ogden, С. K. Basic English, a general introduction with rules and grammar. -London: K. Paul, Trench, Trubner & Co., 1930.

94. Renssen van A., Gellish: an information representation language, knowledge base and ontology. Standardization and Innovation in Information Technology, 2003. Publication Date: 22-24 Oct. 2003 On page(s): 215- 228.

95. Salomaa A. Formal languages. N.Y.: Academic Press, 1973. 335 p

96. Simplified English The new language in International Business. - Tilburg: Tedopres International V. В., 2nd edition, 2004.

97. Sleator Daniel and Davy Temperley. 1991. Parsing English with a Link Grammar. Carnegie Mellon University Computer Science technical report CMU-CS-91-196, October 1991.

98. Sleator Daniel and Davy Temperley. 1993. Parsing English with a Link Grammar. Third International Workshop on Parsing Technologies.

99. Sleator Daniel, John Lafferty, and Davy Temperley. 1992. Grammatical Trigrams: A Probabilistic Model of Link Grammar. Proceedings of the AAAI Conference on Probabilistic Approaches to Natural Language, October, 1992.

100. Specification ASD-STE100, A GUIDE FOR THE PREPARATION OF AIRCRAFT MAINTENANCE DOCUMENTATION IN THE INTERNATIONAL AEROSPACE MAINTENANCE LANGUAGE, ISSUE 3, JANUARY 2005.

101. Traduction Automatique a l'Universite de Montreal, URL: http ://en. wikipedia. org/wiki/T AUMsy stem

102. Winograd T. Understanding Natural Language by T. Winograd, Academic Press, 1972 winograd.