автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Разработка инструментальной среды для экспериментов с алгоритмами поверхностно-синтаксического анализа

кандидата технических наук
Баталина, Анна Михайловна
город
Москва
год
2008
специальность ВАК РФ
05.25.05
цена
450 рублей
Диссертация по документальной информации на тему «Разработка инструментальной среды для экспериментов с алгоритмами поверхностно-синтаксического анализа»

Автореферат диссертации по теме "Разработка инструментальной среды для экспериментов с алгоритмами поверхностно-синтаксического анализа"

17Ю36

На правах рукописи

БАТАЛИНА Анна Михайловна

РАЗРАБОТКА ИНСТРУМЕНТАЛЬНОЙ СРЕДЫ ДЛЯ ЭКСПЕРИМЕНТОВ С АЛГОРИТМАМИ ПОВЕРХНОСТНО-СИНТАКСИЧЕСКОГО АНАЛИЗА

Специальность 05.25.05 ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ПРОЦЕССЫ, ПРАВОВЫЕ АСПЕКТЫ ИНФОРМАТИКИ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

? э ' 2

Москва-2008

003171036

Работа выполнена

в Российском государственном гуманитарном университете

Научный руководитель:

Доктор технических наук, старший научный сотрудник Лахути Делир Гасемович Официальные оппоненты:

Доктор технических наук Зеленков Юрий Григорьевич

Кандидат физико-математических наук, доцент Валиев Марс Котдусович

Ведущая организация:

Институт программных систем РАН

Защита состоится «25» июня 2008 г. в 14 часов на заседании диссертационного совета Д 002 026 01 при Всероссийском институте научной и технической информации РАН по адресу. 125190, Москва, уя Усиевича, д. 20.

С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации РАН.

Автореферат разослан мая 2008 г.

Ученый секретарь диссертационного совета доктор технических наук, профессор

Цветкова В. А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Работа посвящена созданию инструментальной программной среды, облегчающей и ускоряющей процесс отладки большой системы лингвистических алгоритмов, конкретно алгоритмов поверхностно-синтаксического анализа русского предложения

В свое время (50-60 гт XX в) большим достижением в области информационных процессов и систем явилось создание документальных ИПС, использовавших в качестве поисковых признаков лексический состав — множества лексических единиц (ЛЕ) - документов, подлежащих выдаче на запросы пользователей (так называемые ИПС с грамматикой 1-го уровня [25, с. 6]), обеспечивавших среднюю полноту и точность поиска до 50-60 % Потребность в повышении полноты поиска без существенного падения точности в сочетании с потребностью в автоматической обработке все возрастающего потока входных документов (автоматизации индексирования) привели в 70-80-е гг к созданию и широкому распространению ИПС с грамматикой 2-го уровня, учитывающей такие относительно легко поддающиеся распознаванию синтагматические отношения JIE в тексте, как взаимное расположение, расстояние между ними и вхождение в легко распознаваемые фрагменты текста, прежде всего предложения Собственно говоря, именно к этому типу принадлежат повсеместно используемые в настоящее время «поисковые машины» Интернета (Яндекс, Google и др) С одной стороны, эти системы имеют возможность выдвигать такие девизы, как «Найдется все», а с другой стороны в целом ряде случаев за полноту поиска приходится платить значительным возрастанием информационного шума Стремительное нарастание информационных массивов (в масштабах Интернета количество документов измеряется уже миллиардами) выдвигает повышенные требования к сочетанию показателей полноты и точности поисковых систем.

Актуальность темы

Одним из необходимых средств повышения точности документального (текстового) поиска является синтаксический анализ входного текста «Синтаксический анализ сам по себе не является достаточным средством существенного повышения качества поиска в документальных ИПС Однако он является необходимым условием эффективного применения, во-первых, тезаурусов понятий (дескрипторосочетаний, концептуальных словарей), являющихся (точнее, долженствующих быть) основным средством обеспечения эффективного семантического анализа - "понимания"

автоматизированными ИПС запросов к ним, текстов, подлежащих выдаче, и соответствия (отношения релевантности/нерелевантности) между ними» ([21] с 39) Иначе говоря, синтаксический анализ является необходимым элементом концептуального анализа текстов, понимаемого как «распознавание в них наименований понятий, выраженных словами и словосочетаниями, и отношений между понятиями» [7]

Другими важными областями применения автоматического синтаксического анализа в сфере информатики являются автоматическое извлечение фактов из текста (в частности, для введения в фактографические ИПС, или базы данных), автоматическое аннотирование и реферирование первичных документов, не говоря уже о машинном переводе Частичный синтаксический анализ уже применяется (например, в поисковой системе компании Интегрум Техно) для выявления в тексте документов составных имен собственных (имен лиц, названий организаций и т п) и отношений между ними (типа вступления некоторого лица в организацию, ухода из организации и тп)

Таким образом, синтаксический анализ текста (для нашей страны - в первую очередь русского текста) становится все более важным информационным процессом, а его автоматизация - все более существенной для повышения эффективности современных информационных систем и процессов

«Проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена» [8, с 11], хотя в течение последних десятилетий над ней работал ряд весьма сильных научных коллективов (в большинстве случаев эта проблема ставилась ими не как самостоятельная, а как частичная задача в рамках таких задач, как машинный перевод или автоматический поиск текстов) Наиболее продвинутыми можно считать работы в рамках систем ЭТАП ([3, 4, 13]), АОТ ([28]), RETRANS ([8]) TREETON ([30, 31]) и нек др. В качестве самостоятельной задачи алгоритмизация (как основа для автоматизации) синтаксического анализа русского текста была поставлена ТЮКобзаревой [15-18] Ее подход отличается от подхода большинства из указанных выше коллективов тем, что синтаксический анализ рассматривается ею не в неразрывной связи с семантическим анализом («когда мы ведем речь о синтаксическом или о семантическом анализе и синтезе текстов, то надо иметь в виду, что это всегда бывает их семантико-синтаксический анализ и синтез» [7, разд 1 4], а как самостоятельный этап анализа текста, предшествующий семантическому анализу и использующий минимальные семантические сведения,

грамматикализованные, такие как «одушевленность - неодушевленность», или грамматикализуемые, такие как модели управления, сформулированные в самых общих грамматических терминах (таких как «управление определенным падежом», «управление предлогом» и т п , см с 26 диссертационной работы)

Неоднократные попытки программно реализовать разработанные Т Ю Кобзаревой алгоритмы синтаксического анализа русского текста не были завершены (хотя частичные программные реализации дают основание считать, что эти алгоритмы способны решить стоящую перед ними задачу) Помимо несовершенства доступных технических средств (первые попытки производились еще на ЭВМ ЕС) и потери квалифицированных исполнителей, связанной с событиями 90-х гг прошлого века, основной причиной этого можно считать объективную сложность задачи, исключающую возможность одноактного полного и окончательного решения ее «в голове» или «на бумаге» « Сколь бы глубоко и тщательно ни разрабатывался синтаксический анализатор < >, в нем неизбежно остаются белые пятна и лакуны Многие лингвистические факты, в том числе критически существенные для работы анализатора, никогда не попадали в поле зрения ученых просто потому, что они не имели возможности в массовом порядке оперировать материалом неверного или неожиданного синтаксического разбора предложений Именно такой материал в изобилии поставляет развитая система автоматической обработки текстов, а работа с этим материалом позволяет выявить лакуны научного описания и устранить их» [13, с 234] Этому соответствует итеративный процесс пробной программной реализации -оценки пробного решения и анализа его ошибок (как программных, так и алгоритмических) - исправления их в следующей пробной реализации и т д

Лингвистические знания обо всех этапах анализа текста обычно записываются специалистами предметной области в текстовых редакторах в виде правил, организованных некоторым образом Здесь можно выделить два подхода условно говоря, «словарный», использующий богатую лексическую информацию и относительно простые алгоритмические решения (примером может служить система ЭТАП), и «алгоритмический» - использующий минимально необходимую словарную информацию и достаточно сложные алгоритмы1, представленный в системе,

1 Под оловом «алгоритм» понимается совокупность лингвистических правил, связанных между собой так, что в зависимости от результатов применения текущего правила однозначно определено, какое правило следует применить следующим

описываемой в настоящей работе У каждого из них есть свои достоинства и недостатки. Когда объем информации, на основе которой строятся алгоритмы, становится большим, специалисту предметной области (особенно при втором подходе) становится все труднее отслеживать ее актуальность, корректность с лингвистической точки зрения, проводить умозрительно какие-либо эксперименты с работой алгоритмов на различных примерах

Основная идея предлагаемой работы состоит в том, что оптимальным способом осуществления этого итеративного процесса является разработка специальной инструментальной программной среды, которая позволила бы сделать постоянное изменение реализуемой системы программ регулярным процессом Таким образом, актуальным становится создание специального инструментального средства для наглядного, предметно ориентированного представления лингвистической информации об анализе текста, предоставляющего возможность отладки и лингвистического эксперимента специалисту, реализующему систему лингвистических правил Представляемая работа описывает такую систему (Идея создания специального интерпретатора для отладки лингвистических алгоритмов была выдвинута М Е Епифановым, разработавшим также объектную модель, положенную в основу описываемой инструментальной среды, реализация которой была выполнена автором данной диссертационной работы)

Цель работы и задачи исследования

В работе рассматривается инструментальная среда, реализованная для предметно ориентированного моделирования лингвистических алгоритмов и произведения с ними различной сложности вычислительных экспериментов (от изменения порядка их применения до детальной отладки каждого из входящих в них правил) Предметной базой для реализации описываемой среды стали алгоритмы поверхностно-синтаксического анализа (ПСА) Т Ю Кобзаревой [15-18]

При помощи рассматриваемой среды решаются следующие задачи. 1. реализация специального инструментального средства для наглядного, предметно ориентированного представления лингвистической информации об анализе текста, предоставляющего возможность отладки и вычислительного эксперимента специалисту, реализующему систему лингвистических правил

2 моделирование лингвистических алгоритмов на входном языке, отражающем специфику предметной области, близком по структуре к оригинальной записи лингвистических алгоритмов (сделанной специалистом предметной области) и открытом как для пополнения новыми лингвистически значимыми конструкциями, так и дня изменения структуры алгоритмов и их блоков

3 отладка лингвистических алгоритмов с предоставлением функциональности, аналогичной функциональности сред программирования (установка прерывания, трассировка, протоколирование, просмотр результата в разных видах)

4 проведение вычислительных экспериментов с лингвистическими алгоритмами, не требующее чрезмерно больших человеко-временных затрат

5 поддержка работы с большой совокупностью лингвистических алгоритмов на уровне структуризации и обозримости алгоритмов и актуальных для них примеров текстов

Методы исследования

Основным методом исследования проблемы реализации инструментальной среды для экспериментов с алгоритмами ПСА являлось применение принципа максимальной предметной ориентированности представления алгоритмов, обеспечения их отладки и вычислительного эксперимента с ними в условиях, приближенных к отладке программ в современных средах программирования.

Был проведен анализ «топологии» алгоритмов ПСА с точки зрения переходов от одного узла к другому. Были выявлены основные типы конструкций, используемых в записи правил, для чего реализована специальная БД

Научная новизна

Проблемы обозримости, поддержки, пополнения и отладки совокупности лингвистических знаний при создании систем анализа текста на сегодняшний момент в различных системах решается по-разному Либо при помощи тесного взаимодействия с программистом, реализующим лингвистические знания в виде готовой программной системы (но при этом общий язык для взаимодействия - естественный, что затрудняет формализацию знания, кроме того, переделка лингвистической базы требует существенной модификации программного кода), либо при помощи использования для записи правил специального формального языка (но при этом результат эксперимента виден только на выходе, а не «в процессе») Средства для отладки лингвистических

алгоритмов анализа текста в печати не представлены В связи с этим представляются новыми следующие результаты, автоматизирующие решение данных проблем

1 реализована адекватная предметной области объектная модель разработано представление алгоритмов, правил, обрабатываемых примеров

2 реализована соответствующая вычислительная модель, ориентированная на пошаговое выполнение алгоритмов с возможностью прерывать вычисление на каждом шаге и просматривать во время таких прерываний значения используемых в этих алгоритмах переменных, состояние вычислительной среды, вычислять пробные значения каких-либо выражений и т п

3 разработаны входные языки описания алгоритмов синтаксис, процедурная семантика (для инструментальной среды, для взаимодействия с другими приложениями с целью просмотра результата)

4 реализованы средства отладки лингвистических алгоритмов с широкими возможностями (проход по алгоритмам, просмотр результата в режиме реального времени, вычисление различных выражений с лингвистическими переменными, участвующими в алгоритмах)

Практическая значимость работы

Средствами реализованной инструментальной среды были промоделированы и отлажены частично или полностью следующие блоки алгоритмов Т Ю Кобзаревой [1518] анализ случаев частеречной омонимии [20], наиболее часто встречающихся или синтаксически наиболее значимых, сегментация (разделение предложения на части, соответствующие отдельным исходным экстралингвистическим ситуациям простые главные и придаточные предложения и всякого рода обособленные обороты), внутрисегментный анализ (установление синтаксических подчинительных связей внутри каждой части предложения), более подробно описанные в разделе «Алгоритмы поверхностно-синтаксического анализа ТЮ Кобзаревой» диссертационной работы Часть алгоритмов была реализована в сжатые сроки в рамках дипломных работ при консультировании или под руководством [24, 33] автора данной работы В ходе моделирования и отладки были выявлены некоторые неточности, исправленные автором алгоритмов

Апробация и внедрение

Ход и результаты работы были представлены на следующих международных конференциях (библиографические ссылки см в разделе «Результаты изложены в следующих публикациях»)

• конференция по компьютерной лингвистике «Диалог» - доклады с демонстрацией в 2004,2005,2006,2007 гг,

• конференция по искусственному интеллекту «КИИ» - доклады в 2004,

2006 гг,

• конференция по интеллектуальной обработке данных «НТИ» - доклад в

2007 г,

• конференция по прикладной лингвистике \^а1лп§ - доклад в 2007 г Разработанные положения отражены в трудах данных конференций, а также в

статье с участием автора в журнале «Программные продукты и системы»

Задача имплементации синтаксического анализа определений терминов реализуется автором средствами описываемой в данной работе инструментальной среды в рамках гранта РФФИ № 06-06-80434

Структура работы

Диссертацию открывает Введение, за ним следует глава 1 - обзор затрагиваемой в работе предметной области В главе 2 описываются алгоритмы Т Ю Кобзаревой, ставшие лингвистической базой для реализации инструментальной среды для экспериментов с алгоритмами ПСА

В главе 3 описывается проект по объектному моделированию в лингвистике и место в нем описываемой инструментальной среды В рамках общего проекта разрабатывается модель лексики языка, основанная на синтезе лингвистических единиц, [11, 12] и ведется преобразование этой модели в модель для морфологического анализа [2]

Модель лексики языка, основанная на синтезе лингвистических единиц, в целом охарактеризована в [11, 12] В данных работах задачей было выработать универсальные форматы хранения информации, за счет которых можно было бы уменьшить ограничение применимости словарей Подход основан на идее представления языковых единиц, информации о них и отношений между ними в виде объектов, объединенных в многоссылочную структуру

Модель для морфологического анализа представляет собой еще один подход к созданию морфологического анализатора Базой его реализации является объектная модель, основанная на синтезе лингвистических единиц Поскольку исходными данными инструментальной среды для экспериментов с системой алгоритмов поверхностно-синтаксического анализа являются предложения текста, лексические единицы которых представлены объектами модели лексики языка, основанной на синтезе лингвистических единиц, становится «актуальной задача проведения морфологического анализа в данной инструментальной среде таким образом, чтобы совокупность его результатов для слов предложения непосредственно формировала бы исходную структуру данных для поверхностно-синтаксического анализа этого предложения» [2]

В главе 4 приводится описание объектной модели инструментальной среды Данная модель представляет собой расширение объектной модели многофункциональных словарей, основанной на синтезе лингвистических единиц [11, 12] Для моделирования лингвистических алгоритмов к данной модели добавляются следующие объекты

• алгоритм - объект верхнего уровня, содержащий информацию о характеристиках моделируемого алгоритма, «основным» данным этого объекта является иерархическая (т е без циклов) сеть его узлов, по которой осуществляется проход алгоритма на конкретном примере,

• узел алгоритма - объект, представляющий узел лингвистического алгоритма и содержащий ссылку на объект-правило и ссылки на «да»/«нет» узлы, к которым происходит переход в случае выполнения/невыполнения условий правила,

• правило - объект, содержащий информацию о присваиваниях переменным алгоритма, проверяемых в правиле условий, действиях в случае выполнения условий, действиях в случае невыполнения условий,

• объекты-присваивания, содержащие информацию о различного вида контролируемых присваиваниях значений используемым в алгоритмах переменным;

а также объекты, служащие непосредственно для вычисления алгоритма на конкретном примере

• скоуп (от англ scope) альтернативы - объект, содержащий сведения об анализируемом предложении - исходные и уже полученные как некоторый вариант в результате анализа к данному моменту времени, а также представляющий соответствующее этому варианту состояние вычислительной среды применения алгоритма к предложению,

• объект, представляющий применение алгоритма к примеру в целом -содержит пространство альтернатив, то есть совокупность построенных к данному моменту их скоупов с выделением обрабатываемого в данный момент, а также общие сведения об алгоритме и предложении

Вычисление алгоритма на конкретном примере происходит, начиная с самого верхнего узла алгоритма Переход к следующему узлу осуществляется в зависимости от результата вычисления условий, находящихся в правиле текущего узла В процессе вычисления алгоритма могут порождаться альтернативы - возможные варианты, например, синтаксической структуры предложения (как в примере Мать любит дочь) или грамматических характеристик слов предложения (например, для не снятой по тем или иным причинам омонимии) В рамках одной альтернативы возможен переход не более чем к двум узлам алгоритма Алгоритм может вызывать другие алгоритмы, аналогично вызовам процедур и функций в программировании

В главе 5 описываются входные языки инструментальной среды Для входного описания объектов используется следующие языки

• графический (используется в графическом редакторе структуры объектов [10,19])

• предметно ориентированный язык, основанный на синтаксисе Лиспа (такое Лисп-описание алгоритма создается для трансляции в объектную модель)

• языки в синтаксисе хш1 (служат посредниками между инструментальной средой и приложениями для просмотра результата работы)

Язык графического конструктора объектов был разработан в рамках создания графического конструктора структуры объектов [10, 19] Конструктор позволяет рисовать диаграммы объектов модели в MS Visio и является ориентированным на эту модель приложением

Предметно ориентированный пополняемый язык, основанный на синтаксисе Лиспа, был разработан специально для описания правил ПСА В основу была положена

идея о присваиваниях и перечислениях (см Главу 4 диссертационной работы -«Объектная модель поверхностно синтаксического анализа»), также были рассмотрены основные предикатные обороты, использующиеся предметным специалистом при записи правил Подробно этот язык описан в Приложении 1 к диссертационной работе

Языки в синтаксисе xml для взаимодействия между инструментальной средой и приложениями для просмотра результата работы содержат описание всех необходимых этим приложениям данных и подробнее охарактеризованы в разделе «Просмотр результатов работы» Главы 6 диссертационной работы

В главе 6 описывается отладка алгоритмов ПСА средствами инструментальной среды Подсистема отладки описываемой инструментальной среды реализована аналогично режиму отладки в инструментальных средах разработки ПО (debug)

В рассматриваемой инструментальной системе предметом тестирования (не только с целью отладки, а иногда и для проведения эксперимента) являются

(1) порядок выполнения алгоритмов в общей схеме ПСА,

(2) различные варианты объединения правил в алгоритмы,

(3) отладка алгоритма в смысле организации (взаимосвязи) составляющих его правил,

(4) отладка отдельных правил (их предметного содержания) в контексте использующих их алгоритмов,

(5) отладка правильности Лисп-кодов, реализующих присваивания, условия и действия в правилах

Основные возможности режима отладки описываемой инструментальной среды установка прерывания, автоматическое выполнение части алгоритма, пошаговое выполнение алгоритма, просмотр контекста выполнения, пробное вычисление выражений элементов правил, трассировка выполнения алгоритма, режим пакетного тестирования (возможность автоматически применять алгоритм к пакету примеров, при этом для каждого примера конечное состояние вычислительной среды, как результат его анализа, проверяется «прогоном» автоматически сгенерированных ранее тестов)

Для просмотра результатов работы было реализовано два приложения приложение, показывающее проход алгоритма в виде дерева с соответствующей функциональностью сворачивания/разворачивания узлов [1] (автор - Г Ю.Айриян) и приложение для графического отображения связей, сегментов и характеристик лексических единиц примера (автор -ИМ Ножов [25])

При работе с рассматриваемой системой роли распределяются следующим образом Лингвист содержательно разрабатывает лингвистические алгоритмы Вместе с программистом они доводят их до готовности к представлению в объектной модели При необходимости программист пополняет входной язык описания алгоритмов, основанный на Лисп-синтаксисе Алгоритмы (новые или варианты уже имеющихся) испытываются как с целью отладки, так и для улучшения их структуры и т п При отладке программист выявляет неточности или ошибки в процессе вычисления алгоритмов В зависимости от характера ошибок их исправляет либо сам программист, либо программист вместе с лингвистом В случае корректного завершения вычисления лингвист анализирует результаты и, при необходимости, содержательно исправляет алгоритмы, а программист корректирует модель В итоге, если задача тестирования 5 (п 6 1) выполняется только программистом, то задачи 1-4 (п 6 1), как правило, -специалистом предметной области и программистом вместе, причем рассматриваемая в диссертационной работе инструментальная среда облегчает их тесное взаимодействие В главе 7 приводится общее описание реализации инструментальной среды Реализация объектов модели и связей между ними выполнена на языке Common Lisp [35] с использованием встроенной в него библиотеки CLOS (Common Lisp Object System) в инструментальной среде разработки Corman Common Lisp ® версии 2 5 [34], Common Lisp - это интерпретируемый язык Поэтому его использование существенно облегчает программирование среды для отладки, в ходе работы которой требуется именно интерпретировать выражения. В описываемой системе алгоритмы рассматриваются как данные по отношению к интерпретатору Для записи алгоритмов используется своеобразный языковой «конструктор», что обеспечивает легкость модификации При составлении описания алгоритма мы или манипулируем (добавляем, переставляем, удаляем) готовыми «кирпичиками» - объектами, представляющими правила, или только меняем содержание правил Объектная модель и является таким «конструктором».

В Заключении приводится характеристика основных результатов работы (см далее раздел «Основные результаты работы»)

В Приложениях к диссертационной работе приведены следующие описания В Приложении 1 приведен синтаксис языка описания алгоритмов ПСА структуры алгоритмов, системно-определенных форм («предметных» конструкций), синтаксиса описания примеров В Приложении 2 приведен пример выходного xml-описания алгоритма для графического конструктора объектов В Приложении 3 приведен

пример оригинальной записи алгоритма и его представления на входном языке, основанном на синтаксисе Лиспа В Приложении 4 рассказывается о методике предварительного обозрения алгоритмов ПСА В Приложении 5 приведены некоторые примеры работы промоделированных средствами инструментальной среды алгоритмов, описанных в диссертационной работе

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В рамках данной работы на предварительном этапе было проведено исследование структуры алгоритмов поверхностно-синтаксического анализа, выявлены и классифицированы основные типы используемых в них конструкций Для обзора содержания и классификации используемых в алгоритмах конструкций была специально разработана небольшая база данных в MS Access Для исследования топологии алгоритмов ПСА было проведено их преобразование к «сжатому» виду (Подробнее эти приемы предварительного анализа алгоритмов ПСА описаны в Приложении 4 к диссертационной работе) В результате этой деятельности задача была поставлена и специфицирована (совместно с М Е Епифановым [б])

Разработаны и реализованы программные средства для построения (входные языки) и поддержки объектных моделей алгоритма и анализируемого предложения

Реализованная модель вычисления алгоритма учитывает возможность раскрытия омонимических и синтаксических неоднозначностей, поддерживая так называемое пространство альтернатив анализируемого предложения Модель алгоритмов и адекватная ей модель вычисления допускает вызов одного алгоритма другим с передачей параметров-значений и параметров-переменных (аналогично процедурам в Паскале) Это позволяет разработчикам алгоритмов ПСА удобным образом декомпозировать задачи распознавания лингвистических ситуаций (Вызов одного алгоритма из другого и в настоящее время применяется Т Ю Кобзаревой)

На базе описанных объектных моделей реализована инструментальная система для тестирования и отладки лингвистических алгоритмов, опробованная на алгоритмах ПСА и поддерживающая функциональность, обычную для отладчиков инструментальных сред разработки программного обеспечения (пошаговое выполнение, точки прерывания, просмотр значений переменных и тп) Система поддерживает возможность печати подробного протокола вычисления алгоритма, который как печатается традиционным образом в «рабочее» окно, так и выдается в отдельный файл в разработанном автором xml-формате Такой файл может быть

«поднят» отдельным приложением [1] (автор - Г Ю Айриян) и показан в виде дерева с возможностью скрывать несущественные стадии вычисления (В разработке дизайна этого инструмента автор данной работы принимал непосредственное участие )

Другим не менее значимым результатом является опыт практического применения реализованной автором инструментальной среды для моделирования и отладки алгоритмов синтаксического анализа. Автором данной работы были промоделированы и полностью или частично отлажены такие алгоритмы, как.

• модули предсинтаксиса (стандартные универсальные подпрограммы проверки согласования, алгоритмы постморфологии, корректирующие и дополняющие результаты морфологического анализа)

• часть алгоритмов модуля предсегментации (построение атрибутивных именных групп и предложных групп, построение конструкций с именами собственными, построение конструкций с числами, построение сложных сказуемых, построение синтагм со слугами - обособленными приложениями)

• модуль экспресс-сегментации

• модуль внутрисегментного анализа (поиск сказуемого и подлежащего, заполнение словарно заданных валентностей, поиск хозяина предложной группы, поиск хозяев слабоуправляемых именных групп в родительном падеже и наречий)

В процессе моделирования и первоначального тестирования были выявлены некоторые неточности в оригинальных алгоритмах, которые позднее были исправлены их автором Т Ю Кобзаревой Непосредственное моделирование алгоритмов ПСА осуществлялось в сжатые сроки

Кроме того описываемая инструментальная среда применялась для моделирования и отладки алгоритмов ПСА и в рамках дипломных работ [20, 24, 33] при консультировании или под руководством [24,33] автора данной работы

Реализованная объектная модель, по существу, имеет более универсальный характер и может применяться не только для моделирования алгоритмов ПСА По сути, эта модель так называемой «распознающей сети» правил, а реализованная на базе такой модели инструментальная среда позволяет экспериментировать с такой сетью, в том числе - отлаживать правила Для того чтобы применять модель распознающей сети к другим приложениям, требуется лишь соответствующим образом изменить реализацию

объекта-скоупа, представляющего вычисление в рамках одной альтернативы Такая

модификация облегчается объектно-ориентированным подходом к имплементации

системы

РЕЗУЛЬТАТЫ ИЗЛОЖЕНЫ В СЛЕДУЮЩИХ ПУБЛИКАЦИЯХ:

1. БаталинаАМ Объектное моделирование поверхностно-синтаксического анализа // Девятая национальная конференция по искусственному интеллекту с международным участием КИИ-2004 Труды конференции Т 2 - М Физматлит, 2004, с 462-471

2 Баталина А М, Айриян Г Ю, Епифанов М Е, Кобзарева Т Ю, Кушнарева Е В , Лахути Д Г Объектная среда для отладки алгоритмов поверхностно-синтаксического анализа / Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006 Труды конференции Т 2 - М Физматлит, 2006, с. 589-597

3 Баталина А М, Айриян Г Ю , Епифанов М Е, Кобзарева Т Ю , Лахути Д Г Автоматизация отладки алгоритмов поверхностно-синтаксического анализа // Компьютерная лингвистика и интеллектуальные технологии Труды Международной конференции Диалог'2005(3венигород, 1-6 июня 2005 г), с 45-50

4 Баталина А М, Епифанов М Е Инструментальная объектная среда для моделирования, отладки и экспериментов с лингвистическими алгоритмами // «Программные продукты и системы», №2,2008, в печати

5 Баталина А М, Епифанов М Е Объектная модель поверхностно-синтаксического анализа // Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006 Труды конференции М Физматлит, 2006

6 Баталина А М, Епифанов М Е, Ивличева О О, Кобзарева Т Ю, Лахути Д Г Инструментальная среда для экспериментов с алгоритмами поверхностно-синтаксического анализа И Компьютерная лингвистика и интеллектуальные технологии Труды Международной конференции Диалог'2004(«Верхневолжский», 2-7 июня 2004 г ), М Наука, с 32-38

7 Баталина А М, Епифанов М Е, Кобзарева Т Ю, Кушнарёва Е В , Лахути Д Г Опыт экспериментальной реализации алгоритмов поверхностно-синтаксического анализа // Компьютерная лингвистика и интеллектуальные технологии Труды Международной конференции Диалог'200б(Бекасово, 31 мая - 4 июня 2006 г), с 51-56

8 Баталина А М, Епифанов М Е , Кобзарева Т Ю , Кушнарёва Е В , Лахути Д Г Экспериментальная реализация сегментационного анализа русского предложения // Компьютерная лингвистика и интеллектуальные технологии Труды Международной конференции Диалог'2007(Бекасово, 30 мая - 3 июня 2007 г ), с 29-34

9 Баталина А М , Епифанов М Е, Кобзарева Т Ю , Лахути Д Г, Мартынова В А, Шувалова К В Автоматизированная отладка алгоритмов сегментации русского предложения // Информационное общество Интеллектуальная обработка информации Информационные технологии Труды конференции НТИ'2007(Москва, 24 - 26 октября 2007 г )

10 Баталина АМ, Епифанов МЕ, Кобзарева ТЮ, Лахути ДГ, Мартынова В А, Шувалова К В Объектное моделирование сегментационного анализа русского предложения // Горизонты прикладной лингвистики и лингвистических технологий Труды международной конференции MegaLIng'2007(Kpым, Партенит, 24-28 сентября 2007 г)

ЛИТЕРАТУРА

1 Айриян ГЮ Об интерактивной визуализации и представлении иерархических структур в гуманитарных приложениях // Труды конференции В 3-х т Т 2 Девятая национальная конференция по искусственному интеллекту с международным участием КИИ' 2004 Москва Издательство Физико-математической литературы 2004 с 443-451

2 Алферова М С, Епифанов М Е, Лахути Д Г Преобразование объектной модели лексики языка в объектную модель для морфологического анализа/ЛГруды конференции В 3-х т Т 2 Девятая национальная конференция по искусственному интеллекту с международным участием КИИ' 2004 Москва Издательство Физико-математической литературы 2004 с 452-462

3 Апресян Ю Д, Богуславский И М , Иомдин Л Л , Лазурский А В , Митюшин Л Г , Санников В 3, Цинман Л Л Лингвистический процессор для сложных информационных систем М Наука, 1992

4 Апресян Ю Д, Богуславский И М, Иомдин Л Л , Лазурский А В , Перцов Н В , Санников В 3 , Цинман Л Л Лингвистическое обеспечение системы ЭТАП-2 М Наука, 1989.

5 Афанасьев Р Н, Кобзарева Т Ю Интеллектуальная система предсинтаксического анализа русского текста (ИСПА) //Компьютерная лингвистика и интеллектуальные технологии

6 Баталина А М Автоматизация отладки алгоритмов поверхностно-синтаксического анализа // Дипломная работа студентки РГГУ, Института Лингвистики, отделения «Интеллектуальные системы», научный руководитель Епифанов М Е, научный консультант д т н, с н с Лахути Д Г. Москва, 2005

7. Белоногов Г. Г. Семантические проблемы информатики // Теоретические проблемы информатики. Под общей ред КИ.Курбакова Т 2 М, КОС'ИНФ, 2008

8 Белоногов ГГ, Калинин ЮП, Хорошилов А А Компьютерная лингвистика и перспективные информационные технологии М • Русский мир, 2004

9 Буч Г Объектно-ориентированный анализ и проектирование М Издательство Бином, 2000.

10 Ершова ЕС, Епифанов МЕ Графический конструктор структуры объектов как интерфейс инструментальной объектной среды //Труды конференции В 3-х т Т 2 Девятая национальная конференция по искусственному интеллекту с международным участием КИИ' 2004 Москва Издательство Физико-математической литературы 2004 с 498-507

11 Ивличева О О Эксперименты с представлением некоторых сложно устроенных составных лингвистических единиц в объектной модели многофункциональных электронных словарей // Труды конференции В 3-х т Т 2 Девятая национальная конференция по искусственному интеллекту с международным участием КИИ' 2004 Москва Издательство Физико-математической литературы 2004 с 525-534

12. Ивличева ОО., Епифанов МЕ, Лахути ДГ Объектная модель многофункциональных словарей, основанная на синтезе лингвистических единиц // Компьютерная лингвистика и интеллектуальные технологии Тр Междунар конференции Диалог7003 (Протвино, 11-16 июня 2003 г ), стр 223-231

13 Иомдин Л Л Уроки русско-английского (из опыта работы системы машинного перевода) // Компьютерная лингвистика и интеллектуальные технологии Труды Международной конференции Диалог'2002 Т 2

14 Иорданская Л Н Синтаксическая омонимия в РЯ (с точки зрения автоматического анализа и синтеза) // НТИ, сер 2 1967, №5

15 Кобзарева ТЮ Иерархия задач поверхностно-синтаксического анализа русского предложения // НТИ 2007 Сер 2, № 1, с 23 - 35

16 Кобзарева ТЮ Принципы сегментационного анализа русского предложения И Московский лингвистический журнал М РГГУ, 2004 Т 8, №1, с 31-80

17 Кобзарева Т Ю, Лахути Д Г, Ножов И М Модель сегментации русского предложения//Диалог'2001 Аксаково2001 т2 с 185-194

18 Кобзарева ТЮ, Лахуги ДГ, Ножов ИМ Сегментация русского предложения //Труды конференции Седьмая национальная конференция по искусственному интеллекту с международным участием КИИ' 2000 Москва Издательство Физико-математической литературы 2000 с.879-880.

19 Колесников А В , Епифанов М Е Реализация графического конструктора структур объектов для объектного моделирования в лингвистике // Информационное общество Интеллектуальная обработка информации Информационные технологии Труды конференции НТИ'2007(Москва, 24 - 26 октября 2007 г )

20 КушнарЁва Е В Реализация алгоритмов поверхностно-синтаксического анализа в системе объектного моделирования в лингвистике // Дипломная работа студентки РГГУ, Института Лингвистики, отделения «Интеллектуальные системы», научный руководитель д т н, с н с. Лахути Д Г, технический консультант Епифанов М Е Москва, 2005

21 Лахути ДГ Проблемы интеллектуализации информационно-поисковых систем Диссертация в виде научного доклада на соискание ученой степени доктора технических наук М ВИНИТИ, 1999

22 Леонтьева Н Н Автоматическое понимание текстов Системы. Модели Ресурсы / М Academia, 2006

23. Леонтьева НН Система французско-русского автоматического перевода (ФРАП)-лингвистические решения, состав, реализация - МГПИИЯ им М Тореза Сборник научных трудов , Вып 271 , М ,1986

24 Мартынова В А Экспериментальная реализация дополнительного блока алгоритмов сегментации русского предложения // Дипломная работа студентки РГГУ, Института Лингвистики, отделения «Интеллектуальные системы», научные руководители ст преп Епифанов М Е, Баталина А М Москва, 2007

25 Ножов И М Процессор синтаксической сегментации русского предложения //НТИ, сер 2,2003, №11, с 26-37

26. Рамбо Дж, Якобсон А, Буч Г, UML. специальный справочник. - СПб Питер, 2002

27 Система «Starling» - официальный сайт http //starling rinet ru

28 Система «AOT» - официальный сайт www aot ru

29 Система «Парсер грамматики связей» - web-интерфейс и некоторые описания http //sz ru/parser

30 Старостин АС, Мальковский M Г Алгоритм синтаксического анализа, используемый в системе морфосинтаксического анализа «Treeton» // Компьютерная лингвистика и интеллектуальные технологии Труды Международной конференции Диалог'2007(Бекасово, 30 мая - 3 июня 2007 г )

31 Старостин АС, Мальковский M Г Модель синтаксиса в системе морфосинтаксического анализа «Treeton» // Компьютерная лингвистика и интеллектуальные технологии Труды Международной конференции Диалог'2006(Бекасово, 31 мая - 4 июня 2006 г )

32 Шаров С.А. Средства компьютерного представления лингвистической информации // Информационные технологии и телерадиокоммуникации - 2000 - №2 (1) http //wwwJesu ru/eng/science/ittc/vol000/002/

33 Шувалова KB Экспериментальная реализация основного блока алгоритмов сегментации русского предложения // Дипломная работа студентки РГГУ, Института Лингвистики, отделения «Интеллектуальные системы»; научные руководители- ст. преп Епифанов M Е, Баталина A M Москва, 2007

34 Corman Lisp© Version 2 5 User Guide, 2003

35 Graham, Paul. ANSI Common Lisp Prentice-Hall, New Jersey (USA), 1996

36 Isaacs, Scott Inside Dynamic HTML Microsoft Press, 1997

37. Microsoft Developer Network (MSDN) Library - техническая документация компании Microsoft Адрес в Интернет http //msdn microsoft com/

Заказ № 49. Тираж 100 экз. Отпечатано в ООО «Дом печати «Столичный бизнес» г. Москва, ул. Покровка, 47/24, тел.: (495) 916-3984 www.stbusiness.ru

Заключение диссертация на тему "Разработка инструментальной среды для экспериментов с алгоритмами поверхностно-синтаксического анализа"

В рамках данной работы на предварительном этапе было проведено исследование структуры алгоритмов Т.Ю Кобзаревой, выявлены и классифицированы основные типы используемых в них конструкций. Для обзора содержания и классификации используемых в алгоритмах конструкций бьша специально разработана и сделана небольшая база данных в MS Access. Для исследования топологии алгоритмов ПСА бьшо проведено их преобразование к «сжатому» виду. (Подробнее эти приемы предварительного анализа алгоритмов ПСА описаны в Приложении 4.) В результате этой деятельности задача бьша поставлена и специфицирована (совместно с М.Е.Епифановым [6]).Разработаны и реализованы программные средства для построения (входные языки) и поддержки объектных моделей алгоритма и анализируемого предложения.Реализованная модель вычисления алгоритма учитывает возможность раскрытия омонимических и синтаксических неоднозначностей, поддерживая так называемое пространство альтернатив анализируемого предложения. Модель алгоритмов и адекватная ей модель вычисления допускает вызов одного алгоритма другим с передачей параметров-значений и параметров-переменных (аналогично процедурам в Паскале). Это позволяет разработчикам алгоритмов ПСА удобным образом декомпозировать задачи распознавания лингвистических ситуаций. (Вызов одного алгоритма из другого в настоящее время нередко применяется их автором, Т.Ю. Кобзаревой.) На базе описанных объектных моделей реализована инструментальная система для тестирования и отладки лингвистических алгоритмов, опробованная на алгоритмах ПСА и поддерживающая функциональность, обычную для отладчиков инструментальных сред разработки программного обеспечения (пошаговое выполнение, точки прерывания, просмотр значений переменных и т.п.). Система поддерживает возможность печати подробного протокола вычисления алгоритма, который печатается традиционным образом в «рабочее» окно и выдается в отдельный файл в разработанном автором xml-формате. Такой файл может быть «поднят» отдельным приложением [1] (автор - Г.Ю.Айриян) и показан в виде дерева с возможностью скрывать несущественные стадии вычисления (см. п. 7.2.1). (В разработке дизайна этого приложения автор данной работы принимал непосредственное участие.) Для удобного просмотра результатов анализа предложения И.М. Ножовым реализован инструмент для визуализации (viewer) синтаксических связей, сегментов и характеристик слов в предложении. Для передачи данных этой программе автором данной работы была реализована конверсия пространства альтернатив анализируемого предложения в xml-документ.Однако еще одним значимым результатом является опыт практического применения реализованной автором инструментальной среды для моделирования и отладки алгоритмов синтаксического анализа. Автором данной работы были промоделированы и полностью или частично отлажены такие алгоритмы, как: • модули предсинтаксиса (стандартные универсальные подпрограммы проверки согласования, алгоритмы постморфологии, корректирующие и дополняющие результаты морфологического анализа) • часть алгоритмов модуля предсегментации (построение атрибутивных именных групп и предложных групп, построение конструкций с именами собственными, построение конструкций с числами, построение сложных сказуемых, построение синтагм со слугами - обособленными приложениями) • модуль экспресс-сегментации • модуль внутрисегментного анализа (поиск сказуемого и подлежащего, заполнение словарно заданных валентностей, поиск хозяина предложной группы, поиск хозяев слабоуправляемых именных групп в родительном падеже и

наречий)

В процессе моделирования и первоначального тестирования были выявлены некоторые неточности в оригинальных алгоритмах, которые позднее были исправлены их автором Т.Ю.Кобзаревой. Непосредственное моделирование алгоритмов ПСА осуществлялось в сжатые сроки.Кроме того описываемая инструментальная среда применялась для моделирования и отладка алгоритмов ПСА и в рамках дипломных работ [33,

37, 48] при консультировании или под руководством [37, 48] автора данной работы.Реализованная объектная модель, по существу, имеет более универсальный характер и может применяться не только для моделирования алгоритмов ПСА. По сути, эта модель так называемой «распознающей сети» правил, а реализованная на базе такой модели инструментальная среда позволяет экспериментировать с такой сетью, в том числе - отлаживать правила. Для того чтобы применять модель распознающей сети к другим приложениям, требуется лишь соответствующим образом изменить реализацию объекта-скоупа, представляющего вычисление в рамках одной альтернативы. Такая модификация облегчается объектно-ориентированным подходом к имплементации системы.