автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы, алгоритмы и программы дискурсивного анализа для построения мультиязыковых тематических глоссариев

кандидата технических наук
Боумедин Ахмад Шаннаг
город
Санкт-Петербург
год
2011
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Методы, алгоритмы и программы дискурсивного анализа для построения мультиязыковых тематических глоссариев»

Автореферат диссертации по теме "Методы, алгоритмы и программы дискурсивного анализа для построения мультиязыковых тематических глоссариев"

На правах рукописи

ДЦЭОЭо:»

Боумедин Ахмад Шаннаг

МЕТОДЫ, АЛГОРИТМЫ И ПРОГРАММЫ ДИСКУРСИВНОГО АНАЛИЗА ДЛЯ ПОСТРОЕНИЯ МУЛЬТИЯЗЫКОВЫХ ТЕМАТИЧЕСКИХ ГЛОССАРИЕВ

Специальность 05.13.01 - Системный анализ, управление и обработка информации (технические системы)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

- 3 НОЯ 2011

Санкт-Петербург 2011

4858589

Работа выполнена в Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН (СПИИРАН).

Научный руководитель: доктор технических наук, профессор, залуженный деятель науки и техники РФ

Официальные оппоненты: доктор технических наук,

кандидат технических наук, Ведущая организация:

Санкт-Петербургский государственный политехническии университет

Защита состоится «24» ноября 2011 г. в 14.30 часов на заседании диссертационного совета Д.002.199.01 при Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Санкт-Петербургского института информатики и автоматизации РАН

Автореферат разослан «18» октября 2011 г. Ученый секретарь

диссертационного совета Д.002.199.01

кандидат технических наук '^^Сё^-гЪ Ф Г- Нестерук

Александров Виктор Васильевич

Сенкевич Юрий Игоревич Курбанов Вугар Гариб оглы

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Сервисные информационные Интернет-технологии непрерывно создают инновационные приложения, тем самым значительно расширяя свои функциональные возможности. Например, для решения задачи таргетинга в области туристического маркетинга актуальны мультиязыковые глоссарии, инвариантные (совместные) принятым терминологическим определениям в разных странах. Мультиязыковая терминология в сфере туристического маркетинга претерпевает существенные изменения, сообразно стремительному темпу развития и формирования как общественных отношений (конгрессы, международные договоры и научные семинары), так и туризма, его отраслей и видов. В любой деятельности, особенно связанной с международными сделками, самым актуальным является вопрос дефиниций, т.е. совместных (унифицированных) и принятых за основу определений, понятий и терминов. Разночтения в толковании применяемых терминов и их интерпретации на другие языки могут иметь самые неблагоприятные последствия для туристической деятельности в области маркетинга и таргетинга. Разработка стандартов, протоколов, форматов и формирование мультиязыковых тезаурусов рекомендуемых слов, терминов и понятий дают возможность систематизировать термины определенной предметной области и специфики стран, избежать многозначности и омонимии.

В диссертационной работе проведен анализ мониторинга текстового содержания и нормативных документов Интернет-среды по выбранной теме описания маркетинга туристической сферы, то есть комплекса услуг и товаров, в совокупности своей образующих туристическую поездку (тур) или имеющих к ней непосредственное отношение, а также обладающих специфическими чертами производителей (в данной работе — специфика туризма в Султанате Оман) и потребителей туристических услуг.

С этой целью проведены исследования и разработаны методы, алгоритмы и программы семантического анализа текстов для выявления совместимых (эквивалентных) онтологических ядер тематических антологий текстов, содержащих информацию о сервисной организации сферы туризма. При анализе документов разных форматов, таких как HTML, PDF, DOC, и Xm], извлеченная информация полностью или частично дублируется, то есть многократно повторяется, несмотря на разные источники. Обработка такой информации все еще остается неразрешимой задачей для автоматического извлечения и построения онтологии. Для решения этой задачи в диссертации использовались метод кластерного анализа, ранговая и рейтинговая оценка совместных мультиязыковых онтологий, тезаурусов и глоссариев. Развит

мифологический подход для выявления мультиязыковых словарей в заданной предметной области, а также метод извлечения терминов для представления знаний, как формального контекста. В диссертации экспериментально апробированы арабская, английская и русская онтологии в области туризма, т.е. иерархия понятий, путем кластеризации и формального контекстного анализа.

Анализ проведенных исследований в области автоматизированного построения мультиязыковых глоссариев для предметной области туристического маркетинга показал, что в настоящее время не ведется подобных разработок. Это можно объяснить тем, что еще никак не сформирован единый подход к решению проблем формирования мультиязыковых онтологических ядер и их сопоставления (поиска эквивалентных ядер) для мультиязыковых антологий текстов.

Цель диссертационной работы заключается в создании эффективных методов формирования и выявления эквивалентных онтологических ядер мультиязыковых антологий текстов и их реализации в области туристического маркетинга.

Целью работы является разработка методов и программных средств дискурсивного анализа и обработки текстовых данных для построения таргетингового мультиязыкового глоссария туристического маркетинга. Для достижения поставленной цели в диссертационной работе решаются следующие задачи:

1. Исследование методов дискурсивного анализа построения мультиязыковых глоссариев на массиве тематических образцов туристического маркетинга.

2. Разработка методов и алгоритмов выявления тематических кластеров «предложений и запросов», составляющих совокупность форматированных текстов. Формирование глоссариев, построение иерархий онтологических понятий и сопоставление семантического окружения терминологического содержания выбранных текстов на арабском, русском и английском языках. ^

3. Разработка алгоритмов и программ рейтингового распределения слов и фраз в заданных трехязычных тематических текстах, представленных документами различных форматов.

4. Разработка метода и программ дискурсивного анализа для выявления иерархических понятий семантического соответствия при построении мультиязыковых глоссариев.

5. Разработка интерактивной информационной системы мультиязыковой коммуникации в сфере туристического маркетинга.

Основные методы исследования. Для решения поставленных задач использовались статистический анализ, методы компьютерной лингвистики, теория множеств, теория графов и инфологический подход. При

компьютерной реализации в интернет технологии разработанных методов, алгоритмов и программ применялся объектно-ориентированный подход.

Положения, выносимые на защиту. На основе проведенных теоретических исследований и их экспериментальной апробации на защиту выносятся следующие положения:

1. Методы обработки совместной (арабской, английской и русской) коллекции тематических текстов, представленных документами в различных форматах, для выявления семантически сопоставимых слов, терминов, понятий и фраз.

2. Метод тематического сопоставления мультиязыковых глоссариев на основе логистики отношений терминов и понятий, содержащихся в форматированных документах (бланк, шаблон).

3. Метод сокращения числа форматированных документов, использующий рейтинго-ранговое распределение терминов, понятий и слов в текстах.

4. Методы извлечения иерархических отношений между словами, терминами и понятиями заданной предметной области.

5. Интерактивная информационная система мультиязыковой коммуникации в области туристического маркетинга на арабском, английском и русском языках.

Научная новизна работы заключается в следующем:

1. Разработан метод формирования тематической совокупности семантически однородных текстов (антологий) одновременно на трех языках, с интерпретационным сопоставлением ключевых слов, терминов, понятий и фраз при форматировании документов с учетом особенностей каждого языка, в отличие от общепринятого способа формирования антологии по ключевым словам с помощью поисковой машины и дословного перевода результатов, что позволяет значительно сократить сложность компьютерной семантической обработки текстов в заданной предметной области.

2. Показано, что для тематического сопоставления мультиязыковых глоссариев достаточно использовать логистику отношений терминов и понятий форматированных документов.

3. Разработан метод сокращения объема коллекции текстовых документов различных форматов на основе рейтинго-рангового распределения слов, позволяющий значительно уменьшить время исходного мониторинга в области туристического маркетинга.

4. Разработаны алгоритм и программы фрагментации текстов, выявления иерархий: понятий и терминов, а также их связей, позволяющих автоматизировать процесс заполнения шаблонов (документов) в области туристического маркетинга.

5. Разработана интерактивная программная система формирования мультиязыковых антологий и выявления их онтологических глоссариев для визуального представления слов и понятий, а также иерархических отношений между ними в области туристического маркетинга па арабском, английском и русском языках.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечиваются анализом исследований в данной области, корректность предложенных методов и алгоритмов подтверждается их экспериментальной апробацией и согласованностью результатов, полученных при практической реализации. Основные теоретические положения диссертации апробированы в печатных трудах и докладах на международных научных конференциях.

Практическая значимость работы заключается в создании интерактивной информационной системы мультиязыковой коммуникации TAERgloss па арабском, английском и русском языках в сфере туристического маркетинга. Разработанные алгоритмы и программы позволяют снизить рабочую нагрузку на человека, уменьшить время и повысить эффективность обработки и анализа текстовой информации с целью получения глоссария в выбранной предметной области.

Реализация результатов работы. Полученные результаты реализованы в виде системы TAERgloss на языке С#. Данная программа используется в качестве информационной коммуникативной системы в сфере туристических услуг и доступна в Интернете в режиме он-лайн. Исследования, отраженные в диссертации, были использованы в трех научно-исследовательских работах, выполненных в Султанате Оман: «А Study and Reasoning the phenomena of poor performance of students in University of Nizwa to develop an Intelligent Course Selection System» (2011); «Analyzing students library utilization (reading behavior) and its effect on their performance» (2010); «А Proactive Strategy to Overcome Traffic Catastrophe Predicament in Sultanate of Oman» (2010).

Апробация работы. Научные результаты и основные положения работы докладывались на международных конференциях:

- First IEEE International Conference on the Applications of Digital Information and Web Technologies (ICADIWT 2008),

- First E-Technologies and Environment Conference (ETEC'2008),

- International Information Systems Conference (ISC'2011),

- Symposium Work Ethics Realty and Expectations By Sultanate of Oman Ministry of higher Education College of Applied Sciences (2011),

- MECIT's International Conference on Applied Information and Communications Technology (2011),

- First Gulf Conference on Scientific Research (University of Bahrain, Kingdom of Bahrain, 2011),

- First International Conférence on Emerging Research Paradigms in Business and Social Sciences (Dubai, UAE, 2011),

- The International Arab Conférence on Information Technology (ACIT'2011),

- Naif Arab University for Security Science (NAUSS'2011).

Публикации. Автором опубликовано по теме диссертации 7 печатных

работ, среди них 4 работы в журналах из перечня ВАК и 2 в международных журналах.

Структура и объем диссертационной работы. Диссертация состоит из введения, 5 глав, заключения, излагается на 145 страницах, включая перечень используемой литературы из 147 наименований, 50 рисунков и 34 таблицы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении содержится обоснование актуальности темы диссертационного исследования, сформулированы основные научные результаты, выносимые автором на защиту, а также практическая ценность полученных результатов. Приводится краткое содержание работы по главам.

В первой главе рассматриваются тенденции развития информационных систем и становление понятий логистической и семиологнческой информационных систем.

Рассматриваются основные этапы создания глоссария, выбор методов отбора наиболее информативных и характерных для исследуемой предметной области терминов и определений, а также методов формирования глоссария.

Первоначальным этапом создания глоссария является формирование набора документов, из которого извлекаются термины, а затем дается их толкование, другими словами, этот процесс называется выбором антологии. В большинстве случаев для выбора базовых терминов и определения их связей применяются экспертные методы. Для автоматического построения глоссария любой предметной области особое внимание уделяется текстовым данным, содержащим описание новых понятий и представляющим связи между вновь возникшими и уже существующими понятиями. В процессе дискурсивного анализа текстовых образцов создается алгоритмическая модель предметной области, которая корректируется при дополнительном введении новых текстовых данных. Под предметной областью понимается сфера деятельности человека, выделенная и описанная в соответствии с некоторыми целями. Описание предметной области включает в себя данные о предметах, процессах, явлениях, об их отношениях, о возможных взаимодействиях между ними, которые появляются в процессе человеческой деятельности.

В текстах русского, а также арабского языка (исследованного в данной работе), содержится много синтаксически омонимичных конструкций, и как следствие, возникает необходимость привлечения знаний о семантической сочетаемости слов, поэтому сам процесс дискурсивного анализа представляется крайне сложным. В этой связи существует мнение о неэффективности введения модуля синтаксического разбора в системы автоматического анализа текста. В диссертации показано, что использование синтаксического анализа текста совместно с семантическими методами значительно улучшает качество построения глоссариев.

Количество текстовой информации в электронном виде существенно увеличилось, что привело к затрудненному поиску требуемых сведений среди массы доступных текстов. В Интернете организованы полнотекстовые базы данных, такие как базы научных статей, авторефератов, ресурсы электронных библиотек, полные тексты научных докладов и т.п. В связи с большим объемом накопленной информации возникла проблема смыслового поиска и экспертного статистического анализа данных с целью предоставить пользователю возможность правильно ориентироваться в среде объемных электронных фондов, а эксперту - возможность выделять подклассы текстов по требуемой тематике.

В настоящее время активно развиваются системы смыслового поиска в полнотекстовых базах данных. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъектно-объектных отношений между ними. Крупные поисковые серверы в Интернете (например, Google, Yahoo, Yandex) поддерживают алгоритмы поиска текстов, подобных заданному, из расчета релевантности найденных документов исходному запросу.

Интернет изменил повседневную жизнь людей, что значительно повлияло на путь сбора информации и обмена сведениями в различных предметных областях, в том числе и в области туристического маркетинга. Изначально большинство туристических Интернет-сервисов были представлены на английском языке и доминировали в сети Интернет. Сейчас, в связи с развитием Интернета и быстрым ростом его популярности в неанглоязычных странах, таких, как Россия и арабские страны, возникла потребность в представлении информации на языках этих стран.

Во второй главе рассматриваются основные подходы к извлечению иерархических понятий, анализируются их достоинства и недостатки. Проводится краткий обзор методов, которые применяются для извлечения иерархий понятий, используя лексико-синтаксические образцы. На начальном этапе разработчик системы выявляет семантически близкие эталонные лексико-синтаксические образцы на трех языках в заданной предметной области и производится их дальнейшее сопоставление со

словарем пользователя.

Введение иерархий понятий позволяет структурировать слова и термины в понятийный базис, выявляя минимально достаточный тезаурус заданной предметной области. Иерархии понятий образуют онтологию выбранной предметной области (глоссарий).

В главе 1 показано, что система общих знаний страдает от так называемой ограниченной области приобретения знания (knowledge acquisition bottleneck), то есть существует трудность в фактическом моделировании рассматриваемой области. Эта проблема приводит к необходимости разработки метода адаптации иерархических понятий к конкретной предметной области.

В диссертационной работе для автоматического извлечения концептуальных иерархий из текстовых данных (извлечения иерархий понятий) используются подходы, основанные на дистрибутивном подобии, проиллюстрированные конкретным примером из предметной области туристической сферы. Основное внимание уделяется исследованию метода формального концептуального анализа (FCA) для выявления отношений между понятиями.

Извлечение знания, неявно содержавшегося в текстах, является большой проблемой. Руководства, учебники или словари, например, содержат явное знание в форме определений, такой как:

1) гостиница - здание, где путешественники платят за жилье, прием пищи и другие услуги;

2) гостиница - дом для временного проживания приезжающих с одноместными или неодноместными номерами, с обслуживанием. (Остановиться в гостинице. Заказать номер в гостинице.)

Фактически некоторые исследователи использовали такие регулярные образцы, чтобы обнаружить таксономию. Однако оказалось, что чем более технические и специализированные тексты анализируются, тем меньше элементарных знаний будет найдено в явной форме. Существует альтернативный способ извлечения знания из текстового материала: анализ использования терминов, а не поиск их явного определения. В этом направлении дистрибутивная гипотеза предполагает, что термины подобны до той степени, до которой они разделяются на подобные лингвистические контексты. Дистрибутивная гипотеза была опытным путем подтверждена во многих работах.

В диссертации показано, что для мультиязыковых глоссариев важна не семантика, прагматика, синтаксис и синонимия слов, а текст, фраза, предложение заданной темы (антологии) являются основной единицей коммуникационного процесса. Координация фрагментов текста, их субординарность, иерархичность указывает систему предпочтений при сопоставлении мультиязыковых глоссариев, в данном исследовании информационная система TAERgloss на трех языках: арабском,

английском, русском.

Специфический язык Web- технологии требует форматированной совокупности документов для каждого продукта, товара, отсюда возникает потребность в тематическом интерфейсном посреднике между потребителем и производителем сервисных услуг. Развивающиеся программные приложения воспроизводят не лингвистические свойства естественного языка, а логистику отношений терминов, понятий, содержащихся в унифицированных форматах документов, обеспечивающих интерфейс между потребителем и производителем товаров и услуг. Отсюда очевидна проблема построения сопоставимых понятийных тематических мультиязыковых глоссариев. Особенность разрабатываемой системы состоит в том, что тексты туристического маркетинга имеют ограниченный тезаурус слов и терминов. Это в большей степени «деловая проза», которая легко формализуется в виде шаблонов, документов, бланков и эффективно представима в интернет-технологиях.

В третьей главе описывается процедура формирования тематических антологий в области туристического маркетинга для таргетирования проблемно-ориентированных предметных областей. На рисунке 1 представлен процесс формирования антологий текстов на трех языках для туристической области.

формирования мультиязыкового глоссария.

Процедура предварительной обработки арабских, английских и русских текстовых документов для формирования антологий состоит из следующих операций:

1. Лексический анализ текста, удаление цифр, дефисов, знаков препинания и изменение всех заглавных букв на строчные (в арабском языке замена заглавных букв не проводится, по причине отсутствия таковых). Пример: { 123..,_-,.;,: {,) ,etc...}, А-> а, Б -> б и т.д...

2. Удаление стоп-слов, например: {the, this, и т.д. ...; в, к, не, во, и т.д.;J ■^и т.д. ...}

3. Выделение терминов и подсчет частоты их встречаемости для создания словаря ( Vj ).

В полученных словарях ( Vx ) для всех трех языков (арабский, английский и русский) содержится много терминов, не связанных с предметной областью туризма в Омане. Например, ^ua - production -производство; »V - biology - биология; - maintenance - ремонт.

Для удаления несвязанных терминов базовые наборы антологических текстов были перегруппированы с помощью инструментального средства кластеризации текстов, принцип работы которого основан на объединении документов в кластеры, используя метод неотрицательного матричного разложения на множители (NMF - Nonnegative matrix factorization).

Метод NMF представляет собой технику кластеризации текстов, которая идентифицирует семантические особенности в собранных документах и группирует документы в кластеры на основе общих семантических признаков.

На рисунке 2 показаны полученные результаты кластеризации текстов методом NMF. Видно, что в 5 текстовых документах содержатся термины, описывающие "отель", в 9 текстовых документах - "туризм" и т.д. После обработки тестовых документов поисковым роботом (рис.1), при помощи NMF получены наборы английских текстов, максимально связанных с предметной областью туристической сферы, другими словами, наборы текстовых документов были "отфильтрованы" инструментальным средством. Аналогичным образом были обработаны тексты на русском и арабском языках.

На основе результатов кластеризации был получен словарь К, (на арабском, английском и русском языках). Для сравнения словарей Vx и V-, был использован метод поискового фактора оценки точности (Precision Histograms), адаптированный для мультиязыкового глоссария.

Domain Ii.com (2) India (2)

Tourism (9>

Other Topics <24) ^ %

, GlolStf\syPI?net <2>

(New Dornainj7);)

0

Stock Foolaoe (2)

(People <6> )

( Southwest Asia (2)')

{ All clusters (0) )

' 4. *

__Hotels (5)

Cseat cHafaie News tn'4-4 (2p

Map (4)

^ Mohi (2) Wliols Seiver (6) Al-ieReol*iyIrtem-lonal(2)

t i-v __

^Registries (37>У

CselTrcli (6) У

Inter net (if) „Retjulatoiv Author rly (3)

Рисунок 2. Результат кластеризации английских тестов методом ЫМР.

Следующий пример поясняет работу алгоритма. Для сокращения объема коллекции текстовых документов различных форматов экспертами были отобраны по 33 термина, относящиеся к области туризма, на трех языках (арабский, русский и английский).

Оценка адекватности мультиязыковых глоссариев производится по следующей формуле:

АУ,= ЯРА У^ N,

где ЯРАУ{ - количество терминов из тестового набора, найденных в словаре /, N - общее количество терминов в тестовом наборе.

Получены следующие результаты оценки адекватности мультиязыковых глоссариев:

А У, =18/33 = 0.54, АУ2 =24/33 = 0.72 - для арабского языка;

АУу =15/33 = 0.45, АУ2 =30/33 = 0.91 - для русского языка;

А У, =19/33 = 0.58, АУ2 =31/33 = 0.94 -для английского языка.

Результаты проведенных экспериментов показали, что метод кластеризации ЫМБ эффективен для английского и русского текста, в работе с арабским текстом результаты были намного хуже, это объясняется сложностью структуры и морфологии арабского языка.

Для извлечения терминов и понятий из антологических текстов используется метод В^гат. Данный метод использует подсчет рейтинго-ранговых распределений слов и их совокупностей в текстах на арабском,

английском и русском языках, представленных в различных текстовых форматах (HTML, PDF, XML, DOC). Метод Bi-gram был адаптировав для использования в качестве элементарных конструкций пары слов, а не символов.

Были найдены наиболее часто употребляемые слова и пары слов, словосочетаний в текстах разных форматов на трех языках. На рисунках 3 и 4 показаны рейтииго-ранговые распределения частоты встречаемости одного слова и двусвязных слов на массиве английских образцов (антологий) в тематике туристического маркетинга. Данные зависимости подтверждают экспоненциальный закон частоты встречаемости букв и слов в мульгиязыковых текстах. Данные закономерности показывают эффективность работы глоссариев, семантика которых содержится в ограниченном наборе тезаурусов.

7000 y

6000 - -

ь 5000 - -о

Рисунок 3. Рейтинго-ранговое распределение частоты встречаемости одного слова на массиве антологий английского текста.

Рисунок 4. Пример рейтинго-рангового распределения совместной частоты встречаемости двух слов на массиве антологий английского текста.

Полученные рейтинго-ранговые распределения слов и пар слов для текстов на арабском, английском и русском языках использовались на последующих этапах для построения мультиязыкового глоссария.

В четвертой главе исследуются методы дискурсивного анализа для выявления семантического соответствия и тематического сопоставления трехязычных глоссариев на основе логистики отношений терминов и понятий, содержащихся в форматированных документах туристического маркетинга.

Построение арабского, английского, и русского глоссариев для предметной области в сфере туризма (в системе ТАЕР^озб) состоит из четырех основных этапов:

1. Сбор и первичная обработка образцовых запросов и текстовых форматированных документов, представленных в электронном виде.

2. Извлечение терминов предметной области из отобранных текстов.

3. Логистическое сопоставление терминов на основе оценки адекватности мультиязыковых глоссариев, т.е. соотнесение их с понятиями предметной области.

4. Выявление таксономии и отношений между понятиями, составляет ядро тезауруса предметной области.

Третий этап включает в себя следующие процедуры:

1. Формирование списка терминов.

2. Извлечение объектов (понятий) и свойств (действий) из сформированного списка терминов, используя рейтинго-ранговые оценки встречаемости слов и связок слов.

3. Построение дистрибутивной матрицы подобия М = ||ау|| - матрицы размерности гхс , где г - число объектов (понятий), с - число свойств.

4. Элементы М = ЦауЦ являются частотой встречаемости отношений объект-действие.

5. Нахождение общих закономерностей в п.4, используется для вычисления иерархических отношений между понятиями.

В качестве исходных данных для разработанного метода использовались словари У2 для арабского, английского и русского языков, полученные в главе 3. Суть метода дискурсивного анализа состоит в том, чтобы извлечь понятия, действия (свойства) и их соотношения (то есть какие действия выполняются для данного понятия) из арабских, английских и русских словарей соответственно.

Эксперименты по оценке эффективности предложенных методов были проведены в три этапа:

1. Загрузка словарей (арабский, английский, русский языки).

2. Парсинг (разбор) словарей:

Извлечение существительных (NP) {NN (Автомобиль), NNP (Авиалиния), NNS (Области) NNPS (Статьи)};

- Сохранение извлеченных существительных в новом словаре (Словарь существительных);

- Извлечение глаголов (VB) {заказать, нанять};

- Сохранение извлеченных глаголов в новом словаре (Словарь глаголов).

3. Оценка словарей.

Для сравнения извлеченных словарей со словарями, составленными экспертами (рис. 5), использовались метрики "точность", "Recall" и "Harmonic Mean F" (гармоническое среднее). Таблица 1 содержит результаты измерений указанных метрик для арабских, английских и русских текстов.

Рисунок 5. Схема эксперимента по сравнению словарей, извлеченных из текстов, со словарями, составленными экспертами.

Таблица 1. Результаты сравнения словарей на различных языках.

Метрика Арабский текст Английский текст Русский текст

Точность (Сущ.) 89.2851% 95.5851% 91.4931%

Точность (Глаголы) 88.7231% 94.9521% 89.8721%

ЯесаЩСущ.) 61.7452% 77.8573% 54.7432%

ЯесаИ(Глаголы) 59.8432% 76.5231% 53.9523%

Harmonic Mean F (Сущ.) 0.0273% 0.0233% 0.0291

Harmonic Mean F (Глаголы) 0.0279 0.0235 0.0296

Точность (Сущ. и глаголы) 89.0041% 95.2686% 90.6826%

Recall (Сущ. и глаголы) 60.7942% 77.1902% 54.3477%

Harmonic Mean F (Сущ. и глаголы) 0.0276% 0.0234% 0.0294%

В результате анализа полученных экспериментальных данных (таблица 1) было выявлено, что для извлечения существительных и глаголов из построенных мультиязыковых глоссариев наиболее эффективно построение дистрибутивной матрицы подобия М = Ца^Ц.

В пятой главе описаны методы кластеризации и формально-концептуального анализа (РСА) для извлечения иерархических отношений между понятиями. В главе приводятся результаты испытаний, примеры и рисунки для пояснения основных этапов разработанного метода извлечения иерархических отношений между словами, терминами и понятиями. На рисунке 5 представлены иерархические отношения между понятиями английского языка, полученные с помощью метода кластеризации (СЕМТ110ГО).

Тгг.4.г> А-ггаагэ

Рисунок 6. Примеры иерархических отношений между понятиями на английском языке, полученных методом кластеризации (СЕКТ110Ю).

Проведенные исследования показали, что метод кластеризации (СепШос!) дает удовлетворительные результаты для всех языков - арабского, английского и русского. Метод формально-контекстного анализа (РСА) дал положительные результаты только для арабского и английского текстов, а в случае с русским текстом результаты были крайне низкие и неточные из-за принципиальной неконвенциальности русского языка.

Далее в главе описана реализация полученного глоссария для построения онтологии в области туристического маркетинга, а также представлена интерактивная информационная система ТАЕ1^1о55 мультиязыковой коммуникации и визуализации полученных глоссариев на трех языках.

На рисунке 7 представлена онтология предметной области маркетинга в сфере туризма для фрагмента русского глоссария (в тексте диссертации содержатся также арабский и английский глоссарии), построенного на основе экспертного сравнения результатов работы двух методов: кластеризации (СЕ]\1Т110ГО) и формально-контекстного анализа (РСА).

Рисунок 7. Визуальная структура представления онтологии предметной области в сфере туристического маркетинга.

Рисунок В представляет собой фрагмент развернутой схемы, описывающей мультиязыковый глоссарий для построения онтологии в области туристического маркетинга.

SflfviCM Camp

услуги 1 щерь

Рисунок 8. Системное представление мультиязыкового глоссария для построения онтологии в области туристического маркетинга.

Для описания схем, приведенных на рисунках 7 и 8, использован язык описания онтологии RDF. На рисунке 9 показан интерфейс системы TAERgloss, визуализирующий иерархические понятия выбранного термина.

В системе TAERgloss для каждого выбранного слова строится иерархическая структура динамического развития семантики термина на трех языках: арабском, русском и английском. Визуализация иерархической структуры семантически связанных терминов позволяет облегчить понимание смысла этого термина человеком. Исследуя семантическое

окружение слов с помощью визуального интерфейса системы, можно быстро ознакомиться с проблематикой предметной области.

Рисунок 9. Фрагмент интерфейса разработанной интерактивной коммуникативной системы ТАЕЯ§1озз.

Заключение

Совокупность разработанных методов, алгоритмов и программ и их практическая реализация представляют собой решение актуальной научно-технической задачи автоматического построения мультиязыкового глоссария для сферы туристического маркетинга, имеющей большое значение для развития информационных технологий в области интеллектуальной обработки текстов и машинного перевода. При этом в ходе решения данной задачи были получены следущие результаты:

1. Проведен анализ современного состояния методов дискурсивного анализа построения мультиязыковых глоссариев на массиве тематических образцов туристического маркетинга.

2. Разработан метод формирования тематической совокупности семантически однородных текстов (антологий) одновременно на трех языках, с интерпретационным сопоставлением ключевых слов, терминов, понятий и фраз при форматировании документов с учетом особенностей каждого языка, что позволяет значительно сократить сложность компьютерной семантической обработки текстов в заданной предметной области.

3. Показано, что для тематического сопоставления мультиязыковых глоссариев достаточно использовать логистику отношений терминов и понятий форматированных документов.

4. Разработан метод сокращения объема коллекции текстовых документов различных форматов на основе рейтинго-рангового распределения слов в области туристического маркетинга.

5. Разработаны алгоритм и программы фрагментации текстов, выявления иерархий: понятий и терминов, а также их связей, позволяющих

автоматизировать процесс заполнения шаблонов (документов) в области туристического маркетинга.

6. Разработана интерактивная программная система TAERgloss формирования мультиязыковых антологий и выявления их онтологических глоссариев для визуального представления слов и понятий, а также иерархических отношений между ними в области туристического маркетинга на арабском, английском и русском языках.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Аксенов А.Ю., Зайцева A.A., Боумедин Шаннаг Ранговый метод локализации областей текстовых данных. — «Информационно-измерительные и управляющие системы», №4, т.9, 2011. — С.61-65 (из перечня ВАК).

2. Кокорин П.П., Боумедин Шаннаг, Щелкунова Е.В. Алгоритм нормализации и онтологической кластеризации текстов. — «Информационно-измерительные и управляющие системы», №7, т.8, 2010. — С.60-63 (из перечня ВАК).

3. Shannag A.N., Yusupov R., Alexandrov V. Student Relationship in Higher Education Using Data Mining Techniques. — Global Journal of Computer Science and Technology — vol.10, Issue 1 l(Ver.l.0), Oct. 2010 — p. 71-76.

4. Boumedyen A.N. Shannag, Victor V. Alexandrov. Using Product Similarity for Adding Business Value and Returning Customers — Global Journal of Computer Science and Technology — vol.10, Issue 12 (Ver. 1.0) October 2010 —p.2-8.

5. Кокорин П.П., Колесников P.A., Андреева H.A., Фролов К., Боумедин Шаннаг, Кулешов C.B. Инфологический подход к разработке систем «обучение через развлечение» (edutainment) — «Информационно-измерительные и управляющие системы», №11, т.7, 2009. — С.42-48 (из перечня ВАК).

6. Боумедин Шаннаг, Александров В.В. Морфологический анализатор для арабского языка (SAMAI) — «Информационно-измерительные и управляющие системы», №11, т.7, 2009. — С.60-62 (из перечня ВАК).

7. Александров В.В., Кулешов C.B., Шаннаг Б. Феномен идентификации//Труды СПИИРАН/Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН; Под общ. ред. чл.-кор. РАН Р.М.Юсупова. — Вып.11. — СПб. :Наука,2009. — С.52-62.

Типография «Восстания - 1» г. Санкт-Петербург, Средний пр. В.О., д.28 Подписано в печать 07.07.2011 г. Формат 80x84 1/16. Тираж 100

Текст работы Боумедин Ахмад Шаннаг, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

61 12-5/364

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН

МЕТОДЫ, АЛГОРИТМЫ И ПРОГРАММЫ ДИСКУРСИВНОГО АНАЛИЗА ДЛЯ ПОСТРОЕНИЯ МУЛЬТИЯЗЫКОВЫХ ТЕМАТИЧЕСКИХ

ГЛОССАРИЕВ

Специальность 05.13.01 - Системный анализ, управление и обработка информации (технические системы)

На правах рукописи

Боумедин Ахмад Шаннаг

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель: доктор технических наук, профессор Александров В. В.

Санкт-Петербург, 2011

Оглавление

Введение........................................................................................................................4

Положения, выносимые на защиту.........................................................................12

Глава 1.........................................................................................................................13

1.1. Общие понятия, развитие и применение информационных систем..............13

1.2. Информационные технологии в развитии маркетинга в туристической сфере.........................................................................................................................16

1.3. Основные аспекты информационно - логистических и семиологических систем.......................................................................................................................19

1.4. Структура инфологической системы...............................................................24

1.5. Обзор основных этапов создания глоссария...................................................26

1.6. Обзор глоссариев..............................................................................................28

1.7. Предпосылки для создания мультиязыкового глоссария...............................35

1.7.1. Проблема многоязычия в Интернет среде....................................................35

1.7.2. Проблемы смыслового поиска информации................................................37

Выводы по главе 1...................................................................................................39

Глава 2. Глоссарии и методы извлечения иерархических понятий.........................41

2.1. Процесс создания глоссария............................................................................41

2.2. Глоссарий и организации.................................................................................43

2.3. Основные подходы к извлечению иерархических понятий...........................44

2.3.1. Лексико-синтаксические шаблоны...............................................................45

2.3.2. Дистрибутивное подобие..............................................................................48

2.3.3. Вычисление степени сходства......................................................................49

2.3.4. Иерархическая кластеризация.......................................................................51

2.3.5. Анализ совместной встречаемости...............................................................55

2.4. Построение иерархии понятий методом формально-концептуального

анализа.....................................................................................................................57

Выводы по главе 2...................................................................................................59

Глава 3. Предварительная обработка данных...........................................................61

3.1 Словарь терминов предметной области...........................................................61

3.2 Сбор данных.......................................................................................................61

3.2.1. Предварительная обработка документов......................................................62

3.2.2. Предварительная кластеризация текстов антологии...................................64

3.3. Оценка и сравнение словарей..........................................................................71

3.4. Рейтинго-ранговые распределения слов в текстах.........................................78

Выводы по главе 3...................................................................................................85

Глава 4. Извлечение информации для семантической интерпретации...................87

4.1. Система «TAERGloss»......................................................................................87

4.2. Извлечение семантической информации........................................................88

4.3. Оценка и сравнение словарей..........................................................................96

4.3.1. Оценки «Точность», «Recall» и «Гармоническое среднее F».....................98

4.3.2. Утилита лексического анализа....................................................................103

Выводы по главе 4.................................................................................................105

Глава 5. Построение иерархии понятий..................................................................106

5.1. Подход иерархического представления понятий..........................................106

5.2. Иерархический кластерный анализ...............................................................106

5.3. Формально-концептуальный анализ (БСА)..................................................114

5.4 Оценка полученных результатов....................................................................120

5.5. Построение глоссария....................................................................................122

5.6. Интерфейс программы «ТАЕК^обб»............................................................126

Выводы по главе 5.................................................................................................128

Заключение................................................................................................................130

Список использованной литературы.......................................................................132

Введение

Сервисные информационные Интернет-технологии непрерывно создают инновационные приложения, тем самым значительно расширяя свои функциональные возможности. Например, для решения задачи таргетинга в области туристического маркетинга актуальны мультиязыковые глоссарии, инвариантные (совместные) принятым терминологическим определениям в разных странах. Мультиязыковая терминология в сфере туристического маркетинга претерпевает существенные изменения, сообразно стремительному темпу развития и формирования как общественных отношений (конгрессы, международные договоры и научные семинары), так и туризма, его отраслей и видов. В любой деятельности, особенно связанной с международными сделками, самым актуальным является вопрос дефиниций, т.е. совместных (унифицированных) и принятых за основу определений, понятий и терминов. Разночтения в толковании применяемых терминов и их интерпретации на другие языки могут иметь самые неблагоприятные последствия для туристической деятельности в области маркетинга и таргетинга. Разработка стандартов, протоколов, форматов и формирование мультиязыковых тезаурусов рекомендуемых слов, терминов и понятий дают возможность систематизировать термины определенной предметной области и специфики стран, избежать многозначности и омонимии.

В диссертационной работе проведен анализ мониторинга текстового содержания и нормативных документов Интернет-среды по выбранной теме описания маркетинга туристической сферы, то есть комплекса услуг и товаров, в совокупности своей образующих туристическую поездку (тур) или имеющих к ней непосредственное отношение, а также обладающих специфическими чертами производителей (в данной работе - специфика туризма в Султанате Оман) и потребителей туристических услуг.

С этой целью проведены исследования и разработаны методы, алгоритмы и программы семантического анализа текстов для выявления совместимых (эквивалентных) онтологических ядер тематических антологий текстов, содержащих информацию о сервисной организации сферы туризма. При анализе документов разных форматов, таких как HTML, PDF, DOC, и Xml, извлеченная информация полностью или частично дублируется, то есть многократно повторяется, несмотря на разные источники. Обработка такой информации все еще остается неразрешимой задачей для автоматического извлечения и построения онтологии. Для решения этой задачи в диссертации использовался метод кластерного анализа, ранговая и рейтинговая оценка совместных мультиязыковых онтологий, тезаурусов и глоссариев. Развит инфологический подход для выявления мультиязыковых словарей в заданной предметной области, а также метод извлечения терминов для представления знаний, как формального контекста. В диссертации экспериментально апробированы арабская, английская и русская онтологии в области туризма, т.е. иерархия понятий, путем кластеризации и формального контекстного анализа.

Анализ проведенных исследований в области автоматизированного построения мультиязыковых глоссариев для предметной области туристического маркетинга показал, что в настоящее время не ведется подобных разработок. Это можно объяснить тем, что еще никак не сформирован единый подход к решению проблем формирования мультиязыковых онтологических ядер и их сопоставления (поиска эквивалентных ядер) для мультиязыковых антологий текстов.

Цель диссертационной работы заключается в создании эффективных методов формирования и выявления эквивалентных онтологических ядер мультиязыковых антологий текстов и их реализации в области туристического маркетинга.

Целью работы является разработка методов и программных средств дискурсивного анализа и обработки текстовых данных для построения

таргетингого мультиязыкового глоссария туристического маркетинга. Для достижения поставленной цели в диссертационной работе решаются следующие задачи:

1. Исследование методов дискурсивного анализа построения мультиязыковых глоссариев на массиве тематических образцов туристического маркетинга.

2. Разработка методов и алгоритмов выявления тематических кластеров «предложений и запросов», составляющих совокупность форматированных текстов. Формирование глоссариев, построение иерархий онтологических понятий и сопоставление семантического окружения терминологического содержания выбранных текстов на арабском, русском и английском языках.

3. Разработка алгоритмов и программ рейтингового распределения слов и фраз в заданных трехязычных тематических текстах, представленных документами различных форматов.

4. Разработка метода и программ дискурсивного анализа для выявления иерархических понятий семантического соответствия при построении мультиязыковых глоссариев.

5. Разработка интерактивной информационной системы мультиязыковой коммуникации в сфере туристического маркетинга.

Основные методы исследования. Для решения поставленных задач использовались статистический анализ, методы компьютерной лингвистики, теория множеств, теория графов и инфологический подход. При компьютерной реализации в интернет технологии разработанных методов, алгоритмов и программ применялся объектно-ориентированный подход.

Научная новизна работы заключается в следующем:

1. Разработан метод формирования тематической совокупности семантически однородных текстов (антологий) одновременно на трех языках, с интерпретационным сопоставлением ключевых слов, терминов, понятий и фраз

при форматировании документов с учетом особенностей каждого языка, в отличие от общепринятого способа формирования антологии по ключевым словам с помощью поисковой машины и дословного перевода результатов, что позволяет значительно сократить сложность компьютерной семантической обработки текстов в заданной предметной области.

2. Показано, что для тематического сопоставления мультиязыковых глоссариев достаточно использовать логистику отношений терминов и понятий форматированных документов.

3. Разработан метод сокращения объема коллекции текстовых документов различных форматов на основе рейтинго-рангового распределения слов, позволяющий значительно уменьшить время исходного мониторинга в области туристического маркетинга.

4. Разработаны алгоритм и программы фрагментации текстов, выявления иерархий: понятий и терминов, а также их связей, позволяющих автоматизировать процесс заполнения шаблонов (документов) в области туристического маркетинга.

5. Разработана интерактивная программная система формирования мультиязыковых антологий и выявления их онтологических глоссариев для визуального представления слов и понятий, а также иерархических отношений между ними в области туристического маркетинга на арабском, английском и русском языках.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечиваются анализом исследований в данной области, корректность предложенных методов и алгоритмов подтверждается их экспериментальной апробацией и согласованностью результатов, полученных при практической реализации. Основные теоретические положения диссертации апробированы в печатных трудах и докладах на международных научных конференциях.

Практическая значимость работы заключается в создании интерактивной информационной системы мультиязыковой коммуникации TAERgloss на арабском, английском и русском языках в сфере туристического маркетинга. Разработанные алгоритмы и программы позволяют снизить рабочую нагрузку на человека, уменьшить время и повысить эффективность обработки и анализа текстовой информации с целью получения глоссария в выбранной предметной области.

Результаты и внедрение. Полученные результаты реализованы в виде системы TAERgloss на языке С#. Данная программа используется в качестве информационной коммуникативной системы в сфере туристических услуг и доступна в Интернете в режиме он-лайн. Исследования, отраженные в диссертации, были использованы в трех научно-исследовательских работах, выполненных в Султанате Оман: «А Study and Reasoning the phenomena of poor performance of students in University of Nizwa to develop an Intelligent Course Selection System» (2011); «Analyzing students library utilization (reading behavior) and its effect on their performance» (2010); «А Proactive Strategy to Overcome Traffic Catastrophe Predicament in Sultanate of Oman» (2010).

Апробация работы. Научные результаты и основные положения работы докладывались на международных конференциях:

First IEEE International Conference on the Applications of Digital Information and Web Technologies (ICADIWT 2008),

First E-Technologies and Environment Conference (ETEC'2008), International Information Systems Conference (ISC'2011), Symposium Work Ethics Realty and Expectations By Sultanate of Oman Ministry of higher Education College of Applied Sciences (2011),

MECIT's International Conference on Applied Information and Communications Technology (2011),

First Gulf Conference on Scientific Research (University of Bahrain, Kingdom of Bahrain, 2011),

First International Conference on Emerging Research Paradigms in Business and Social Sciences (Dubai, UAE, 2011),

- The International Arab Conference on Information Technology (АСГГ2011),

Naif Arab University for Security Science (NAUSS '2011).

Публикации. Автором опубликовано по теме диссертации 7 печатных работ, среди них 4 работы в журналах из перечня ВАК и 2 в международных журналах.

Структура и объем диссертационной работы. Диссертация состоит из введения, 5 глав, заключения, излагается на 145 страницах, включая перечень используемой литературы из 147 наименований, 50 рисунков и 34 таблицы.

В главе 1 рассматриваются тенденции развития информационных систем и становление понятий логистической и семиологической информационных систем, даются примеры семиологических систем логистического информационного сопровождения. Кратко рассматриваются основные этапы создания глоссария, а также производится обзор современных глоссариев. Затронуты проблемы языкового разнообразия в Интернет и трудности смыслового поиска в Сети.

В главе также рассмотрена предметная область туристического маркетинга, выявлена роль информационных систем в развитии данной сферы деятельности, даны определения.

Приводится обзор современных глоссариев и подходов к созданию понятийной визуализации семантического содержания текстов: «Glossary Commander», «Визуальный словарь», «Визуальный Тезаурус», «WORDNET» и другие.

В главе 2 более подробно рассматривания этапы создания глоссариев, а так же их значение и применение. Рассматриваются основные подходы к извлечению иерархических понятий. В частности обсуждаются их преимущества и недостатки, а также производится краткий обзор методов, которые были применены, чтобы извлечь иерархии понятия, используя лексико-синтаксические образцы. В диссертационной работе используются подходы, основанные на дистрибутивном подобии, проиллюстрированные конкретным примером из предметной области туристической сферы. Основное внимание уделяется исследованию метода формального-концептуального анализа (БСА) для выявления отношений между понятиями.

В главе 3 описывается процедура формирования тематических антологий в области туристического маркетинга для таргетирования проблемно-ориентированных предметных областей. Приводится описание процесса сбора данных для экспериментов. Описаны проведенные эксперименты для предложенных алгоритмов, даются выводы по полученным результатам.

В главе 4 исследуются методы дискурсивного анализа для выявления семантического соответствия и тематического сопоставления трехязычных глоссариев на основе логистики отношений терминов и понятий, содержащихся в форматированных документах туристического маркетинга.

В главе 5 описаны методы кластеризации и формально-концептуального анализа (РСА) для извлечения иерархических отношений между понятиями. В главе приводятся результаты испытаний, примеры и рисунки для пояснения основных этапов разработанного метода извлечения иерархических отношений между словами, терминами и понятиями. В главе описана реализация полученного глоссария для построения онтологии в области туристического маркетинга, а

также представлена интерактивная информационная система ТАЕБ^озб мультиязыковой коммуникации и визуализации полученных глоссариев на трех языках.

В заключении содержится перечень задач, которые были решены в результате диссертационных исследований.

Положения, выносимые на защиту

На основе проведенных теоретических исследований и их экспериментальной апробации на защиту выносятся следующие положения:

1. Методы обработки совместной (арабской, английской и русс