Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами

Фаррохбахт Фумани Мехди

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами

кандидата технических наук: Фаррохбахт Фумани Мехди
город: Санкт-Петербург
год: 2013
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами»

Автореферат диссертации по теме "Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами"

На правах рукописи

ФАРРОХБАХТ ФУМАНИ МЕХДИ

ИССЛЕДОВАНИЕ И РАЗРАБОТКА АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ В СИСТЕМЕ УПРАВЛЕНИЯ ЭЛЕКТРОННЫМИ АРХИВАМИ

Специальность: 05.13.01- Системный анализ управление и обработка информации (технические системы)

Автореферат

диссертации на соискание ученой степени кандидата технических наук

1 7 ЯНВ 2013

Санкт-Петербург 2013

005048482

Работа выполнена на кафедре автоматизированных систем обработ информации и управления Санкт-Петербургского государственно электротехнического университета «ЛЭТИ» им. В.И.Ульянова (Ленина)

Научный руководитель: кандидат технических наук, доцент

Шеховцов Олег Иванович

Официальные оппоненты: Копыльцов Алесандр Васильевич, доктор техн

ческих наук, профессор, Российский государст венный педагогический университет, заведую щий кафедрой «Информатика»

Назаренко Николай Александрович, кандидат технических наук, Санкт-Петербургский государственный электротехнический университет «ЛЭТИ», доцент кафедры «Биотехнические си< темы»

Ведущая организация: Санкт-Петербургский университет телекомму-

никаций им. проф. М.А. Бонч-Бруевича

Защита состоится "11" февраля 2013 г. в 14 час. на заседании диссертационно1 совета Д 212.238.07 в Санкт-Петербургском государственном электротехн) ческом университете по адресу: 197376, г. Санкт-Петербург, ул. Профессор Попова, д. 5, корпус 1.

С диссертацией можно ознакомиться в научной библиотеке университета. Автореферат разослан « Ж » декабря 2012 г.

Ученый секретарь диссертационного совета Д 212.238.07

Цехановский В.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Несмотря на широкое использование мультимедиа, текст остается одним из основных видов информации в большинстве электронных хранилищ. Огромное количество информации скапливается в многочисленных текстовых базах, хранящихся в информационных агентствах, библиотеках, корпорациях, в личных ПК и во всемирной глобальной сети. Объем информации увеличивается с поражающей скоростью и люди не в состоянии решать проблемы, связанные с этим ростом. Ввиду большого роста объемов текстовой информации и сложной структурированности естественно-языковых (ЕЯ) текстов, анализ текстов представляет собой актуальную проблему. Человечество нуждается в интеллектуальных электронных помощниках, которые могут справиться со смысловым анализом текста. Разработка эффективных подходов к обработке текстов с целью фильтрации, формирования смыслового портрета, навигации по базе текстов и т.д. является одним из наиболее актуальных направлений современных информационных технологий. В связи же с практическими потребностями быстрой переработки и поиска информации все более актуальной становится проблема смыслового преобразования текстов. Под преобразованием понимается такой процесс переработки текстов, результатом которого является создание некоторых вторичных текстов, близких по смыслу к исходным, но не заменяющих их полностью. В практическом плане эта проблема заключается в разработке конкретных методов автоматического аннотирования, реферирования, индексирования и др.

В настоящее время в мире существуют и активно развиваются системы смыслового поиска в полнотекстовых базах данных, которые поддерживаются ведущими фирмами - производителями серверов баз данных, например, Oracle, Microsoft, IBM и др. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъект-объектных отношений между ними. Крупные поисковые серверы в Интернете (например, Google, Yahoo, Yandex) поддерживают алгоритмы поиска текстов "схожих" с данным и расчета релевантности найденных документов исходному запросу. Специализированные системы полнотекстового анализа (например, в России это "Следопыт", "ТекстАналист") позволяют проводить автоматическую классификацию и реферирование текстов.

Классически в основе задачи обработки ЕЯ-текстов лежат морфологический и морфемный анализ, синтаксический и семантический анализ, результатами которых являются модели текста, адекватно отражающие его словообразовательные, грамматические и смысловые конструкции. В этом смысле, основные методы анализа текста достаточно подробно изложены в трудах Апресяна Ю.Д., Виноградова Д.В., Гладкого А.В., Кпосса Б.М., Кожуновой О.С., Мельчука И.Д., Солтона Г., Н.С., Филмора Ч., Финна В.К., Шведовой Н.Ю., Дж.Дж.Катца, Дж.А.Фодора, Б. Патти, А. Вежбицкой и др. Ряд современных усовершенствованных методов представлены в статьях Ермакова А.Е., Леонтьевой Н.Н., Мозгового М.В., Плешко В.В., Сокирко А., Толпегина П.В., Тузова В.А. и др.

В настоящее время успешно решена задача морфологического анализа текстов, результаты которого применяются в поисковых Интернет-машинах, текстовых редакторах, подсистемах проверки орфографии и пр. Задачи синтаксического и, в особенности, семантического анализа не решены в полной мере. Синтаксический анализ (анализ грамматики) можно встретить в системах перевода, в подсистемах проверки грамматики. Несмотря на богатую теорию в области семантического анализа, применение находят лишь методы анализа основанные на статистических (факторных) характеристиках слов и словосочетаний анализируемого текста. Следует отметить, что подсистемы, реализующие указанные методы анализа текста, не предоставляют средств настройки процесса анализа, средств пополнения баз правил грамматики языка и часто эти подсистемы дают грубые результаты.

Семантические модели (СМ) текста, являющиеся результатом комплексного анализа, позволяют оценить корректность текста, в наглядной форме, визуально представить структуру сюжета, взаимосвязь объектов и процессов текста, их атрибуты. Последовательность моделей простых предложений текста и результирующая визуальная модель текста позволяют

реализовать обратную связь "воздействие на модель - реакция в тексте", благодаря чему можно в интерактивном режиме отлаживать процессы анализа текстов и доказательства объективности (однозначности) истолкования текстов на естественных языках.

Применение семантических моделей актуально в автоматизированных обучающих системах, при решении задач извлечения знаний из текстов, информационного поиска, реферирования, контроля корректности словарей терминов и определений, автоматической генерации ассоциативных связей в гипертекстовых базах данных (ГБД) и пр.

Учитывая вышеизложенное, а также то, что проблема смыслового анализа ЕЯ-текстов до настоящего времени не решена в полной мере, считаем, что совершенствование методов анализа ЕЯ-текстов и повышение степени их достоверности является актуальной задачей.

Разработанность проблемы. Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Европейский Союз уже несколько лет координирует различные программы в области автоматической обработки текстов (например, проект 1ST, 1998-2001 гг.). В США с 1991 по 1998 гг. существовал проект TIPSTER, организованный Департаментом обороны совместно с Национальным институтом стандартов и технологий и Центром военно-воздушных и военно-морских вооружений. В работе консультативного совета этого проекта участвовали также ФБР, Национальный научный фонд и некоторые другие организации. Основной целью проекта было сравнение и оценка результатов работы различных поисковых систем и систем реферирования. По результатам проекта был опубликован подробный обзор и даны рекомендации по использованию этих систем. В США среди систем подобного рода наиболее известной является электронная архивная система "Excalibur RetrievalWare" производства компании Excalibur Technologies. Программные продукты этой компании используются Госдепартаментом, Библиотекой Конгресса, ЦРУ, компаниями Ford Motors, Lockheed, Reynold Electrical & Engineering, Maine Yankee Atomic Power.

Современные системы смыслового анализа текстов, особенностью которых являются: предпочтение скорости обработки текстов, точности семантического и морфологического анализа, выявление смысла текста, реферирование, автоматическое индексирование, эффективная навигация по текстовой базе, статистический частотный анализ словоупотреблений, автоматическая классификация и кластеризация текстов, смысловой поиск и расчет релевантности текстов поисковому запросу.

• OLAP-технологии. OLAP использует многомерное представление совокупных данных, чтобы обеспечить быстрый доступ к стратегической информации для дальнейшего анализа.

Недостатки: а) функциональность систем ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборки; Ь) сложно пересчитывать агрегированные значения при изменениях начальных данных; с) сложно поддерживать таблицы агрегатов; d) сложно изменять измерения без повторной агрегации; е) снижение скорости обработки из-за вычислений по требованию; f) ограничение на объем данных;

• система автоматического анализа текста TextAnalyst разработана в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.

Недостатки: а) не имеет готового словаря русского языка; Ь) не применяет сколько-нибудь развитых лингвистических средств, например синтаксического и морфологического анализа;

• Oracle InterMedia Text. Одним из наиболее мощных продуктов, позволяющих реализовать поддержку полнотекстовых баз данных с доступом через интернет, является система InterMedia Text в составе СУБД Oracle8i. В InterMedia Text интеллектуальная обработка текста (тематическая классификация, аннотирование) сочетается с поисковыми возможностями, доступными при работе с реляционными базами данных.

Недостатки: а) большинство возможностей InterMedia оказывается доступно в полной мере лишь для английского языка и, в меньшей мере, еще для ряда европейских и восточно-азиатских языков; Ь) не задействует лингвистические технологии, которые зависят от лексики, грамматики и семантики языка; с) не устанавливает смысловые связи между темами;

• Russian Context Optimizer (RCO). Адаптацией технологий Oracle к русскоязычным базам данных занимаются специалисты компании «Гарант-Парк-Интернет», которая выпускает продукт под названием Russian Context Optimizer (RCO), предназначенный для совместного использования с системой InterMedia Text.

Основной недостаток - функциональность системы ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборки;

• Система "Ключи от Текста" - смысловой поиск и индексирование текстовой информации в электронных библиотеках.

Недостатки: а) большие затраты интеллектуальной работы как при обработке первоисточника, так и при наполнении БД; Ь) в ней не учитывается коллективный характер использования Сети, а именно то обстоятельство, что ресурсы разделяемы;

• Интеллектуальная система "СЛЕДОПЫТ" помогает быстро находить текстовые фрагменты документов, и предназначена для тех, кто в результате своей деятельности имеет дело с большим объемом информации.

Недостатки: а) ограничение на объем данных; Ь) зависит от сторонних программных продуктов, например, MS Office;

Большинство возможностей этих известных систем оказывается доступно в полной мере лишь для английского языка и, в меньшей мере, еще для ряда европейских и азиатских языков. Практически не поддерживают персидского языка.

В настоящее время в России и не только сложилась ситуация, что системы автоматизации управления корпоративными электронными архивами не поддерживают технологии автоматизированного смыслового анализа текстов, а современные системы анализа текстов не адаптированы к работе с электронными текстовыми архивами корпорации. Необходима разработка алгоритмов и методики автоматизированной смысловой обработки текстов и реализация программно-технического комплекса для внедрения смыслового полнотекстового анализа в технологию обработки электронных архивов. Данный комплекс также должен поддерживать персидский и другие азиатские языки.

Исходя из всего, что сказано выше, в данном диссертационном исследовании были сформулированы:

Объект исследования работы - математическое, информационное и программное обеспечение человеко-машинного взаимодействия на естественном языке.

Предмет исследования - модели, методы и алгоритмы смыслового анализа естественноязыкового текста.

Цель работы - исследование, разработка и научно-практическое обоснование алгоритмов и методики автоматизированной смысловой обработки текстов и внедрение их в технологию обработки текстов в системе управления электронными архивами.

Для достижения поставленной цели требуется решение следующих основных научных и практических задач:

1. Аналитический обзор существующих методов и систем анализа ЕЯ-текстов.

2. Исследование и разработка архитектуры автоматизированной системы смысловой обработки текстов, а также принципов смыслового анализа текстов.

3. Исследование и разработка онтологии предметной области «смысловая обработка текстов на естественном языке» и правил логического вывода как информационной основы построения системы с целью хранения и извлечения знаний о грамматиках естественных языков и о предметной области текста, а также выявления основных направлений снижения трудоемкости при проектировании алгоритмов смыслового анализа текстовой информации.

4. Разработка методов (статистических методов предварительного смыслового анализа текста, методики построения пересечения онтологий) и алгоритмов смыслового анализа текстов (алгоритм поиска, классификации, кластеризации, реферирования и т.д.), базирующихся на онтологиях ЕЯ.

5. Программная реализация автоматизированной системы комплексного смыслового анализа текстов и экспериментальное исследование предложенных методов и алгоритмов.

Методы исследования. Теоретические исследования выполнены с использованием моделей и методов системного анализа, статистического анализа, онтологического инжиниринга, теории множеств, семантических сетей, математической логики, теории проектирования баз данных. При разработке программного обеспечения использовались технологии объектно-ориентированного программирования и семантического web.

Достоверность и обоснованность полученных в работе результатов и выводов подтверждается корректным использованием математического аппарата и положительными результатами проведенных экспериментальных исследований.

Научная новизна.

1. Предложена архитектура автоматизированной системы смысловой обработки текстов.

2. Разработана онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода с применением языка логики предикатов первого порядка.

3. Разработаны методы (взвешивания термов, взвешивания предложений, взвешивания абзацев, взвешивания разделов текста, взвешивания отношений между понятиями, оценки степени смысловой близости текстов) и алгоритмы (определения пересечения онтологий текстов, классификации текстов, кластеризации текстов, поиска по ключевым словам, смыслового поиска, реферирования текста) смыслового анализа ЕЯ-текстов.

Степень новизны полученных результатов.

1. Архитектура отличается от известных автору тем, что ее ядро основано на уникальной впервые созданной онтологии естественного языка, и способах извлечения из заданных текстов, соответствующих им онтологий; а также на уникальной методике определения пересечения онтологий текстов.

2. Онтология предметной области «смысловая обработка текстов на естественном языке» предложена впервые и не имеет известных автору аналогов

3. Методика определения пересечения онтологий текстов также не имеет известных автору аналогов. Все реализованные алгоритмы смыслового анализа ЕЯ-текстов основаны на данной методике, поэтому они в свою очередь также являются уникальными.

Практическая полезность. Проведение смысловой обработки ЕЯ-текстов по предложенной технологии позволит облегчить процесс их обработки, повысить доверие к результатам обработки, снизить издержки на обработку, обеспечить дальнейшее развитие систем смысловой обработки ЕЯ-текстов. Кроме того, результаты, полученные в работе, окажут положительное влияние на конгломерацию частных систем смысловой обработки ЕЯ-текстов в общую систему смысловой обработки ЕЯ-текстов. Также практическая значимость исследования заключается в возможности использования предложенных методов и алгоритмов смысловой обработки ЕЯ-текстов для повышения эффективности систем управления электронными архивами.

На защиту выносятся:

1. Архитектура автоматизированной системы смыслового анализа текстов.

2. Онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода.

3. Методы и алгоритмы смыслового анализа ЕЯ-текстов.

Реализация результатов работы. Результаты работы использованы на кафедре «САПР» в преподавании дисциплины «Онтологический инжиниринг» для магистрантов направления «Информатика и вычислительная техника». Получено 2 акта о внедрении (использовании) результатов диссертационной работы.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:

Материалы 63-й научно-технической конференции профессорско-преподавательского состава СПбГЭТУ. 2011.

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 7 публикациях, включая 3 в изданиях, рекомендуемых ВАК, 3 статьи в международных журналах, 1 - материалы научно-технической конференции.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, заключения и приложений. Основной текст изложен на 126 машинописных страницах с иллюстрациями. Список литературы включает 34 наименования.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность работы, сформулированы цель работы и перечень решаемых задач. Кратко изложено содержание работы, сформулированы научная новизна и практическая полезность.

В первой главе «Автоматизированная система смысловой обработки текстов» проведен анализ существующих программных продуктов обработки ЕЯ текстов. Указаны их достоинства и недостатки. Описано общее понимание смысловой обработки ЕЯ текстов. Сделан вывод о необходимости расширять возможности существующих систем автоматизации управления электронными архивами за счет включения в них средств смысловой обработки текстов. Рассмотрены:

а) базовые понятия смысловой обработки ЕЯ текстов (индексация, структуризация информации, формализация представления данных, классификация текстов, кластеризация текстов, смысловой поиск, реферирование, фрагментация текстов, формирование гипертекста, семантическая сеть текста, таксономия текста, онтология текста);

б) основные этапы смысловой обработки ЕЯ текстов (синтаксический анализ, семантический анализ, статистический анализ, выделение классов, определение отношений, формирование семантических сетей, формирование таксономий, получение онтологии);

в) основные методы (законы Ципфа; взвешивание термов, предложений и отношений) смыслового анализа текстов в полнотекстовых базах данных.

Введены и определены понятия: онтология естественного языка, онтология текста на естественном языке.

Во второй главе предложены структурная Рис. 1 и функциональная Рис. 2 схемы автоматизированной системы смысловой обработки текстов (ЗстТсх1Рг0сс550г).

В состав структурной схемы входят следующие подсистемы: Управляющая подсистема - предназначена для управления процессом смысловой обработки текстов; Полнотекстовая база данных - ориентирована на хранение текстовых документов в ШТ-8 кодировке; Подсистема ведения полнотекстовой базы данных - предназначена для занесения, удаления и обновления информации о текстовых документах; Подсистема синтаксического анализа текстов - предназначена для выделения основных форм слов, составляющих текст, и их принадлежность к частям речи; Подсистема семантического анализа текстов - предназначена для обнаружения связи между словами, обусловленные конструкцией предложений; Подсистема статистического анализа текстов - предназначена для подготовки численных 2-мерных таблиц для методов анализа с целью классификации текстов; статистический анализ также используется для формализации задачи смысловой обработки текстов; Эта подси-

стема дополняет лингвистические подсистемы и влияет на формирования семантической сети. Подсистема формирования семантической сети - предназначена для формирования множества понятий текста - слов и словосочетаний, связанных между собой по смыслу; Подсистема формирования таксономии и онтологии - предназначена для создания иерархии связанных тем и подтем, раскрывающих содержание тем; здесь формируется онтология текста. Подсистема визуализации - предназначена для отображения в удобном пользователю виде всей полученной из текста (текстов) информации - взаимосвязь и степень близости слов и групп текстов; Подсистемы реализации алгоритмов обработки - предназначены для реализации алгоритмов извлечений знаний и других манипуляции ими. Это алгоритмы классификации, реферирования и т.д.

Рис. 1 Рис. 2

Основой функционирования всей системы является полнотекстовая база данных, источниками информации для которой выступают корпоративные электронные архивы.

Система 8етТех1Рг0се550г обеспечивает следующие функциональные возможности: Выявление смысла текста - формирование и экспорт точной семантической сети текста или текстовой базы. Реферирование - качество краткого изложения текста обеспечивается сбалансированным сочетанием методов исследования лингвистической сети, статистических параметров и онтологии. Исследование текстов по заданной тематике. Эффективная навигация по текстовой базе. Пояснение структуры основы текста - создание древовидной структуры тематик и онтологии, представляющих семантику исследуемого текста. Кластеризация текстов. Семантический поиск информации - анализ запросов естественного языка на наличие важных слов и извлечение релевантных предложений из базы данных текстовых документов. В дополнение, формируется поддерево понятий, что детализирует поиск. Машинный перевод текстов - процесс перевода текстов с одного естественного языка на другой. Автоматическое индексирование - индексирование, технология которого предусматривает использование только формальных процедур обработки текста, осуществляемых с помощью вычислительной техники.

Глава также посвящена формализации представления данных. Рассматриваются два вида формализации:

а) Статистическая формализация представления данных заключается в построении матрицы объект-атрибут, где объектами будут исходные тексты, атрибутами - слова. Элементом матрицы является число словоупотреблений (или его логарифм, причем, при отсутствии слова логарифм считается равным - 1).

Рассчитываются следующие 2-мерные числовые матрицы:

1. Матрица текст/слово, элементы которой это число повторений данного слова в данном тексте.

2. Первая матрица слово/слово, элементы которой это число повторений данной пары слов в данном тексте.

3. Вторая матрица слово/слово, элементы которой это число текстов, содержащих данную пару слов.

4. Матрица текст/текст, элементы которой это число слов, встречающихся в данной паре текстов.

Дальше структуризация этой информации о распределении слов в текстах в числовом виде выполняется с помощью алгоритмов.

Ь) Онтологическая формализация представления данных. Она подробно излагается в главе 3.

Нужно отметить, что статистические оценки дополняются лингвистическими данными, которые хранятся в онтологии предметной области системы.

Матрицы, указанные выше рассчитываются по аналоги с латентным семантическим анализом (Л С А).

В этой главе также приводятся общий процесс смыслового анализа текста рис. 3 и методика смыслового анализа текстов, сочетающая статистические, лингвистические и онтологические способы анализа текстов и которая состоит из следующих этапов: Этап 1. Построение словаря терминов - обозначений «концептов» предметной области. Данный этап выполняется двумя подходами:

1. Лингвистический подход (рис. 4).

2. Статистический подход (рис. 5).

Этап 2 (рис. 6). Расширение словаря терминов именами ситуаций и свойств объектов предметной области. Формирование онтологии.

Этап 3 (рис. 7). Описание способов выражения отношений из онтологии в языке - типовых лексико-грамматических конструкций.

Этап 4 (рис. 8). Формальное описание онтологии на языке ОХУЬ-ОЬ и генерирование запросов для извлечения знаний из онтологии.

Процесс смыслового анализа текста выполняется для каждого текста.

Тдст на •стсствснном языке в нровке 1ЛТ-8

Стлаксичсски! анали! предложений текста

Построение лереаа

Сет синпнгтак

▼ —

Фильтрация и сор термина словаря - по

Иерархическая группировка цементов словаря на венове лексической вложенности ело» и слоеосочсга-

Ворнфикаиня и уг

С

Рис. 3 Рис. 4

Для каждого предложения текста производится синтаксический анализ с получением дерева синтаксических зависимостей между составляющими предложения. Дерево зависимостей преобразуется в сеть синтактико-семантических отношений. На основе обхода сети синтак-тико-семантических отношений производится синтез термино-подобных словосочетаний. Для каждого термина словаря производится подсчет его полной и независимой частоты встречаемости. Отношение полной и независимой частот встречаемости позволяет учесть

иерархию смыслов, которая выражается в уровне синтаксическои зависимости одних элементов словосочетаний от других. В итоге, те слова и словосочетания, для которых отношение величин «частота независимой встречаемости» (не в составе других словосочетаний) и «полная частота встречаемости» оказывается близко к нулю, могут быть отброшены как неполные части устойчивых терминов. Далее производится иерархическая группировка элементов словаря на основе лексической вложенности слов и словосочетаний. В конце проверяем и уточняем полученный словарь терминов, в том числе фиксация синонимичных обозначений одних и тех же объектов.

Алгоритмы смысловой обработки базируются на числовом анализе частотного распределения ключевых слов, выбранных из заданного массива текстов. Известно, что это распределение описывается эмпирическим законом Зипфа.

Модель представления данных заключается в построении матрицы объект-атрибут, где объектами будут исходные тексты, атрибутами - слова. Элементом матрицы является число словоупотреблений (или его логарифм, причем, при отсутствии слова логарифм считается равным - 1).

с - кодировке (ЛТ-в

zrr

Расчет первой матрицы слово/слово, пс это число повторения датой лары сл мскты которой

Расчет »торой м»т] менты «второй

т аре текстов

Формирование словаря

Фильтрация и о термина словар« - ортировка словаре. Для каждого подсчет его полной н нстааисимоА

Иерархическая группировка элементов словаря на основе лексической вложенности слов к словосочетаний

Верификации и точненис построскн ого словаря

▼

<ZZ П среза а репупьтатов обработки ^

Интеграция репу.тыап

Формирование общ

юттуалтой с оста ал

1 Выявление множеств! а сссинативно-статиста чеешх

1 евшей между

♦

1 Построение списков in | cenrt

Рис.7

▼

Перевод оитол огни » пык OWL-DL |

♦

Генерирование кеоб «гаимъп запросов нг гале

SPARQL |ля явных 1наннй

Генерирование необяод ямых чапросов иа лыке SWRL

»

Повестка косоектиосги онтологии |

*

Применение JENA ик тк ProlcseOWL API для обра.

ботк онтологии

▼

CZ. Коней ^

Рис. 5 Рис. 6 Рис. 8

Теперь объединяем плюсы статистического и лингвистического подходов. Для каждого ранее зафиксированного термина-объекта предметной области - поиск слов (словосочетаний), связанных связями типа «объект-атрибут» и «объект-ситуация», на основании шаблонов, задающих соответствующие конфигурации синтаксических связей. Потом формируем общий словарь терминов - объекты, их атрибуты и ситуации с их участием. Результирующий словарь представляет собой семантическую сеть взаимосвязанных сущностей трех классов, вход в которую возможен от частотного словаря имен объектов, атрибутов или ситуаций, а переход по связям между сущностями сопровождается возможностью просмотра текста, в котором связь раскрывается. Исследуем семантическую сеть и окончательное формирование концептуальной составляющей онтологии (шаг 1 процесса онтологического инжиниринга) -определение абстрактных понятий (классов объектов, их свойств и ситуаций) с определением типизированных отношений между сущностями этих классов; окончательное формирование фактического наполнения онтологии (шаг 2 процесса онтологического инжиниринга) -соотнесение всех терминов словаря с понятиями в схеме онтологии, в том числе фиксация синонимичных обозначений свойств и ситуаций, определение возможных иерархических отношений между сущностями одного класса.

Выявление множества ассоциативно-статистических связей между всеми терминами текста, для которых существует связь в онтологии. Ассоциативно-статистическая связь уста-

навливается между терминами, совместно упоминавшимися в предложениях текста не менее заданного числа раз. Далее построение списков цитат из текста для каждого типа связей из онтологии, с предварительным отсевом статистически малодостоверных связей и тех связей, которые выражаются уже известными способами и могут быть выделены на основании синтаксических шаблонов. Для выполнения алгоритмов смысловой обработки текстов, онтологию нужно представить в виде пригодном для машинной обработки. Такой вид выбран язык дескриптивной логики 0\УЮЬ.

Третья глава посвящена инженерией знаний предметной области «смысловая обработка текстов на естественном языке», результатом которой получение онтологическую базу знаний. Работа по конструированию базы знаний производится на нескольких этапах с применением различных формализмов представления знаний.

На первом этапе разрабатываются семантические сети, отражающие основные понятия предметной области и отношения между ними. 1. Основная семантическая сеть системы Основная семантическая сеть представлена на рис. 10.

2. Семантическая сеть понятия «слово»

Семантическая сеть «слово» представлена на рис. 11.

3. Семантическая сеть понятия «прилагательное»

Семантическая сеть «прилагатель-

Рис. 10

ное» представлена на рис. 12.

4. Семантическая сеть понятия «местоименное»

Семантическая сеть «местоименное» представлена на рис.

13.

На втором этапе, исходя из анализа семантических сетей, мы построили древовидные иерархические структуры (таксономии) важных понятий (древовидные иерархии терминов) предметной области. В таксономии основным отношением является отношение подчиненности (наследования), т.е. класс-подкласс. Основная таксономия представлена на рис. 14.

I Se mText Processor |

{Предметная область]

Параграф (Абзац)

Термин (понятие)

[Корпус

На рис. 15. представлена таксономия понятия «слово».

[ Слово 1 ¡ Словосочетание |

[ Притяжательное |

Качественное

Существ ител ьное

Числительное

Междометное

Местоименное

Рис 14.

На рис. 16. представлена таксономия понятия «местоимение». Рис 16.

I I»

Рис 15.

Относительное

Указательное

Оп ре дел ител ьное

На следующем этапе были разработаны фреймовые модели предметной области (см. главу 3 в диссертации). На последнем этапе для выполнения рассуждения над базой знаний (онтологией) и логического вывода были разработаны с применением аппарата логики первого порядка и применены следующие правила логического вывода:

Правило смыслового поиска по запросу

Вычисление степени пересечения семантической сети запроса с семантическими сетями текстов дает возможность отранжировать тексты по степени близости (релевантность и пертинентность) к запросу. Прежде всего, нужно указать, что любой текст может содержаться или не содержаться в результате поиска. Логически это пишется так: Vt,Text(t) a (output(t) = TRUE v output(t) = FALSE), TRUE Ф FALSE

Теперь определим собственно логическое правило смыслового поискового вывода текстов по заданному пользователем запросу. Vt,q,th,Text(t) a Query{q) a Threshold(th) а (mterscctionLevel(SemanticNel(q),SemanticNet(t)) > th) ■

Неопределенно-личное

• output{t) = TRUE

Правило классификации текстов по предметной области

Вычисление степени пересечения семантической сети текста с семантическими сетями рубрик (доменов) позволяет автоматически отнести входной текст к одной или нескольким рубрикам, то есть - отклассифицировать его.

Логическое правило смысловой классификации текстов по домену (предметной области) с

учетом порога степени пересечения семантических сетей, заданного пользователем.

Vi, d, th, Text(í) A Domenid) a Threshold{th) a

(intersectionLevel(SemanticNet(d),SemanticNet{t)) >th)=>ted

Вероятность больше 0 и меньше или равна 1.

Vp, Pr obabilityip) л(р>0)л(р< 1),

1*0

Логическое правило смысловой классификации текстов по домену (предметной области) без порога степени пересечения семантических сетей. В этом случае текст классифицируется по доменам с определенной вероятности. Vt,d,p,Text(t) л Domen(d) л Pr obabiliiy(p) л

(р = get Pr obability(mt er sec tionLevel(SemanticNet(d), SemanticNet(t)))) л (p > 0) => (t e d) л textDomen Pr obability(t,d) = p) Правило смысловой кластеризации текстов

Вычисление степени пересечения семантической сети одного текста с семантическими сетями других текстов дает возможность отранжировать тексты по степени их близости.

Логическое правило смысловой кластеризации текстов.

V^ ,c,p,3*j ,rexf(ij) л Text(t^) л Cluster(c) л empty(c) л Pr obability(p) л (/| е с) л (р = get Pr obability{int er sec tionLevel{SemanticNet{t j), SemanticNet(t^)))) л => ((/; > 0) л (/2 e с) л textDomen Pr obabilityit^, c) = p)) v ((/? = 0) л (ЗС2, Cluster(c,,) a emptyic^) a ^ £ c) a e C2)))

Правило формирования реферата

SemTextProcessor может автоматически создавать реферат, который, в составе наиболее значимых предложений текста, позволяет осуществить первичное и быстрое знакомство с текстом.

Логическое правило формирования реферата текста. V/,.v,u',Textif) a Sentence(s) л (.те /) a Number(w) л (has Weight(s) > w) => addToSummary(s)

где w - среднеарифметическое значение весов предложений текста, т.е.

1 N

w = — £ hasWeight(s.) Ni = 1 ' hasWeight(s) > w

В четвертой главе вводятся понятия онтология естественного языка и онтология текста на естественном языке. Описываются разработанные статистические методы и алгоритмы смысловой обработки текстов. Для взвешивания термов ЕЯ текста используется метод tf (term frequency, частота терма) - вес определяется как функция от количества вхождений терма в документе; Вес конкретного предложения текста определяется следующей формулой:

"с пк NS ' Ш

sw=^+m+z,ni*wi>

= 1

где

• - вес предложения,

• пв - число вхождений данного предложения в текст,

• N8 - общее число предложений в данном тексте,

• пк - число ключевых термов в данном предложении,

• ЫК - общее число ключевых термов в тексте,

• щ - число вхождений ¡-ого ключевого терма в данное предложение,

• - вес ¡-ого ключевого терма.

Вес абзаца в тексте определяется следующей формулой:

тк

пр , тк , „

"»г

где

• pw - вес абзаца,

• пр - число вхождений данного абзаца в текст,

• NP - общее число абзацев в данном тексте,

• пек - число ключевых предложений в данном абзаце,

• ИЭК - общее число ключевых (важных) предложений текста,

• Ш] - число вхождений ¡-ого ключевого предложения в данный абзац,

• - вес ¡-ого ключевого предложения.

Вес конкретного раздела (подраздела) текста определяется следующей формулой:

прк "Рк, л

где

• зес\у - вес раздела (подраздела),

• прк - число ключевых абзацев в данном разделе (подразделе),

• NPK - общее число ключевых (важных) абзацев текста,

• 1; - число вхождений ¡-ого ключевого абзаца в данный раздел (подраздел),

• р\У; - вес ¡-ого ключевого абзаца.

Вес связи между двумя понятиями определяется следующей формулой:

пг*{ы.+м>1) /г р г =-г^—+-+— +-,

ш ш ^

где

• г - вес отношения для данных двух понятий,

• пг - число встречаемости в тексте данной пары понятий с данным отношением,

• N11 - общее число встречаемости данного отношения в тексте,

• МЯ - общее число отношений в тексте,

• - вес первого понятия,

• вес второго понятия,

• Б - частота совместной встречаемости этих двух понятий по любому отношению в тексте,

• - частота встречаемости первого понятия в тексте,

• Бг - частота встречаемости второго понятия в тексте.

Для предварительной статистической обработки текста, определяются следующие двухмерные матрицы:

Для каждого слова подсчитывается число словоупотреблений в каждом тексте. Эти данные организуют матрицу текст/слово (Т1У).

Т}¥ =

Х1,1 "' \п

Хт, 1 хт,п

Так как может быть представлено значительное число текстов, работать с матрицей текст/слово может быть затруднительно. Поэтому матрица текст/слово служит только для расчета матрицы слово/слово (}¥1У1).

WW\ =

"1Д

\n

y„

т,\ ' т,п

Группы слов, организованные темами в матрице текст/слово, проявятся в матрице слово/слово как блоки, симметричные относительно главной диагонали.

Матрица слово/слово положительная, симметричная и имеет по диагонали 1. Смысл недиагональных элементов заключается в том, сколько раз встретилась данная пара слов во всех текстах. Также рассчитывается вторая форма матрицы слово/слово (\V\V2), элементы которой это число повторений данной пары слов в данном тексте.

WW2--

'1,1

%п

т,\ т,п

Рассчитывается матрица текст/язык (ТЬ), элементом которой служит процент слов данного ЕЯ в данном тексте. Эта матрица не симметричная и имеет существенно меньшую размерность, чем матрица текст/слово. Группы текстов в данной матрице должны совпадать с группами текстов в матрице текст/слово.

TL ■

'U

4i

1 ,п

4 , *' ' И

т, 1 т,п

Для статистической группировки текстов рассчитывается также матрица текст/текст (ТТ). Матрица текст/текст симметричная положительная и имеет по диагонали 1, а недиагональные элементы меньше 1, смысл которых в том, какой процент из слов одного текста встретился в другом тексте. Так как матрицы текст/текст и слово/слово являются производными от матрицы текст/слово их поведение в целом совпадают.

ТТ -

\п

V . • • • V

m, 1 т, п

В главе предложен следующий алгоритм определения пересечения онтологий текстов:

Строится пересечения терминов (с учетом знаний об этих терминах из онтологии ЕЯ) двух онтологий Т(О) = Т(О0ПТ(О2).

Если пересечение Т(О) не пусто, то уточним множество отношений R(O) между терминами из пересечения Т(О) с использованием знаний из онтологии ЕЯ, О] и Ог. Если пересечение Т(О) не пусто, то для каждого термина t из этого пересечения строятся два множества Tti и Т^ - термины, которые связанные с ним в каждой онтологии

1.

2. 3.

любыми

отношениями.

Tñ = jr | x е 7X0J) л (3r е R^))л xrt), Та = jx | х е Т(02) л pr е R(C>2)]л xrt].

Для каждого термина t из пересечения Т(О) строится пересечение It множеств T,i и Те (с учетом знаний о терминах в Tti и Те из онтологии ЕЯ). 1,= ТцПТд

Анализ и установка типов отношений между терминами из Т(О) и It (отношения могут быть иерархические, синонимические, атрибутивные, производные и т.д.) с учетом знаний из онтологии ЕЯ.

Степень пересечения (близости) онтологий текстов определяется формулой:

/ =

N_+R_ NI RI

N R

N2 R2

N R

N2 R2

NI RI

*100%, npu\ —+ — 1 NI RI

*100%,npu(— + — {N 2 R2

У N2 R2

M RI

где

• 1 - степень пересечения;

• N1 - общее число терминов первой онтологии;

• N2 - общее число терминов второй онтологии;

• N - общее число терминов в пересечении онтологий;

• Ш - общее число отношений первой онтологии;

• 112 - общее число отношений второй онтологии;

• Я - общее число отношений в пересечении онтологий;

Если полученный коэффициент выше определенного пользователем коэффициента доверия (по умолчанию пресечение должно содержать не менее 50% терминов одной из онтологий), то считается, что эти онтологии по смыслу близки.

Также предложены следующие алгоритмы: Алгоритм смыслового поиска по запросу Алгоритмы классификации текстов по предметным областям

Формирование онтологии (семантической сети) запроса q. SemarUtcNetlq)

| Выбираем текст t избазыт»

Формирование пересечения онтологий (семантических сетей) t и q Semant¡cNet(q)nSemant¡cNet(t)

ir

Вычисление степени пересечения от гий (семантических сетей) t и q. I = lntersectionLevel(SemanticNet(q)

,SemanticNet(t))

Выбираем ПрО d из доступных ♦

Получаем онтологию (семантической сети) ПрО d. SemanticNet(d)

Выбираем текст i для классификации

(семантической

SemamicNet(t)

♦ ~

Формирование пересечения онтологий (семантических сетей) d и t SemaniicNet(d)nSemanticNet(t)

v

Вычисление степени пересечения онтологий (семантических сетей) t и d. I = ImersectionLeveKSemanticNet(d) .Semant icNet(t))

Рис. 18.

На рис. 19 представлен алгоритм классификации текста по доменам (ПрО) с определенными вероятностями.

Алгоритм кластеризации текстов

^^^ ^ начало ^^

I Выбираем ПрО d нз доступных

Получаем онтологию (семантической сети) ПрО d. Semantic Net (d)

Выбираем текст t для кластеризации

Получаем о нто логию (семантической

сети)текст t. SemanticNet(t)

Получаем онтологию (семантической

сети) текста t. SemanticNet(t) ♦

Формирование пересечения онтологнй (семантических сетей) d и t Se ma nt icNet( d) П Sema ni icNet( t)

Вычисление степени пересечении он' гий (семантических сетей) t и d. I = Intersect ion Levé К Se ma m icNet(d) .Semant icNet(t))

Формирование пересечения онтолс i. SemanticNet(t)nSemanticNet(cI)

Текст ютно ится к домену d

1

^ начало

I Выбираем i

m реферировании

Вычисляем среднеарифметическое значение весов предложений текста.

1 N

и? —_ V Ьл г IVо 1(

^Выбираем первое предложение

Алгоритм реферирования текста

В пятой главе описываются проектирование и управление онтологией в среде Protégé, программная реализация и внедрение разработанных структур, методов и алгоритмов построения автоматизированной системы смысловой обработки текстов на естественном языке. Программа полностью реализована на языке Java. Система реализует объектную модель системы управления онтологией, описанной на языке OWL-DL, и позволяет:

• получать доступ к онтологиям с использованием технологий Jena и ProtégéOWL API;

• хранить файлы с описаниями онтологий на языке OWL-DL в файловой системе;

• выполнять запросы к онтологии ЕЯ для извлечения явных знаний;

• выполнять запросы к онтологии ЕЯ для Рис 21 извлечения неявных знаний, т.е. осуществлять логический вывод.

Главная форма автоматизированной системы смысловой обработки текстов на естественном языке представлена на рис. 22. Она позволяет: полностью моделировать предметную область; управлять онтологией (посмотреть, создать, удалить и изменить классы или концепты,

свойства или роли, фасеты или ограничения); управлять таксономиями; посмотреть, создать, удалить и изменить экземпляры; сохранить изменения в онтологию; и т.д.

Рис.23. Рис.22.

На рис. 23 представлена форма выбора и запуска вида смысловой обработки ЕЯ-текстов. Она позволяет осуществить: обычный поиск по ключевым словам; смысловой поиск текстов по ключевым словам; классификацию выбранных текстов; кластеризацию выбранных текстов; реферирование заданного текста; и другие промежуточные задачи.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Основной результат работы заключается в совершенствовании технологий смыслового анализа естественно-языкового текста. Полученные результаты относятся к направлению исследований «Визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации». В работе получены следующие выводы и результаты:

1. Архитектура автоматизированной системы смыслового анализа текстов.

2. Онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода.

3. Методы и алгоритмы смыслового анализа ЕЯ-текста, основанные на онтологии естественного языка и онтологическом описании предметов и процессов предмешой областитекста

4. Реализация автоматизированной системы комплексной смысловой обработки ЕЯ-текстов «SemTextProcessor».

Публикации в журналах, входящих в перечень ВАК

1. Фаррохбахт Фумани Мехди, Автоматизированная система смысловой обработки текстов в системе управления электронными архивами// Известия СПбГЭТУ «ЛЭТИ» № 3. 2011. С. 40-44.

2. Фаррохбахт Фумани Мехди, методика автоматической смысловой обработки текстов в системе управления электронными архивами // Известия СПбГЭТУ «ЛЭТИ». № 4.

2011. С. 40-44.

3. Фаррохбахт Фумани Мехди, архитектура web-ориентированных подсистем оптимизации электронных схем //Перспективы науки №1(03). 2010. С. 90-94.

Статьи, опубликованные в других изданиях:

4. Farrokhbakht Fouraani Mehdi, Automated semantic text processing in the management of electronic archives // The International Journal of Artificial Intelligence, Neural Networks, and Complex Problem-Solving Technologies, June 2012. http://springer.com

5. Farrokhbakht Foumani Mehdi, The technique of automatic semantic text processing in the management of electronic archives // The International Journal of Artificial Intelligence, Neural Networks, and Complex Problem-Solving Technologies, July 2012. http://springer.com

6. Farrokhbakht Foumani Mehdi, An ontological approach to semantic processing of natural language texts // The International Journal of Computer Science and Network Security, October

2012. http://www.UCSNS.org

- Материалы конференций:

7. Фаррохбахт Фумани Мехди. Смысловой анализ текстов на основе алгоритма определения пересечения онтологий этих текстов // Материалы 63-й научно-технической конференции профессорско-преподавательского состава СПбГЭТУ. 2011.

Подписано в печать 26.12.12. Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Печ. л. 1,0. Тираж 300 экз. Заказ 49. Отпечатано с готового оригинал-макета в типографии Издательства СПбГЭТУ «ЛЭТИ»

Издательство СПбГЭТУ «ЛЭТИ» 197376, С.-Петербург, ул. Проф. Попова, 5

Оглавление автор диссертации — кандидата технических наук Фаррохбахт Фумани Мехди

ВВЕДЕНИЕ.

ГЛАВА 1. АВТОМАТИЗИРОВАННАЯ СИСТЕМА СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ.

1.1. Обзор существующих программных продуктов анализа текстов.

1.2. Смысловая обработка текстов в полнотекстовых базах данных.

1.3. Описание работы системы автоматизированного смыслового анализа текстов.

Выводы.

Глава 2. Архитектура системы, процессы и методы обработки ЕЯ-текстов.

2.1. Архитектура системы.

2.2. Функциональная схема 8егпТех1Ргосез50г.

2.3. Формализация представления данных.

2.4. Общий процесс смыслового анализа текста.

2.5. Методика смыслового анализа текстов в 8етТех1Ргосез5ог.

Выводы.

Глава 3. Инженерия знаний в системе 8етТех1Ргосе550г.

3.1. Процесс инженерии знаний в нотации ЮЕРЗ.

3.2. Представление знаний с применением семантических сетей.

3.2.1. Основная семантическая сеть системы.

3.2.2. Семантическая сеть понятия «слово».

3.2.3. Семантическая сеть понятия «прилагательное».

3.2.4. Семантическая сеть понятия «местоименное».

3.3. Таксономии предметной области.

3.4. Фреймовая модель представления знаний предметной области.

3.4.1. Фрейм «Корпус».

3.4.2. Фрейм «Домен».

3.4.3. Фрейм «Кластер».

3.4.4. Фрейм «Пользователь».

3.4.5. Фрейм «Текст».

3.4.6. Фрейм «Раздел».

3.4.7. Фрейм «Абзац».

3.4.8. Фрейм «Предложение».

3.4.9. Фрейм «Термин».

3.4.10. Фрейм «Словосочетание».

3.4.11. Фрейм «Слово».

3.4.12. Фрейм «Толкование».

3.4.13. Фрейм «Тезаурус».

3.4.14. Фрейм «Ключевой термин».

3.4.15. Фрейм «Язык».

3.4.16. Фрейм «Буква».

3.4.17. Фрейм «Смысловая сеть».

3.4.18. Фрейм «Прилагательное».

3.4.19. Фрейм «Притяжательное».

3.4.20. Фрейм «Относительное».

3.4.21. Фрейм «Качественное».

3.4.22. Фрейм «Наречие».

3.4.23. Фрейм «Артикль».

3.5. Регистрация правил вывода с применением логики предикатов первого порядка.

3.5.1. Правило смыслового поиска по запросу.

3.5.2. Правило классификации текстов по предметной области.

3.5.3. Правило смысловой кластеризации текстов.

3.5.4. Правило формирования реферата.

Выводы.

Глава 4. Онтология естественного языка, методы и алгоритмы обработки.

4.1. Онтология естественного языка.

4.2. Онтология текста на естественном языке.

4.3. Методы статистической обработки текстов.

4.3.1. Методы взвешивания термов.

4.3.2. Взвешивание предложений текста.

4.3.3. Взвешивание абзацев текста.

4.3.4. Взвешивание разделов текста.

4.3.5. Взвешивание отношений в семантической сети (онтологии) текста.

4.3.6. Статистические матрицы анализа текстов.

4.4. Пересечение онтологии текстов.

4.4.1. Алгоритм пересечения онтологии текстов.

4.4.2. Оценка степени пересечения онтологии текстов.

4.5. Алгоритм смыслового поиска по запросу.

4.6. Алгоритмы классификации текстов по предметным областям.

4.7. Алгоритм кластеризации текстов.

4.8. Алгоритм реферирования текста.

Выводы.

Глава 5. Онтологическое моделирование и программная реализация.

5.1. Систематизация знаний в области онтологии.

5.2. Процесс онтологического инжиниринга.

5.3. Уровни описания и работы с онтологией.

5.4. Природа онтологического исследования.

5.5. Онтологическое моделирование в среде protégé.

5.5.1. Терминология среды Protégé.

5.5.2. Структурная модель среды Protégé.

5.5.3. Моделирование в protégé.

5.6. Извлечение знаний из онтологии с помощью SPARQL.

5.7. Программная реализация и внедрение разработанных структур.

5.7.1. Форма ведения онтологии.

5.7.2. Формы смысловой обработки текстов.!.

Выводы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ.

Введение 2013 год, диссертация по информатике, вычислительной технике и управлению, Фаррохбахт Фумани Мехди

Актуальность работы. Несмотря на широкое использование мультимедиа, текст остается одним из основных видов информации в большинстве электронных хранилищ. Огромное количество информации скапливается в многочисленных текстовых базах, хранящихся в информационных агентствах, библиотеках, корпорациях, в личных ПК и во всемирной глобальной сети. Объем информации увеличивается с поражающей скоростью и люди не в состоянии решать проблемы, связанные с этим ростом. Ввиду большого роста объемов текстовой информации и сложной структурированности естественно-языковых (ЕЯ) текстов, анализ текстов представляет собой актуальную проблему. Человечество нуждается в интеллектуальных электронных помощниках, которые могут справиться со смысловым анализом текста. Разработка эффективных подходов к обработке текстов с целью фильтрации, формирования смыслового портрета, навигации по базе текстов и т.д. является одним из наиболее актуальных направлений современных информационных технологий. В связи же с практическими потребностями быстрой переработки и поиска информации все более актуальной становится проблема смыслового преобразования текстов. Под преобразованием понимается такой процесс переработки текстов, результатом которого является создание некоторых вторичных текстов, близких по смыслу к исходным, но не заменяющих их полностью. В практическом плане эта проблема заключается в разработке конкретных методов автоматического аннотирования, реферирования, индексирования и др.

В настоящее время в мире существуют и активно развиваются системы смыслового поиска в полнотекстовых базах данных, которые поддерживаются ведущими фирмами - производителями серверов баз данных, например, Oracle, Microsoft, IBM и др. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъект-объектных отношений менаду ними. Крупные поисковые серверы в Интернете (например, Google, Yahoo, Yandex) поддерживают алгоритмы поиска текстов "схожих" с данным и расчета релевантности найденных документов исходному запросу. Специализированные системы полнотекстового анализа (например, в России это "Следопыт", "ТекстАналист") позволяют проводить автоматическую классификацию и реферирование текстов.

Классически в основе задачи обработки ЕЯ-текстов лежат морфологический и морфемный анализ, синтаксический и семантический анализ, результатами которых являются модели текста, адекватно отражающие его словообразовательные, грамматические и смысловые конструкции. В этом смысле, основные методы анализа текста достаточно подробно изложены в трудах Апресяна Ю.Д., Виноградова Д.В., Гладкого А.В., Клосса Б.М., Кожуновой О.С., Мельчука И.Д., Солтона Г., Н.С., Филмора Ч., Финна В.К., Шведовой Н.Ю., Дж.Дж.Катца, Дж.А.Фодора, Б. Патти, А. Вежбицкой и др. Ряд современных усовершенствованных методов представлены в статьях Ермакова А.Е., Леонтьевой Н.Н., Мозгового М.В., Плешко В.В., Сокирко А., Толпегина П.В., Тузова В.А. и др.

В настоящее время успешно решена задача морфологического анализа текстов, результаты которого применяются в поисковых Интернет-машинах, текстовых редакторах, подсистемах проверки орфографии и пр. Задачи синтаксического и, в особенности, семантического анализа не решены в полной мере. Синтаксический анализ (анализ грамматики) можно встретить в системах перевода, в подсистемах проверки грамматики. Несмотря на богатую теорию в области семантического анализа, применение находят лишь методы анализа основанные на статистических (факторных) характеристиках слов и словосочетаний анализируемого текста. Следует отметить, что подсистемы, реализующие указанные методы анализа текста, не предоставляют средств настройки процесса анализа, средств пополнения баз правил грамматики языка и часто эти подсистемы дают грубые результаты.

Семантические модели (СМ) текста, являющиеся результатом комплексного анализа, позволяют оценить корректность текста, в наглядной форме, визуально представить структуру сюжета, взаимосвязь объектов и процессов текста, их атрибуты. Последовательность моделей простых предложений текста и результирующая визуальная модель текста позволяют реализовать обратную связь "воздействие на модель - реакция в тексте", благодаря чему можно в интерактивном режиме отлаживать процессы анализа текстов и доказательства объективности (однозначности) истолкования текстов на естественных языках.

Применение семантических моделей актуально в автоматизированных обучающих системах, при решении задач извлечения знаний из текстов, информационного поиска, реферирования, контроля корректности словарей терминов и определений, автоматической генерации ассоциативных связей в гипертекстовых базах данных (ГБД) и пр.

Учитывая вышеизложенное, а также то, что проблема смыслового анализа ЕЯ-текстов до настоящего времени не решена в полной мере, считаем, что совершенствование методов анализа ЕЯ-текстов и повышение степени их достоверности является актуальной задачей.

Разработанность проблемы. Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Европейский Союз уже несколько лет координирует различные программы в области автоматической обработки текстов (например, проект 1ST, 1998-2001 гг.). В США с 1991 по 1998 гг. существовал проект TIPSTER, организованный Департаментом обороны совместно с Национальным институтом стандартов и технологий и Центром военно-воздушных и военно-морских вооружений. В работе консультативного совета этого проекта участвовали также ФБР, Национальный научный фонд и некоторые другие организации. Основной целью проекта было сравнение и оценка результатов работы различных поисковых систем и систем реферирования. По результатам проекта был опубликован подробный обзор и даны рекомендации по использованию этих систем. В США среди систем подобного рода наиболее известной является электронная архивная система "Excalibur RetrievalWare" производства компании Excalibur Technologies. Программные продукты этой компании используются Госдепартаментом, Библиотекой Конгресса, ЦРУ, компаниями Ford Motors, Lockheed, Reynold Electrical & Engineering, Maine Yankee Atomic Power.

Современные системы смыслового анализа текстов, особенностью которых являются: предпочтение скорости обработки текстов, точности семантического и морфологического анализа, выявление смысла текста, реферирование, автоматическое индексирование, эффективная навигация по текстовой базе, статистический частотный анализ словоупотреблений, автоматическая классификация и кластеризация текстов, смысловой поиск и расчет релевантности текстов поисковому запросу.

• OLAP-технологии. Сегодня все больше организаций, в том числе и банков, используют в качестве инструмента анализа своей деятельности OLAP -технологии. OLAP, использует многомерное представление совокупных данных, чтобы обеспечить быстрый доступ к стратегической информации для дальнейшего анализа.

Недостатки OLAP-технологий: а) функциональность систем ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборки; Ь) сложно пересчитывать агрегированные значения при изменениях начальных данных; с) сложно поддерживать таблицы агрегатов; d) сложно изменять измерения без повторной агрегации; е) снижение скорости обработки из-за вычислений по требованию; f) ограничение на объем данных; • система автоматического анализа текста TextAnalyst разработана в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.

Недостатки: а) не имеет готового словаря русского языка; Ь) не применяет сколько-нибудь развитых лингвистических средств, например синтаксического и морфологического анализа;

• Oracle InterMedia Text. Одним из наиболее мощных продуктов, позволяющих реализовать поддержку полнотекстовых баз данных с доступом через интернет, является система InterMedia Text в составе СУБД Oracle8i. В InterMedia Text интеллектуальная обработка текста (тематическая классификация, аннотирование) сочетается с поисковыми возможностями, доступными при работе с реляционными базами данных.

Недостатки: а) большинство возможностей InterMedia оказывается доступно в полной мере лишь для английского языка и, в меньшей мере, еще для ряда европейских и восточно-азиатских языков; Ь) не задействует лингвистические технологии, которые зависят от лексики, грамматики и семантики языка; с) не устанавливает смысловые связи между темами;

• Russian Context Optimizer (RCO). Адаптацией технологий Oracle к русскоязычным базам данных занимаются специалисты компании «Гарант-Парк-Интернет», которая выпускает продукт под названием Russian Context Optimizer (RCO), предназначенный для совместного использования с системой InterMedia Text.

Основной недостаток - функциональность системы ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборки;

• Система PoIyAnalyst. Система PolyAnalyst предназначена для автоматического анализа числовых и текстовых данных с целью обнаружения в них ранее неизвестных, нетривиальных, практически полезных и доступных пониманию закономерностей, необходимых для принятия оптимальных решений в бизнесе и в других областях человеческой деятельности. Недостатки: а) поддерживается только платформа Windows; b) ограниченные возможности выявления структуры данных; с) невозможность объединения данных из различных баз данных в единый набор для просмотра. Это создает неудобства при одновременном анализе нескольких групп информации;

• WebAnalyst - это корпоративный аналитический сервер, представляющий собой интегрированную платформу для хранения и обработки информации и адаптированный для работы с веб-данными и для решения задач e-business. WebAnalyst включает в себя все математические модули для Data и Text Mining систем PolyAnalyst и TextAnalyst, а также специальную аналитическую математику. Недостатки: а) в основном ориентирована на интернет; Ь) недостаточная оперативность; с) слабо развитые средства обобщения данных;

• Система "Ключи от Текста" - смысловой поиск и индексирование текстовой информации в электронных библиотеках.

Недостатки: а) большие затраты интеллектуальной работы как при обработке первоисточника, так и при наполнении БД; Ь) в ней не учитывается коллективный характер использования Сети, а именно то обстоятельство, что ресурсы разделяемы;

• Интеллектуальная система "СЛЕДОПЫТ" помогает быстро находить текстовые фрагменты документов, и предназначена для тех, кто в результате своей деятельности имеет дело с большим объемом информации. "СЛЕДОПЫТ" позволяет оперативно находить необходимые документы, и представляет полученную информацию в удобном для пользователя виде. Следопыт ищет информацию на русском и английском языках. "СЛЕДОПЫТ" позволяет в качестве запроса использовать фразы на естественном языке. Допускаются комбинированные запросы на смешанном русско-английском языке.

Недостатки: а) ограничение на объем данных; Ь) зависит от сторонних программных продуктов, например, MS Office;

• В корпорации "Галактика" создан новый продукт - автоматизированная система поиска и аналитической обработки информации. Сферы применения: a) развитие предвыборных технологий и социологических исследований в целях позиционирования и продвижения интересов политических партий и движений; b) поддержка информационных подразделений, службы маркетинга и службы безопасности крупных предприятий и банков; c) поддержка средств массовой информации.

Недостатки: а) Система не является управляющей; Ь) Система не имеет механизма определения и контроля процедур выполнения конкретных операций или группы операций (например, определение процедуры СНАБЖЕНИЕ: способ формирования заявки - заявка - выбор поставщика - формирование заказа - отслеживание его выполнения - процедура получения на склад), что не позволяет руководителю быть уверенным, что его управляющие решения исполняются; с) Система не имеет функций, необходимых для обеспечения деятельности крупных корпораций (Централизованное снабжение, распределение функций между организациями, передача полномочий от одной организации к другой, взаиморасчеты внутри корпорации и т.д.);

Большинство возможностей этих известных систем оказывается доступно в полной мере лишь для английского языка и, в меньшей мере, еще для ряда европейских и азиатских языков. Практически не поддерживают персидского языка. А также недостаточная защита данных.

Тенденцией развития рынка является разработка модулей лингвистического прикладного обеспечения для разработчиков систем автоматизации. Так как цены на данные программные продукты сопоставимы с ценами на системы автоматизации корпораций, необходимо расширять возможности существующих систем. В настоящее время в России и не только сложилась ситуация, что системы автоматизации управления корпоративными электронными архивами не поддерживают технологии автоматизированного смыслового анализа текстов, а современные системы анализа текстов не адаптированы к работе с электронными текстовыми архивами корпорации. Необходима разработка алгоритмов и методики автоматизированной смысловой обработки текстов и реализация программно-технического комплекса для внедрения смыслового полнотекстового анализа в технологию обработки электронных архивов. Данный комплекс также должен поддерживать персидский и другие азиатские языки.

Исходя из всего, что сказано выше, в данном диссертационном исследовании были сформулированы:

Объект исследования работы - математическое, информационное и программное обеспечение человеко-машинного взаимодействия на естественном языке. Предмет исследования - модели, методы и алгоритмы смыслового анализа естественноязыкового текста.

Цель работы - исследование, разработка и научно-практическое обоснование алгоритмов и методики автоматизированной смысловой обработки текстов и внедрение их в технологию обработки текстов в системе управления электронными архивами.

Для достижения поставленной цели требуется решение следующих основных научных н практических задач:

1. Аналитический обзор существующих методов и систем анализа ЕЯ-текстов.

2. Исследование и разработка архитектуры автоматизированной системы смысловой обработки текстов, а также принципов смыслового анализа текстов.

3. Исследование и разработка онтологии предметной области «смысловая обработка текстов на естественном языке» и правил логического вывода как информационной основы построения системы с целыо хранения и извлечения знаний о грамматиках естественных языков и о предметной области текста, а также выявления основных направлений снижения трудоемкости при проектировании алгоритмов смыслового анализа текстовой информации.

4. Разработка методов (статистических методов предварительного смыслового анализа текста, методики построения пересечения онтологий) и алгоритмов смыслового анализа текстов (алгоритм поиска, классификации, кластеризации, реферирования и т.д.), базирующихся на онтологиях ЕЯ.

5. Программная реализация автоматизированной системы комплексного смыслового анализа текстов и экспериментальное исследование предложенных методов и алгоритмов.

Методы исследования. Теоретические исследования выполнены с использованием моделей и методов системного анализа, статистического анализа, онтологического инжиниринга, теории множеств, семантических сетей, математической логики, теории проектирования баз данных. При разработке программного обеспечения использовались технологии объектно-ориентированного программирования и семантического web.

Достоверность и обоснованность полученных в работе результатов и выводов подтверждается корректностью разработанных математических моделей, положительными результатами проведенных экспериментальных исследований и опытом практической эксплуатации разработанных программных систем.

Научная новизна.

1. Предложена архитектура автоматизированной системы смысловой обработки текстов.

2. Разработаны онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода с применением языка логики предикатов первого порядка.

3. Разработаны методы и алгоритмы смыслового анализа ЕЯ-текстов.

4. Программно реализована автоматизированная система комплексного смыслового анализа ЕЯ-текстов.

Практическая полезность. Проведение смысловой обработки ЕЯ-текстов по предложенной технологии позволит облегчить процесс их обработки, повысить доверие к результатам обработки, снизить издержки на обработку, обеспечить дальнейшее развитие систем смысловой обработки ЕЯ-текстов. Кроме того, результаты, полученные в работе, окажут положительное влияние на конгломерацию частных систем смысловой обработки ЕЯ-текстов в общую систему смысловой обработки ЕЯ-текстов, поскольку в настоящее время средств, позволяющих осуществить полную смысловую обработку ЕЯ-текстов, не существует. Также практическая значимость исследования заключается:

• в программной реализации разработанного автором семантического ядра системы;

• в применении предложенных моделей, методов и алгоритмов для разработки автоматизированной системы комплексного смыслового анализа текстов;

• в возможности использования созданного семантического ядра системы в крупных системах смысловой обработки ЕЯ-текстов.

На защиту выносятся:

1. Архитектура автоматизированной системы смыслового анализа текстов.

2. Онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода.

3. Методы и алгоритмы смыслового анализа ЕЯ-текстов.

4. Разработанная и программно реализованная автоматизированная система комплексной смысловой обработки ЕЯ-текстов.

Реализация результатов работы. Результаты работы использованы на кафедре «САПР» в преподавании дисциплины «Онтологический инжиниринг» для магистрантов направления «Информатика и вычислительная техника». Получено 2 акта о внедрении (использовании) результатов диссертационной работы.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:

Материалы 63-й научно-технической конференции профессорско-преподавательского состава СПбГЭТУ. 2011.

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 7 публикациях, включая 3 в изданиях, рекомендуемых ВАК, 3 статьи в международных журналах, 1- материалы научно-технической конференции.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, и заключения. Основной текст изложен на 126 машинописных страницах с иллюстрациями. Список литературы включает 34 наименования.

Заключение диссертация на тему "Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Основной результат работы заключается в совершенствовании технологий смыслового анализа естественно-языкового текста. Полученные результаты относятся к направлению исследований «Визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации».

В работе получены следующие выводы и результаты:

1. Анализ существующих технологий семантического анализа ЕЯ-текстов позволил определить основные направления снижения трудоемкости проектирования алгоритмов анализа текстовой информации: сокращение объема описания грамматик ЕЯ и понятийного аппарата заданных предметных областей и совершенствование инструментальных средств создания правил для анализа ЕЯ-текста и онтологического описания понятий. Установлено, что излишняя сложность формализации терминов и правил грамматики языка приводит к возрастанию объемов его описания. Ограниченность расширяемости понятийного аппарата анализа ЕЯ-текста, обусловленная, как правило, сложностью его формализации, приводит к необходимости обращения к разработчикам таких методов с целью постоянной доработки системы.

2. Предложена архитектура автоматизированной системы смыслового анализа ЕЯ текстов.

3. Разработаны онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода.

4. Разработаны методы и алгоритмы смыслового анализа ЕЯ-текста, основанные на онтологии естественного языка и онтологическом описании предметов и процессов предметной области текста, а также выделении ролевых отношений между участниками процесса и ассоциативных отношений с понятиями предметной области.

5. Разработана и программно реализована автоматизированная система комплексной смысловой обработки ЕЯ-текстов «SemTextProcessor».

Публикации в журналах, входящих в перечень ВАК

1. Фаррохбахт Фумани Мехди, Автоматизированная система смысловой обработки текстов в системе управления электронными архивами// Известия СПбГЭТУ «ЛЭТИ» № 3. 2011.С. 40-44.

2. Фаррохбахт Фумани Мехди, методика автоматической смысловой обработки текстов в системе управления электронными архивами // Известия СПбГЭТУ «ЛЭТИ». № 4. 2011.С. 40-44.

3. Фаррохбахт Фумани Мехди, архитектура web-ориентированных подсистем оптимизации электронных схем //Перспективы науки №1(03). 2010. С. 90-94.

Статьи, опубликованные в других изданиях:

4. Farrokhbakht Foumani Mehdi, Automated semantic text processing in the management of electronic archives // The International Journal of Artificial Intelligence, Neural Networks, and Complex Problem-Solving Technologies, June 2012. http://springer.com

5. Farrokhbakht Foumani Mehdi, The technique of automatic semantic text processing in the management of electronic archives // The International Journal of Artificial Intelligence, Neural Networks, and Complex Problem-Solving Technologies, July 2012. http://springer.com

6. Farrokhbakht Foumani Mehdi, An ontological approach to semantic processing of natural language texts // The International Journal of Computer Science and Network Security, October 2012. http://www.IJCSNS.org

- Материалы конференций:

7. Фаррохбахт Фумани Мехди. Смысловой анализ текстов на основе алгоритма определения пересечения онтологий этих текстов // Материалы 63-й научно-технической конференции профессорско-преподавательского состава СПбГЭТУ. 2011.

Библиография Фаррохбахт Фумани Мехди, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. http://vladimir.socio.msu.ru/lKM/theme24.htm.

2. TextAnalyst Electronic resource. Режим доступа: http://www.analyst.ru/ и http://www.megaputer.ru/textanalyst.php

3. Компания "Гарант-Парк-Интернет" Электронный ресурс. Режим доступа: www.rco.ru.

4. Media Lingva "Следопыт" Electronic resource. Режим доступа: http://www.sIedopyt.ru.

5. Корпорация "Галактика Galaktika-ZOOM" Электронный ресурс. Режим доступа: www.galaktika.ru.

6. Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. Пособие для студ. лингв, фак. Вузов / Нина Николаевна Леонтьева. М.: Издательский дом «Академия» 2006. - 306 с.9. http://www.citforum.ru/consulting/BI/xolapclassification/

7. Бешелев С.Д. Математико-статистические методы экспертных оценок/С.Д. Бешелев, Ф.Г. Гурвич. М„ 1980.- 263 с.

8. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах/ В.Ш. Рубашкин. М.: Наука, 1989.

9. Гитис Л.Х. Кластерный анализ: основные идеи и методы: Препринт/ Л.Х.Гитис. -М., 2000. -61 е.: ил.

10. Zipf G.K. Human behavior and the principle of least effort/ G.K. Zipf. Cambridge: Univer. Press, 1949.

11. Совпель И.В. Инженерно-лингвистические принципы, методы и алгоритмы автоматической переработки текста/ И.В. Совпель. -Минск: Вышэйш. шк., 1991. -118 е.: ил.

12. Н. Н.ЛЕОНТЬЕВА. Автоматическое понимание текстов: системы, модели, ресурсы: Учеб. Пособие для студ. Линг. Фак. вузов / Нина Николаевна Леонтьева. М.: Издательский центр «Академия», 2006. - 304 с.

13. ШЕМАКИН Ю.И. Начала компьютерной лингвистики: Учеб. пособие. М.: Иэд-во МГОУ, А/О "Росвузнаука", 1992.

14. ALEXANDROV, M., SBOYCHAKOV, К. Searching in full text Data Bases by using text patterns. In Proceedings of International Computer Symposium CIC'99 (Mexico, 1999). National Polytechnic Institute, Mexico. 1999. Pp. 17-29.

15. Gruber T. R. A translation approach to portable ontologies // Knowledge Acquisition, 1993, V. 5(2), P. 199-220.

16. Ермаков A.E. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза. // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. Москва, Наука, 2003.-С. 136-140.

17. И. В. ГЕРАСИМОВ А. И. МАЙГА Л. Н. ЛОЗОВОЙ Онтологический инжиниринг. Средства и спецификации онтологического моделирования. Учебное пособие. Санкт-Петербург Издательство СПбГЭТУ «ЛЭТИ» 2009 г.

18. OWL Web Ontology Language Guide. W3C Recommendation 10 February 2004 http://www.w3.org/TR/2004/REC-owl-guide-2004021.

19. RDF Primer. W3C Recommendation 10 February 2004. http://www.w3.org/TR/2004/REC-rdf-primer-20040210/.24. http://ru.wikipedia.org/\viki/4acTbpe4H и далее по гиперссылкам.

20. Скорлуповская Е. В., Снетова Г. П. Толковый словарь современной лексики русского языка. м.: «ИРИСЪ»: «Новая Волна», 2003. - 592 с.

21. Ахманова О.С. Словарь лингвистических терминов. М., 1966. с.89.

22. Зализняк А. А. Грамматический словарь русского языка: Словоизменение. 4-е изд. -М.: «Русские словари», 2003, стр. 71.28. http://rusgram.narod.ru/indexl .html.

23. Разработкаонтологий 101: http://ifets.ieee.org/russian/depository/ontologyl01rus.doc

24. Руководоство по Protege: http://www.ittal.kstu.ru/publ/ONTOLOGYUserGuider.doc

25. The Protégé Ontology Editor and Knowledge Acquisition System HTML. (http://protege.stanford.edu/)

26. Введение в RDF и Jena RDF API: http://www.semantictools.ru/tools/iena tutorial.shtml

27. Фаррохбахт Фумани Мехди, Автоматизированная система смысловой обработки текстов в системе управления электронными архивами// Известия СПбГЭТУ «ЛЭТИ» №3. 2011.С. 40-44.

28. Фаррохбахт Фумани Мехди, методика автоматической смысловой обработки текстов в системе управления электронными архивами // Известия СПбГЭТУ «ЛЭТИ». № 4. 2011.С. 40-44.