Разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев

Кулешов, Сергей Викторович

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев

кандидата технических наук: Кулешов, Сергей Викторович
город: Санкт-Петербург
год: 2005
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев»

Автореферат диссертации по теме "Разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев"

На правах рукописи УДК 004.89

Кулешов Сергей Викторович

РАЗРАБОТКА АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ СЕМАНТИЧЕСКОГО АНАЛИЗА И ПОСТРОЕНИЯ ВИЗУАЛЬНЫХ ДИНАМИЧЕСКИХ ГЛОССАРИЕВ.

Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ.

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2006

Работа выполнена на кафедре информатики государственного образовательного учреждения «Российский государственный педагогический университет им. А.И.Герцена».

Научный руководитель: доктор технических наук, профессор

Александров Виктор Васильевич

Официальные оппоненты: доктор физико-математических наук,

профессор, Братчиков Игорь Леонидович

кандидат технических наук, Кулик Борис Александрович

Ведущая организация: Санкт-Петербургский Государственный

университет авиакосмического приборостроения

Защита состоится 14 марта 2006г. в И часов на заседании Диссертационного Совета К212.199.02 по защите диссертаций на соискание ученой степени кандидата технических наук в Российском государственном педагогическом университете им. А.И. Герцена по адресу: 191186, Санкт-Петербург, наб. р. Мойки, д. 48, корп. 1, ауд. 1М_-

С диссертацией можно ознакомиться в фундаментальной библиотеке РГПУ им. А.И.Герцена.

Автореферат разослан ю февраля 2006г.

Ученый секретарь диссертационного совета

Емельянов А. П.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертационной работы в первую очередь определяется её ориентацией на важную практическую проблему эффективного осуществления семантической коммуникации между человеком и компьютером в некоторой предметной области, а также между людьми, являющимися специалистами в разных предметных областях при работе над общим проектом.

Наиболее естественным для человека способом общения является естественный язык. Предлагаемые методы ориентированы на решение поставленной проблемы путем создания русскоязычных онтологических информационных систем.

Проблема создания тезаурусов и глоссариев как информационной базы является ключевым моментом в любой предметной области на определенном > этапе ее развития. При этом в настоящий момент нет русскоязычной

ментальной модели лексикона человека, дающей возможность динамического развития семантических понятий предметной области, связанной с информационными технологиями.

Разработка автоматизированной системы семантического анализа является основой программного обеспечения с пользовательским интерфейсом, близким к естественно-языковому. Построение тезаурусов должно способствовать снятию проблемы терминологической путаницы в работе информационных систем.

Анализ существующих исследований, посвященных решению задачи автоматизированного построения тезаурусов, выявил крайне незначительное число готовых и апробированных решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач анализа неструктурированной, естественно-языковой текстовой информации. Эффективное решение описанной задачи и составляет суть диссертационной работы.

Объектом исследования являются компьютерные методы обработки русскоязычных текстов.

Предметом исследования являются инструментально-технические средства обработки русскоязычных текстов.

Целью работы является разработка и исследование семиологического подхода, обеспечивающего анализ и обработку текстовой информации с целью получения структурированных словарей, глоссариев и тезаурусов для выбранного антологического материала. Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:

1. Анализ основных подходов к выбору, представлению и обработке русскоязычной совокупности текстов - антологии;

2. Построение модели семантического представления текстов и компьютерного формирования тезаурусов;

3. Разработка методов аналитического самореферирования русскоязычных текстов;

1РОС НАЦИОНАЛЬНАЯ I

библиотека i

4. Разработка методов поиска документов в рамках предложенного семиологического подхода.

Основные методы исследования. В качестве методов исследования использовались статистический анализ, теория множеств, теория графов, реляционная алгебра. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Научная новизна. В предлагаемой диссертации разработаны новые подходы к решению следующих задач:

1. Формирование семантических полей заданной предметной области, представленной выбранной совокупностью текстов.

2. Представление тезаурусов предметных областей в виде визуальной интерактивной среды.

3. Использование данных, сформированных на основе терминологических семантических полей, д ля ассоциативного поиска текстовых документов.

4. Использование результатов формирования семантических полей для оценки семантической связности текстов.

Теоретическая значимость работы заключается в создании семантических моделей проблемно-ориентированных знаний, которые послужат платформой в создании глоссариев, тезаурусов и систем аналитического самореферирования. Разработанные алгоритмы обработки текстов позволяют формировать сети отношений между терминами предметных областей, что дает возможность применять методы теории графов при работе с текстовыми данными. Кроме того, сетевая модель текстовой информации дают возможность наглядного представления связей между понятиями.

Практическая значимость работы заключается в создании программной системы, реализующей теоретические результаты работы, которая может использоваться для создания глоссариев, тезаурусов для требуемых предметных областей. Предложенный критерий семантической связности текстов позволяет производить эффективное ранжирование документов в результатах поиска при работе поисковых систем. Положения, выносимые на защиту.

На основе проведенных теоретических работ и их экспериментальной апробации на защиту выносятся следующие положения:

1. Алгоритм формирования семантических полей заданной предметной области, представленной набором текстов.

2. Метод формирования структуры графа по текстовой информации.

3. Разработка основных теоретических положений семиологического подхода.

Личный вклад автора. Все основные результаты диссертации получены автором самостоятельно.

Апробация работы. Научные результаты и основные положения работы представлялись на конференциях: Современные проблемы социально-экономического развития и информационных технологий (Баку, 2004); IX Санкт-Петербургская международная конференция «Региональная информатика-2004» (Санкт-Петербург, 2004); Международная конференция по

проблемам надежности, качества, информационных и электронных технологий (Сочи, 2004).

Реализация и внедрение. Полученные результаты реализованы в виде ряда программных систем на различных языках программирования (Java, Delphi). Данные программные системы используются в качестве он-лайн справочных систем в Интернет, модулей автоматического реферирования и поисковых подсистем в системах корпоративного документооборота.

Публикации. Автором опубликовано по теме диссертации 10 печатных работ.

Структура и объем диссертационной работы. Диссертация состоит из введения, 4 глав, заключения, излагается на 100 страницах, включая перечень используемой литературы из 86 наименований, 27 рисунков и 1 таблицу. Кроме того, в диссертации имеется приложение на 10 листах, содержащее в себе примеры работы разработанных программ, реализующих алгоритмы, описанные в диссертации.

СОДЕРЖАНИЕ РАБОТЫ

Во введении содержится обоснование актуальности темы диссертации, сформулированы основные научные результаты, выносимые автором на защиту, а также практическая ценность полученных результатов.

В первой главе «Анализ предметной области и постановка задач исследования» обсуждается современное состояние подходов к решению проблемы автоматизации лингвистической обработки; проанализированы классы систем обработки естественного языка (ЕЯ), рассмотрены основные формализмы, используемые для моделирования семантики.

Рассмотрены различные теории языка, начиная с античных, основанных на «вещном знании», которые основаны на раскрытии каких-либо свойств или признаков обозначаемого именем предмета, через обнаруженное в составе имени словосочетание.

В настоящее время одной из основных проблем в области информационных технологий является обучение адекватному описанию, упорядочению и восприятию текстуального отражения информационных составляющих предметной области. В то же время инженерно-техническая мысль стремилась с одной стороны упростить устранение неоднозначностей, возникающих в соответствии со специфическими лингвистическими конструкциями построения текстов человеком, а с другой - интенсифицировать процесс накопления и воспроизводства текстуально-ориентированных знаний.

Существует проблема неоднозначности соответствия понятий одного языка понятиям другого: ни одно слово не может быть описано двумя разными выражениями. В языке нет полных синонимов и нет точных соответствий мезвду схожими по значению словами в разных языках. Синонимические понятия одного языка не соответствуют таковым в другом языке. Отсюда

вытекает потребность в создании глоссария на том языке, который будет использоваться в процессе работы с определенными информационными системами.

Если терминологических соответствий много, невозможно осуществить автоматизированный перевод. Классические подходы к математической лингвистике и структурной лингвистике не решают эти вопросы.

Семиология - подход, предложенный У. Эко, рассматривает совокупность информационных процессов как знаковые системы, предполагая, что они таковыми и являются, будучи, таким образом, также феноменами коммуникации. Тем самым она отвечает потребностям самых разнообразных современных научных дисциплин, как раз и пытающихся свести явления самого разного порядка к факту коммуникации.

Следует подчеркнуть, что в компьютерных информационных системах возникает проблема адекватного восприятия знаний через различные понятийные терминологии, которых не существовало при взаимной коммуникации типа непосредственного общения. Процесс непосредственного общения является процессом обучения и формирования адекватных профессиональных понятий. Барьер в виде компьютерно-информационной системы разрывает этот непосредственный естественный процесс. Каждый пользователь пытается внедрить в информационную систему свою понятийную базу. Необходим некий мета-уровень, который поддерживал бы обновление понятийной профессионально-предметной базы для корпоративного пользователя системы.

Семиологический подход отличается от лингвистического приближением и адаптацией к реализационным возможностям компьютерных систем.

Проведенный обзор информационных систем и технологий наглядно демонстрирует, что наблюдается разрыв между узкоспециализированными высокоэффективными программными средствами и постоянно усложняемым интерфейсом корпоративного общения с информационными системами. По сути, это приводит к необходимости создания следующего уровня так называемых семиологических информационных систем, где во главу угла ставятся принципы адекватного восприятия коммуникаций как согласованного процесса - семантический резонанс между программируемой средой и интерпретационным текстологическим содержанием, адекватно воспринимаемого на каждом уровне пользователем корпоративной системы.

Специфика многих профессий - предметная ориентированность текстов -показывает, что для коммуникативного акта не важны некоторые компоненты лингвистики. Онтология предметной области проявляется не в словах, а в связях между понятиями. Словом в любой онтологии могут служить произвольные идентификаторы, а способ их связи определяются только структурой языка.

Кроме того, необходимо отметить, что в обыденном языке, безусловно, нет четкого соответствия между знаком (словом) и обозначаемым.

1. Слово имеет, как правило, несколько значений (полисемия). Даже

узкоспециализированные термины переходят из одной отрасли знания в

другую, меняя при этом свое значение; в других случаях углубление знаний об объекте, класс которого называется термином, приводит к уточнению и обогащению его значения. Атом для античных ученых и для современных ядерщиков - разные слова (разные значения при одной неизменной форме).

2. Внешне на полисемию похоже явление омонимии: два или более слова с совершенно разными исконными значениями по форме оказались идентичными: топить печку и топить лодку.

3. Разные формы могут служить вместилищем одних и тех же или очень близких значений (синонимия): идти в ногу - маршировать; пурга -вьюга - буран - метель.

4. Одна и та же форма может вмещать прямо противоположные значения (энантиосемия): «просмотрели» означает «видели, увидели» и «не увидели».

Получается, что значение не прикреплено к определенной форме (или наоборот: одна форма не прикреплена к определенному значению). Семиологический подход исходит из следующего тезиса: Человек, компьютер или любая другая коммуникационная система (интернет и др.), используя феномен коммуникации, должны учитывать:

■ язык предшествует и учреждает акт коммуникации;

■ не источник и потребитель использует тот или иной язык, а язык лишь выражает семантико-смысловое содержание информационного сообщения.

Во второй главе «Визуально-динамический интерфейс понятийно-терминологической информационной системы» описано создание визуального интерфейса для понятийно-терминологической информационной системы и примеры его использования.

Глоссарием в рамках семиологической информационной системы является множество терминов, являющееся минимально достаточным понятийно-терминологическим базисом предметной области, в котором все элементы иерархически и ассоциативно связаны с другими терминами заданной предметной области. Связями назовем отношение на множестве терминов, дающее связь между определяемыми и определяющими словами.

Для создания глоссария используется антология - сборник тематически-ориентированных текстов.

Дополнение информационной системы интерактивным визуальным интерфейсом позволяет создать интерактивную среду для быстрого ознакомления с предметной областью.

Ниже приводится сокращенное описание алгоритма автоматизированного формирования глоссария заданной предметной области.

1. Формирование общего словаря из антологии для создания множества всех слов во всех формах.

2. Формирование списка терминов - анализ антологии (текстов по предметной области) с целью выделения терминологического базиса для

предметной области. Предварительно сформированное множество терминов уточняется на стадии статистической обработки. Отдельным проходом алгоритма выделяются термины, состоящие из нескольких слов.

3. Морфологическая обработка словаря и приведение слов в нормальную форму на основании общего словаря с помощью модуля морфологического анализа.

4. Формирование семантической сети - многопроходный алгоритм, формирующий множество связей между элементами списка терминов на основании содержания (контента) и структуры текстов. Реализация процедуры принятия решения включения новой связи использует механизм сравнения слов в начальных формах, причем приоритет отдается терминам, состоящим из нескольких слов.

5. Определение ранговых распределений для списка терминов -формирование индексов частоты использования терминов в обрабатываемой предметной области и частоты использования связей между терминами.

6. Реструктуризация семантической сети на основе ранговых распределений терминов, словаря стоп-слов; уточнение состава базиса предметной области. Также на этом этапе проводится формирование иерархии связей на основе опциональных параметров, задающих количество уровней иерархии и ограничение количества элементов на одном уровне, а также стратегию фильтрации при ограничениях. Ограничения влияют только на визуализацию и позволяют более наглядно представить термины, являющиеся центрами большого количества связей.

7. Формирование визуального представления системы путем заполнения платформо-независимых хш1-ориентированных шаблонов для последующего формирования конечного информационного ресурса.

Для функционирования поисковых возможностей также формируется индексный файл.

Экспериментальная версия системы подготовки данных представляет собой интегрированный программный комплекс (УЗйу/агРагеег), обеспечивающий выполнение всех этапов алгоритма.

В результате работы система формирует следующие объекты:

■ множество всех терминов, используемых в данной предметной области, ранжированных по степени информативности с толкованием их значения (в множестве исключается наличие стоп-слов и служебных слов языка),

■ семантическую модель предметной области, описывающую отношения между понятиями,

■ список терминов, которые не удалось включить в семантическую модель, т.е. связать с другими из-за недостаточности соответствующей информации в тексте.

Визуальное представление (рис. 1), формируемое системой, является аналогом иероглифической записи, которая позволяет воспринимать содержимое текста не последовательно, а одномоментно. Это позволяет воспринимать структуру связей предметной области в комплексе, притом

именно в том, который соответствует связям, сформированным специалистом или разработчиком системы, а не формировать его самостоятельно при прочтении груды технической документации.

Рис.1. Контекстное окружение на примере предметной области «информационные технологии».

Кроме наглядного представления связей предложенный подход позволяет предложить критерий семантической связности текстов антологии.

Таким критерием является «разваливание» семантического окружения на большое количество независимых областей. Это означает слабую связность внутри текста, «перескакивание» с одних терминов на другие, отсутствие общей темы, зашумленность терминологического базиса. Другими показателями качества являются скорость развития - величина, показывающая скорость введения новых терминов и понятий в тексте. При слишком малой скорости развития текст кажется скучным, при слишком высокой -непонятным. Эмпирически установлено, что оптимальные значения лежат вблизи скорости роста, равной 1,618.

Конечно, автоматическая оценка качества текстов, основанная на их семантической связности, не является строгой и может давать ошибки, но ее использование статистически оправдано, например, при упорядочивании результатов в поиске при равной релевантности нескольких документов. В этом случае раньше в списке найденного встретятся те документы, показатель качества которых выше.

В третьей главе «Разработка семиологического подхода семантической обработки русскоязычных текстов» даются основные понятия семиологического подхода.

Компьютерно-ориентированный процесс идентификации связан с процессами классификации, ассоциации, анализа и синтеза текстуального

описания и базируется на принципе идентификации неразличимости, который был сформулирован Г. Лейбницем следующим образом: «Два объекта считаются неразличимыми, если все их свойства общие». Этот принцип наиболее активно используется при индексном ключевом поиске в компьютерных системах (поиск по однозначному совпадению), в котором в качестве ключа выступают буквы, слова, символы и т.д.

Для этой цели он и предложил «универсальную характеристику» -конгруэнтность АВС <л АХС - способ переопределения понятий и их идентификаций - основу функционирования современных компьютерных технологий (рис. 2).

Рис. 2. Принцип идентификации неразличимости Лейбница.

Для компьютерных информационных систем можно дать следующую интерпретацию. А - исходная посылка, множество известных манифестанту-пользователю знаний, упакованных и упорядоченных в его компьютерном представлении, из которого он и актуализирует конкретный объект - денотат В и получает X как список из множества эквивалентных объектов из иных информационных источников С, значения которых и сигнифицирует -раскрывает информационное содержание денотата В. В раскрывается через X в том и только в том случае, если информационные источники В текстуально идентифицируемы, полны, достоверны и внутренне непротиворечивы. Проблема С - это проблема адекватности энциклопедических знаний.

Интересна и следующая, обратная, задача. Если В не раскрывается через X, то не найдено и/или не существуют дополнительные знания о В. В этом случае С - это специально организованный информационный мусор. Такие «качели» между произвольным выбором между В и С порождают процесс авто(само)реферирования (self reference).

Под текстуальной идентифицируемостью понимается соответствие нормативным актам, устанавливающим нормы электронного документа.

В рамках информационных систем можно привести следующее утверждение, согласно терминологии, предложенной У. Эко. Пользователь -это манифестация семантической интерпретации предложения, предметная область - это принцип денотации, а информационная база знаний - принцип сигнификации.

Система поддерживается в актуальном состоянии с помощью интерактивного сопровождения пользователем.

Создание информационных систем прошло этап представления данных с помощью табличных представлений, универсальность которых обеспечивалась реляционной алгеброй и соглашениями, принятыми стандартом СООАБУЬ.

Особенностью представления данных в формализме базы данных является то, что при сохранении фактов в заданной структуре, определяемой постановкой задачи, теряются ассоциативные связи, имеющиеся в естественноязыковом описании фактов. При этом при уточнении задачи или переходе к другой задаче накопленные данные становятся практически бесполезными. Семиологический подход позволяет сохранять ассоциативные элементы естественно-языкового описания фактов.

Реляционная алгебра, которая обеспечивала достаточность функционирования произвольной системы, будучи при этом замкнутой и непротиворечивой, была достаточна для построения СУБД.

В диссертационной работе, в отличие от индексной идентификации, используется теория ассоциативно-понятийной идентификации.

Четвертая глава «Реализация системы построения динамических тезаурусов и самореферирования и экспериментальная оценка ее эффективности» посвящена анализу прикладных возможностей данного метода. Приводится описание разработай программной системы, реализующей некоторые применения семиологического подхода.

Теоретические основы динамической визуальной понятийно-терминологической информационной системы:

Назовем буквой идентификатор Ь, являющийся фрагментом потока данных определенного размера, однозначно определяющий знак в естественном языке.

Назовем словом идентификатор лу, состоящий из последовательности знаков, являющихся буквами.

Назовем символом конца предложения элементы множества {".", Т,

Назовем (синтаксическим) предложением в множество слов {'И'ьШг,... синтаксически связанных друг с другом (находящимся в одном естественно-языковом предложении, заканчивающимся символом конца предложения).

Пусть имеется текст - множество синтаксически связанных упорядоченных идентификаторов, являющихся словами.

где w-cлoвo, W - множество слов в тексте, со - множество допустимых слов в языке. Допустимое множество слов в языке определяется словарями и является каркасом онтологии.

Для текста производится сегментация на семантически близкие компоненты.

Для каждого слова производится нормализация морфологической формы с использованием функции т морфологического анализа.

т(\у) = Ь, w е^}, где - множество словоформ одного слова, Ь -нормальная форма слова (им. падеж, ед.ч. для имен существительных, 1 л., ед.ч., наст, время для глаголов и т.д.)

Свойства функции морфологического разбора

ш(Ь)=Ь Vw (\уй => т(ду)=Ь, Для каждого слова в нормальной форме строится рейтинговое распределение которое используется в последующих процедурах фильтрации при подготовке к визуализации.

Для слов строятся отношения Я! и Л2 по следующему правилу

(\у,, W2) е если \Уь \у2- последовательные слова в предложении.

V е8 & \Av2eS => (\У1, w2) е Для отношений строятся рейтинговые распределения 4я1 и связей элементов.

Отношение Я, используется для определения сложных терминов, состоящих из нескольких последовательных слов.

Если > е, , то слова V] считаются единым термином и для

него повторяется вся обработка, при которой слова уу2 , расположенные последовательно, рассматриваются как одно слово \у1+2.

Если у^) > е2 , то слова и W2 считаются семантически

связанными.

Е] и е2- значения порогов визуализации Для визуализации строится множество У2

£,1а(Уи W2) >е2=> ч/2) еУ2 Множество У2 визуализируется в виде графа, ребрами которого являются элементы (\уь W2) еУ2.

Параметр е2 может динамически изменяться пользователем для интерактивного изучения семантического окружения требуемого термина.

Экспериментально показано, что наиболее эффективное восприятие человеком информации происходит при одновременной визуализации не более 20 объектов. Для достижения этого визуализируются первые 20 элементов множества V), упорядоченных по убыванию частоты ^ их использования Аналитическое самореферирование текстов.

Задача реферирования текста стоит очень остро в любом большом хранилище документов, в том числе в локальных и глобальных сетях. Наличие реферата - аннотации к документу, составленной из элементов текста, значительно упрощает задачу поиска документов.

Описанный метод позволяет выбрать из текста предложение (или набор предложений), наиболее полно отражающее содержимое текста, т.е. предложение (предложения), содержащее максимальное количество словесных пар (связей), имевших наибольший статистический вес при разборе. При этом значение веса является параметром компрессии получаемого реферата.

Эксперименты показали высокую эффективность такого метода для технических текстов (полученный реферат является аннотацией) и для

' информационных текстов типа новостей (полученный реферат содержит

главное событие без комментариев и описаний). Для художественных текстов метод, как правило, не дает приемлемого решения.

Низкая эффективность автоматизированного реферирования ' художественных текстов подтверждает предположение об отсутствии в

художественных текстах обобщающих предложений, некоторого набора которых было бы достаточно для формирования реферата текста. Обобщенную картину для текстов такого вида человек создает для себя сам под влиянием прочитанного.

Использование синтаксических конструкций текста для структурированного текста выявляет особенность естественно-языковых ' текстов, влияющих на работу анализатора.

Так как синтаксической конструкцией считается последовательность слов, заканчивающихся точкой (восклицательным знаком, вопросительным Ч знаком), то применение точек в составе предложения для обозначения

сокращений, инициалов и др., введенных в результате эволюции языка как экономия бумаги и «экономии внимания» приводит к ложным решениям анализатора о границах предложения. Применение эвристических методов для определения истинных границ предложения не дают удовлетворительных результатов. Возможным решением может быть введение специального символа «точка для использования внутри предложения», как в свое время были введены несколько видов тире, используемых в тексте.

Поиск в коллекции документов документа наиболее адекватно отвечающего запросу.

Описываемый механизм служит для поиска документа по поисковой фразе. Формально этот процесс можно определить как выборку множества документов, удовлетворяющих условию наличия семантических связей в документе между всеми словами поисковой фразы.

Назовем поисковой фразой множество слов, полученных из естественноязыкового запроса, путем приведения всех слов в нормальную форму и удаления слов, являющихся стоп-словами.

Общий вид SQL запроса для поисковой фразы из п слов имеет вид:

select id_doc from (

select id_doc, count(*) as cnt from test where W CONDITION group by 1 id_doc

) where cnt>N;

гдеЫ=(п-1)!,

W_COM3ITION="(((id_wl=id_cjiOBol)and(id_w2=id_cnoBo2))or((id_wl=id _cnoBo2)and(id_w2=id_crcoBO 1 )))or(((id_w 1 =id_an0B01 )and(id_w2=id_aioBo3))or(( id_wl=id_cnoB03)and(id_w2=id_cyioBOl)))or..."

При этом для n слов в поисковой фразе требуется 4(п-1)! сравнений в условии W_CONDITION.

Достоинством метода является отсутствие необходимости хранения текстовых копий документов, для хранения которых требуются значительный расход дисковой памяти.

Возможность сравнения схожести текстов (путем сравнения множеств связей внутри документов) позволяет избегать дублирования документов, что дает как экономию дисковой памяти для базы и сокращение времени запроса, так и дает возможность отслеживать цитируемость как фрагментов документов так и дублирование документов в целом.

Дополнительной особенностью предложенного метода поиска, которая проявляется при большом объеме имеющихся в базе текстов, является фильтрация в результатах поиска документов, в которых поисковая фраза имеет низкое значение частоты использования.

В главе рассмотрены этапы предварительной обработки текста, которая включает в себя.

1) Лексический анализ. На этом этапе выделяются отдельные слова из текста, а также обозначаются синтаксические конструкции.

2) Исключение часто используемых слов. В любом тексте существует большое количество слов, используемых в качестве союзов, предлогов, местоимений и т.д., так называемые "стоп-слова", ("stop-words"). Такие слова традиционно исключаются информационными системами при анализе документов.

3) Морфологический анализ. На этом этапе слова приводятся к базовой форме. Например, слова: «компьютеры», «компьютером», «компьютера», «компьютеру» и т.д., заменяются на слово «компьютер».

После предварительной подготовки текста выполняется его обработка по приведенным ранее алгоритмам.

Приведены фрагменты программного кода, демонстрирующие конкретные аспекты практической реализации представленных в работе результатов.

Также в данной главе представлены результаты экспериментальных исследований разработанных в диссертационной работе метода и алгоритмов на заданной антологии тестовых документов.

Проведенные эксперименты показывают применимость описанного подхода для английского языка. Метод не учитывает национальные особенности языков, а использует структуру текста, которая присуща очень многим языкам.

В приложении приведены иллюстративные примеры представления тезаурусов и работы системы аналитического реферирования текстов.

В заключении содержится перечень задач, которые были решены в результате диссертационного исследования, а также сведения об апробации и внедрении результатов работы.

ЗАКЛЮЧЕНИЕ

В представленной работе для достижения поставленных задач решены следующие вопросы.

1. Предложена модель ассоциативных понятийных связей для представления русскоязычных текстов типа словарей.

2. Разработан метод представления русскоязычных текстов в форме визуальных тезаурусов и глоссариев.

3. Разработан интерфейс визуального представления тезаурусов. Интерфейс представляет сформированные тезаурусы предметных областей в виде визуальной интерактивной среды.

4. Предложен семиологический подход для аналитического самореферирования русскоязычных текстов. Алгоритм самореферирования позволяет выделять из текста наиболее значимые предложения, образующие краткую аннотацию текста.

5. Предложен критерий семантической связности текстов.

6. Предложен метод ассоциативного поиска документов как выборка множества документов по поисковой фразе, удовлетворяющих условию наличия семантических связей в документе между всеми словами поисковой фразы.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ:

Основные результаты диссертации опубликованы в следующих работах:

1.Александров В. В., Кулешов С. В. Метаглоссарии - основа аналитических информационных систем. — Проблемы транспорта № 10 -СПб., 2004, с. 248-259. (1 / 0.5 п.л.)

2.Александров В. В., Андреева Н. А., Кулешов С. В. Тенденции развития информационных систем: базы данных, базы знаний, онтологические, логистические, семиологические. — Современные проблемы социально-экономического развития и информационных технологий. Сборник трудов научно-технической конференции — Баку, 2004, с. 40-51. (0.7 / 0.22 п.л.)

3.Кулешов С. В. Визуализационное моделирование динамических сетевых структур. — Математическое моделирование: естественно-научные, технические и гуманитарные приложения. — СПб, 2004, с. 167-169. (0.125 пл.)

Д.Александров В. В., Кулешов С. В. Нарротивные представления информационных процессов. — Информационные процессы, Том 4, № 2, 2004, стр. 160-169. (0.75 / 0.37 пл.)

5.Александров В. В., Андреева Н. А., Кулешов С. В. Тенденции развития информационных систем. — IX Санкт-Петербургская международная конференция «Региональная информатика-2004». Материалы конференции., СПб, 2004, с. 27. (0.1 / 0.03 п.л.)

6.Александров В. В., Андреева Н. А., Кулешов С. В. Семиологический подход построения информационно-аналитических систем — Системные проблемы надежности, качества, информационных и электронных технологий. — Часть 7. Том 1. М.: Радио и связь, 2004, с. 3-16. (1 / 0.3 п.л.)

ACQ&L

-6113

7.Александров В. В., Кулешов С. В., Юсупов P. M. Се миологический подход и информационно аналитические системы. — Инфокоммуникационные и вычислительные технологии в науке, технике, образовании. — Ташкент, 2004, с. 13-23. (0.75/0.25 пл.)

8.Александров В.В., Кулешов C.B. Семиологический подход и информационная безопасность. — Информационная безопасность регионов России (ИРБР-2003). Труды конференции. — СПб., 2004, с. 39-46. (0.75 / 0.37 п.л.)

9.Александров В. В., Андреева А. Н., Кулешов С. В. Визуальный динамический глоссарий - VISGLOSS. — Системные проблемы надежности, качества, информационных и электронных технологий. Часть 6. — М.: Радио и связь, 2005, с. 4-9. (0.3 / 0.1 п.л.)

Ю.Александров В. В., Кулешов С. В. Семиологические информационные системы - аналитическое самореферирование. — Системные проблемы надежности, качества, информационных и электронных технологий. — Часть 6. М.: Радио и связь, 2005, с. 9-14. (0.3 / 0.15 пл.)

Подписано в печать 10.02.2006 Формат бумаги 60x90 х1ц. Печл.1. Печать офсетная. Тираж 100 экз. Заказ № 017. Типография ООО «Анатолия» 199187, Санкт-Петербург, В.О., 14 линия 39

Оглавление автор диссертации — кандидата технических наук Кулешов, Сергей Викторович

Введение.

1. Анализ предметной области и постановка задач исследования.

1.1. Тезаурусы и глоссарии.

1.2. Электронные словари.

1.3. Системы синтаксического анализа.

1.4. Онтологическая информационная система.

• 1.5. Система WordNet.

1.6. Система Visual Thesaurus.

1.7. Выводы по первой главе.

2. Визуально-динамический интерфейс понятийно-терминологической информационной системы.

2.1. Подсистема синтаксического разбора.

2.2. Морфологический анализ.

2.3. Система построения визуальных глоссариев.

2.4. Реализация системы построения визуальных глоссариев.

2.5. Выводы по второй главе.

3. Разработка семиологического подхода семантической обработки русскоязычных текстов.

3.1. Основы семиологического подхода.

3.2. Модель семиологической системы.

3.3. Семиология и лингвистика.

3.4. Выводы по третьей главе.

• 4. Реализация системы построения динамических тезаурусов и самореферирования и экспериментальная оценка ее эффективности.

4.1. Модель динамической визуальной понятийно-терминологической информационной системы.

4.2. Аналитическое самореферирование текстов.

4.3. Поиск в коллекции документов по запросу.

4.4. Визуализационное моделирование динамических сетевых структур.

4.5. Описание программной реализации системы.

4.6. Прикладные возможности системы и экспериментальная проверка разработанных методов.

4.7. Выводы по четвертой главе.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Кулешов, Сергей Викторович

Наиболее естественным для человека способом общения является естественный язык (ЕЯ). Предлагаемые методы ориентированы на решение поставленной проблемы путем создания русскоязычных онтологических информационных систем.

Проблема создания тезаурусов и глоссариев как информационной базы является ключевым моментом в любой предметной области на определенном этапе ее развития. При этом в настоящий момент нет русскоязычной ментальной модели лексикона человека, дающей возможность динамического развития семантических понятий предметной области, связанной с информационными технологиями.

Анализ существующих исследований, посвященных решению задачи автоматизированного построения тезаурусов, выявил крайне незначительное число готовых и апробированных решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач анализа неструктурированной, естественно-языковой текстовой информации. Эффективное решение задачи разработки программы, реализующей динамическую визуализацию понятийных окружений, и составляет суть диссертационной работы.

Целью работы является разработка и исследование семиологического подхода, обеспечивающего анализ и обработку текстовой информации.с целью получения структурированных словарей, глоссариев и тезаурусов для выбранного антологического материала. Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:

Анализ основных подходов к выбору, представлению и обработке русскоязычной совокупности текстов - антологии;

Построение модели семантического представления текстов и компьютерного формирования тезаурусов;

Разработка методов аналитического самореферирования русскоязычных текстов;

Разработка методов поиска документов в рамках предложенного семиологического подхода.

Научная новизна. В предлагаемой диссертации разработаны новые подходы к решению следующих задач:

Формирование семантических полей заданной предметной области, представленной выбранной совокупностью текстов.

Представление тезаурусов предметных областей в виде визуальной интерактивной среды.

Использование данных, сформированных на основе терминологических семантических полей для ассоциативного поиска текстовых документов.

Использование результатов формирования семантических полей для оценки семантической связности текстов.

Положения, выносимые на защиту.

Алгоритм формирования семантических полей заданной предметной области, представленной набором текстов.

Метод формирования структуры графа по текстовой информации.

Разработка основных теоретических положений семиологического подхода.

Реализация и внедрение. Полученные результаты реализованы в виде ряда программных систем на различных языках программирования (Java, Delphi). Данные программные системы используются в качестве он-лайн справочных систем в Internet, модулей автоматического реферирования и поисковых подсистем в системах корпоративного документооборота.

Публикации. Автором опубликовано по теме диссертации 10 печатных работ.

Структура и объем диссертационной работы. Диссертация состоит из введения, 4 глав, заключения, излагается на 100 страницах, включая перечень используемой литературы из 90 наименований, 27 рисунков и 1 таблицу. Кроме того, в диссертации имеется приложение на 10 листах, содержащее в себе примеры работы разработанных программ, реализующих алгоритмы, описанные в диссертации.

Заключение диссертация на тему "Разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев"

4.7. Выводы по четвертой главе

Результаты экспериментальных исследований успешно подтвердили выдвинутые ранее теоретические положения. Тестирование программной реализации разработанного метода и алгоритмов показало высокую точность и корректность полученных значений.

В отличие от системы Visual Thesaurus, рассмотренной в первой главе, где визуальная панель представляет заранее сформированные языковые отношения, постулируется достаточность (через антологию предметной области) составления глоссария адекватных (относительно полноты сведений выбранной темы) энциклопедических знаний по требуемой теме.

Следует также отметить следующие результаты:

Правильно выбранная антология заданной предметной области строит понятийное дерево - онтологические сущности.

На основе использования онтологических сущностей удается реализовать семантико-смысловую ассоциативную навигацию и аналитическое самореферирование русскоязычных текстов.

Вместе с тем стоит отметить сложность оценки полученных результатов, и значительное влияние субъективной составляющей, присутствующей при оценке.

ЗАКЛЮЧЕНИЕ

В представленной работе для достижения поставленных задач решены следующие вопросы.

2. Разработан метод представления русскоязычных текстов в форме визуальных тезаурусов и глоссариев.

5. Предложен критерий семантической связности текстов.

Программное обеспечение, разработанное в рамках диссертационной работы, нашло свое применение в качестве он-лайн справочных систем в Internet, модулей автоматического реферирования и поисковых подсистем в системах корпоративного документооборота.

Основные положения и отдельные результаты работы докладывались и обсуждались на следующих конференциях и семинарах:

• Современные проблемы социально-экономического развития и информационных технологий (Баку, 2004);

• IX Санкт-Петербургская международная конференция «Региональная информатика-2004» (Санкт-Петербург, 2004);

• Международная конференция по проблемам надежности, качества, информационных и электронных технологий (Сочи, 2004).

В качестве направлений дальнейших исследований можно выделить:

• разработка и реализация интегрированного Internet-сервиса для индексации, обработки и поиска документов произвольного содержания, размещенных в Internet;

• разработка алгоритма проверки тематической близости заданной совокупности документов, а также тематического и терминологического соответствия документа заданной предметной области.

Библиография Кулешов, Сергей Викторович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Александров В.В., Кулешов С.В. Семиологический подход и информационная безопасность. — Информационная безопасность регионов России (ИРБР-2003). Труды конференции. — СПб., 2004, с. 3946

2. Александров В. В. Интеллект и компьютер. — СПб.: Издательство «Анатолия», 2004. — 285 с.

3. Александров В. В. Развивающиеся системы. В науке, технике, обществе и культуре: СПб. ч. 1. Теория систем и системное моделирование: Изд-во СПбГТУ, 2000, 243 с.

4. Александров В. В., Андреева А. Н., Кулешов С. В. Визуальный динамический глоссарий VISGLOSS. — Системные проблемы надежности, качества, информационных и электронных технологий. Часть 6. — М.: Радио и связь, 2005, с. 4-9

5. Александров В. В., Андреева Н. А., Кулешов С. В. Тенденции развития информационных систем. — IX Санкт-Петербургская международная конференция «Региональная информатика-2004». Материалы конференции., СПб, 2004, с. 27

6. Александров В. В., Арсентьева А. В. Структурный анализ диалога. — Л.: ЛНИВЦ АН СССР, 1983.

7. Александров В. В., Кулешов С. В. Метаглоссарии основа аналитических информационных систем. — Проблемы транспорта № 10 — СПб., 2004, с. 248-259

8. Ю.Александров В. В., Кулешов С. В. Нарротивные представления информационных процессов. — Информационные процессы, Том 4, № 2, 2004, стр. 160-169

9. П.Александров В. В., Кулешов С. В. Семиологические информационные системы аналитическое самореферирование. — Системные проблемы надежности, качества, информационных и электронных технологий. — Часть 6. М.: Радио и связь, 2005, с. 9-14

10. Александров В. В., Кулешов С. В., Юсупов Р. М. Семиологический подход и информационно аналитические системы. — Инфокоммуникационные и вычислительные технологии в науке, технике, образовании. — Ташкент, 2004, с. 13-23

11. З.Анненков А. Портрет слова — izvestia.ru

12. Античные теории языка и стиля. Под общей редакцией О. М. Фрейденберг. ОГИЗ, Государственное социально-экономическое издательство. Москва-Ленинград, 1936 -343 с.

13. Боровиков А. А. Теория вероятностей. М.: Наука, 1986.

14. Бурлак С. А., Старостин С. А. Введение в лингвистическую компаративистику. — Эдиториал УРСС, М., 2001.

15. БучГ. Объектно-ориентированный анализ и проектирование. — М.:Издательство Бином, 2000.

16. Визуальный словарь. On-line версия. — http://www.vslovar.org.ru

17. Володин В. CALS: технология или система. — Вестник воздушного флота. № 03-04, 2003 г., с. 52-55.

18. Гайдышев И. Анализ и обработка данных: специальный справочник. СПб.: Питер, 2001. 752 с.

19. Головин Б. Н. Язык и статистика. М., 1971. 192 с.

20. Делез Ж. Логика смысла. — М., Издательский Центр «Академия», 1995.

21. Диконов В.Г., Коваленко А., Дьяченко А. Обзор существующих электронных словарей — http://slovnik.lrn.ru/world/dicts.html

22. Добрынин В. Ю., Некрестьянов И. С. Задача выбора тематических коллекций, релевантных запросу. // Труды Всероссийской научно-методической конференции "Internet и современное сообщество", Санкт-Петербург, декабрь 1998.

23. Дрот В. Л., Новиков Ф. А. Толковый словарь современной компьютерной лексики.

24. Ермаков А. Е., Плешко В. В. Синтаксический разбор в системах статистического анализа текста. — Информационные технологии. — № 7, 2002.

25. Информационный портал RPM-технологий — http://www.rpm-novation.com/

26. Кирсанов Д. Веб-дизайн. — Символ-Плюс, 2001, 368с

27. Когаловский М. Р. Перспективные технологии информационных систем. М.: ДМК Пресс; М.: Компания АйТи, 2003. - 288 с.31 .Когаловский М. Р. Энциклопедия технологий баз данных. — М.: Финансы и статистика, 2002. 800 с.

28. Колчин А. Ф., Овсянников М. В., Стрекалов А. Ф., Сумароков С. В. Управление жизненным циклом продукции. — М.:Анахарсис, 2002. 304 с.

29. Кондаков Н. И. Логический словарь-справочник. — Москва, Наука, 1975.

30. Кулешов С. В. Визуализационное моделирование динамических сетевых структур. — Математическое моделирование: естественно-научные, технические и гуманитарные приложения. — СПб, 2004, с. 167-169

31. Кулешов С. В. Технология подготовки информационных ресурсов для Internet. — Сборник научных трудов студентов Курганского государственного университета. — Курган, изд-во Курганского гос. университета, 2003 г, с. 86.

32. Лейбниц Г. Новые опыты о человеческом разумении автора системы предустановленной гармонии. — Сочинения в 4-х томах, т.2, М.: Мысль, 1983,686 с.

33. Лексическая база знаний английского языка WordNet — http://www.cogsci.princeton.edu/~wn

34. Мейер Д. Теория реляционных баз данных. — М.:Мир, 1987. с. 608с.

35. Мельчук А. Опыт теории лингвистических моделей «Смысл <-> Текст». — М., 1999.о

36. Мистрик И. Математико-стилистические методы в стилистике. // Вопросы языкознания. 1967, № 3.

37. Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. 2002. - N4.

38. Некрестьянов И.С., Добрынин В.Ю., Клюев В.В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции «Электронные библиотеки». Протвино, 2000. - С. 204-210.

39. Ножов И. М. Прикладной морфологический анализ без словаря. // КИИ-2000. Труды конференции — М.: Физматлит, 2000. Т.1. С. 424-429

40. Ножов И. М. Проектирование сегментационного анализатора русского предложения. // КИИ-2002. Труды конференции — М.: Физматлит, 2002. Т.1. С. 212-222.

41. Ножов И. М. Процессор автоматизированного морфологического анализа без словаря. Деревья и корреляция. // Диалог'2000. Труды конференции — Протвино, 2000. Т.2. С. 284-290.

42. Пиотровский Р. Г. Лингвистический автомат (в исследовании и непрерывном обучении). — СПб,: Изд-во РГПУ, 1999, — 256 с.

43. Севбо И. П. Графические представления синтаксических структур и стилистическая диагностика. — Киев: Наук. Думка, 1981. 192 с.

44. Севбо И. П., Алешкина С. М. Исследование зависимости между длиной фразы и количеством уровней в графе. // Структурная и математическая лингвистика. Вып. 2. Киев, 1974.

45. Сидоров Ю. В., Леонтьев А. А., Рогов А. А., Захаров В. Н. Компьютерная автоматизированная система для лингвистического разбора литературных текстов. Четвертая Санкт-Петербургская Ассамблея молодых ученых и специалистов: Тез. Докл. СПб:, 1999, с. 66.

46. Советский энциклопедический словарь / Научно-редакционный совет: A.M. Прохоров (пред.). — М.: «Советская энциклопедия», 1981. — 1600 с.

47. Справочник по прикладной статистике. В 2 т. Под ред. Э. Ллойда, У. Ледермана. — М.: Финансы и статистика, 1989, 1990.

48. Сухотин Б. В. Исследование грамматики числовыми методами. — М.: 1990.

49. Тезаурус русского языка RussNet. — http://www.phil.pu.ru/depts/12/RN/indexru.shtml

50. Тестелец Я. Г. Введение в общий синтаксис. — М., РГГУ, 2001.

51. Технология ThinkMap — http://www.thinkmap.com

52. Тойнби А. Дж. Постижение истории: Пер. с англ./Сост. Огурцов А.П.; Вступ. ст. Уколовой В.И.; Закл. ст. Рашковского Е.Б. — М.: Прогресс. 1996-608 с.

53. ТузовВ. А. Математическая модель языка. — Д.: ЛНИВЦ АН СССР, 1980.

54. Тулдава Ю. А. Опыт классификации текстов с помощью кластер-анализа. // Актуальные проблемы квантитативной лингвистики и автоматического анализа текстов. Учен. Зап. Тартуского гос. ун-та. Вып. 591, Тарту, 1981.

55. Шереметьева С.О., Ниренбург С. Эмпирическое моделирование в вычислительной морфологии. // НТИ, №7, 1996.

56. Эко У. Отсутствующая структура. Введение в семиологию. — СПб.: «Симпозиум», 2004.

57. Электронное правительство: рекомендации по внедрению в Российской Федерации. Под ред. В. И. Дрожжинова, Е. 3. Зиндера. — М.: Эко-Трендз, 2004.-352 с.

58. Яблонский С., Сухоногое А. Проект русской версии WordNet. — Петербургский университет путей сообщения. — http://www.pgups.ru/W ebWN/wordnet.uix

59. Alexandrov V. V., Arsentyeva A. V. Dialogue Structure. — Leningrad, LRCC, 1984.

60. Arasu A., Cho J., Garcia-Molina H., Paepcke A., Raghavan S. Searching the web. ACM Transactions on Internet Technology, l(l):2-43, Aug. 2001.

61. Davison B. D. Topical locality in the Web. In Proc. of the SIGIR'00, pp. 272279, 2000.

62. Goldsmith J. Unsupervised Learning of the Morphology of a Natural Language. //University of Chicago, 1998.

63. Hatano K., Sano R., Duan Y., Tanaka K. An Interactive Classification of Web Documents by Self-Organizing Maps and Search Engines. In Proc. of the DASFAA'99, pp. 35-42, 1999.

64. Haveliwala T. Efficient computation of PageRank. Technical report, Stanford Database Group, Oct. 1999.

65. Henzinger M., Heydon A., Mitzenmacher M., Najork M. Measuring Index Quality Using Random Walks on the Web. In Proc. of the WWW 8, 1999.72.1van A. Sag, Thomas Wasow. Syntactic Theory: A Formal Introduction. — Stanford University, 1999

66. Jing Y., Croft W.B. An Association Thesaurus for Information Retrieval. Department of Computer Science, University of Massachusetts at Amherst, 1994.

67. Landauer Т., Foltz P., and Laham D. An introduction to latent semantic analysis. Discourse Processes, 25:259-284.

68. Lifantsev M. Voting Model for Ranking Web Pages. In Proc. of the IC'OO, pp. 143-148, 2000.

69. Merkl D. A Handbook of Natural Language Processing: Techniques and Applications for the Processing of Language as Text, chapter Text data mining. Marcel Dekker, New York, 1998.

70. Moby lexicon project. Moby Thesaurus. — http://www.dcs.shef.ac.uk/research/ilash/Moby/

71. Model Integrated Computing and Autonomous Negotiating Teams for Autonomic Logistics — http://www.isis.vanderbilt.edu/Projects/micants/Tech/Briefings/pi/9911/

72. RFC2229 A Dictionary Server Protocol — http://rfc.net/rfc2229.html

73. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513-523, 1988.

74. Salton G., Singhal A., Mitra M., and Buckley C. Automatic text decomposition and summarization. Information Processing & Management, 33(2): 193-208, 1997.

75. Stephen D., Ravi K., Kevin M., Sridhar R., Sivakumar D., Andrew T. Self-similarity in the Web. In Proc. of the VLDB'01, Sept. 2001.

76. The DICT Development Group. — http://dict.org

77. Visual Thesaurus. On-line версия. — http://www.visualthesaurus.com

78. World Wide Web Consortium — http://www.w3.org/

79. Zeinalipour-Yazti D., Dikaiakos M. High-Performance Crawling and Filtering in Java. In Proc. of the 8th Panhellenic Conference on Informatics, volume 2, pp. 377-386, Nov. 2001.101

Похожие работы

Информатика, вычислительная техника и управление
05.13.00