автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Ассоциативная модель реального текста и ее применение для автогенерации баз знаний о связях

кандидата технических наук
Чанышев, Олег Георгиевич
город
Омск
год
1998
специальность ВАК РФ
05.13.16
Диссертация по информатике, вычислительной технике и управлению на тему «Ассоциативная модель реального текста и ее применение для автогенерации баз знаний о связях»

Текст работы Чанышев, Олег Георгиевич, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)



*

российская академия наук

СИБИРСКОЕ ОТДЕЛЕНИЕ

ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И ПРИКЛАДНОЙ МАТЕМАТИКИ ИИТПМ

На правах рукописи

Чанышев Олег Георгиевич

Ассоциативная модель реального текста и ее применение для автогенерации баз знаний о связях

05 Л3.16 - применение вычислительной техники, математического моделирования и математических методов в

научных исследованиях

Диссертация на соискание ученой степени кандидата

технических наук

Научный руководитель зав.лаб., кандидат ф.-м.н. доцент С.В. Зыкин

**

Омск-98

Перечень используемых сокращений и обозначений.

Обозначение Наименование

Формула

БД

БДО

ГПБД

БЗС

ПО

ПОД

ПТ

ПП

млс

ЛМС,Мс

ТБД *,■

я

Ыа

К

п

кя

пог

К

ка

Кг

кн

Кг

База данных

База данных оболочки

Гипертекстовая полнотекстовая

база данных

База знаний о связях

Предметная или проблемная область

Поисковый образ документа

Прототип текста

Прототип предложения

Матрица лексических связей

Лексическое множество связи

Текстовая база данных

Ассоциативная мощность

лексемы

Частота лексемы Ранг Мс

Число предложений текста Число предложений реферата Число лексем связи Число всех лексем (без служебных) Число лексем "не реферата" Сумма частот Средняя частота лексем из Мс

Коэффициент лексической экстракции

Коэффициент связности предложений

Коэффициент атрибутивности Коэффициент реферирования Обратная средняя частота Коэффициент полноты

№г + N^/N1,

1/П

1 Мпог/ 7У)С

Содержание

ВВЕДЕНИЕ 6

0.1 Актуальность темы.........................6

^ 0.2 Цель работы..................................................6

г 0.3 Метод исследования..........................................7

0.4 Научная новизна..............................................7

0.5 Практическая ценность работы............................8

0.6 Апробация работы и публикации..........................9

0.7 Основные положения, выносимые на защиту..............9

^ 1 АНАЛИТИЧЕСКИЙ ОБЗОР И ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЙ 11

1.1 Проблема ключевых слов и квазиреферирование..........11

1.2 Концепция гипертекста и основная проблема ГТ-систем 12

1.2.1 Гипертекст как способ реализации многоаспект-ности данных..........................................13

1.2.2 Интеллектуальность гипертекстовой системы . . 14

1.3 Психофизиологические и психолингвистические предпосылки ассоциативной модели................................15

ф 1.3.1 Мозг и память........................................15

1.3.2 Искусственные нейронные сети....................16

1.3.3 Мир, слово и вербальная сеть......................17

1.3.4 Ситуационная обстановка и понимание............19

1.4 Граф текста ..................................................20

1.5 Выводы........................................................21

2 ФОРМАЛИЗАЦИЯ МОДЕЛИ 24

2.1 Автомат-"писатель" и прототип текста....................24

2.1.1 Обозначения и определения..........................25

2.1.2 Конструкция автомата Ат..........................25

2.1.3 Алгоритм работы автомата А™....................27

2.1.4 Свойства прототипа..................................28

2.1.5 Критическая частота................................32

2.2 Ассоциативная модель реального текста . . .............36

2.2.1 Матрица лексических связей ...................36

2.2.2 Область существования и классификация лексем 37

2.2.3 Текст как ориентированный граф..................38

2.2.4 Ассоциативная мощность...................39

2.2.5 Автоматическое квазиреферирование..............40

2.2.6 Выводы................................................41

3 РЕАЛИЗАЦИЯ МОДЕЛИ 42

3.1 Основные алгоритмы........................................42

3.1.1 Списки и операции над списками..................42

3.1.2 Автогенерация БЗС..................................44

3.1.3 Лексико-синтаксический анализ....................45

3.1.4 Определение ассоциативных мощностей лексем . 47

3.1.5 Определение весов предложений....................50

3.1.6 Итеративное квазиреферирование..................50

3.1.7 Алгоритм распознавания строк оглавления ... 51

3.2 Система ГИОС................................................52

3.2.1 Гипертекстовые адреса в ГИОС....................53

3.2.2 Состав БД ГИОС....................................55

3.2.3 Система имен файлов гипертекстовой БД .... 56

3.2.4 Структура БДО......................................56

3.2.5 Служебные файлы....................................56

3.2.6 Программное обеспечение ..........................57

3.3 Выводы........................................................60

4 ЭКСПЕРИМЕНТ 62

4.1 Характеристика анализируемого материала и общие замечания ........................................................63

4.2 Результаты проверки постоянства коэффициентов ... 64

4.3 Ассоциативная мощность и частота........................69

4.4 Критические значения частоты и ассоциативной мощности 72

4.5 Локальные темы и кластеризация лексем..................72

4.6 Критерий полноты и оптимальность текста..............74

4.7 Автоматическое определение строк оглавлений..........74

4.8 Выводы........................................................75

5 ЗАКЛЮЧЕНИЕ 77

А ПРИЛОЖЕНИЯ 85

А.1 Формальное определение языка прототипа текста .... 85

А.2 Таблицы результатов анализа текстов....................86

А.З Ключевые предложения для группы текстов "ПУБЛИ-

ЦИСТИКА" .......................................93

А.4 Рефераты первой итерации, множества лексем связи,

графики........................................................96

А.4,1 А.П. Чехов. В почтовом отделении..................100

А.4,2 А.П. Чехов. Шуточка..................................100

А.4.3 М.Ю. Лермонтов. Бородино........................103

А.5 Графики "w — Я" и "Ф — i?" для текстов различных жанров 105

А.б Результаты анализа Раздела 1 настоящей диссертации . 111

А.7 Меню пользователя программ..............................116

А.8 Стоп-словарь..................................................119

ВВЕДЕНИЕ

0.1 Актуальность темы

Стремительный рост объемов и быстродействия устройств периферийной памяти стимулировали создание полноТекстовых (в дальнейшем - текстовых) Баз Данных (ТБД) [63]. Почти на каждый информаци-онньхй запрос поисковые системы выдают ссылки на сотни и тысячи источников. Возросла потребность в поиске информации самой по себе, а не источников или записей определенных фактов [64].

Возникло явное противоречие между технической возможностью практически мгновенного доступа к любому фрагменту любого электронного документа (реализуемого, в частности, в гипертекстовых системах) с одной стороны и трудоемкостью и неэффективностью поиска в больших текстах путем простого пролистывания. Автоматизация на уровне первичного составления " поисковой аннотации" на естественном языке, но с соблюдением формальных правил, "обеспечивающих и облегчающих ее автоматический перевод" на информационно-поисковый язык [13] сегодня неприемлема.

В классической монографии Солтона [12] изложен комплекс идей по автоматизации процессов поиска и предварительной обработке литературных источников (индексирования), развитию которых и сегодня посвящено множество публикаций [2, 5, 26, 13, 7]. Из проблем на этом пути наиболее принципиальной представляется проблема "ключевых слов", связанная с понятием "смысла текста", ассоциативной моделью семантических систем [12, с.437], системами представления знаний.

Существуют веские основания полагать, что для каждого конкретного текста "ключевые слова" отражают "природное явление" [27] и могут быть определены при помощи формальной процедуры.

0.2 Цель работы

Целью настоящей работы явилась создание прототипа интеллектуальной системы управления текстовыми базами данных для проведения комплексных исследований в области автоматического анализа текстов на естественных языках, форм и способов представления пользователю информации о содержании ТБД и отдельных текстов.

Для достижения поставленной цели необходимо решение следующих

основных задач.

1. Разработка математической модели реальных текстов, допускающая объективную проверку следствий.

2. Разработка метода автоматического определения наиболее важных слов и предложений естественноязыковых текстов.

3. Разработка алгоритмов и программ прототипа гипертекстовой интеллектуальной объектноориентированной системы (система ГИ-ОС). 4. Апробация ГИОС на реальных текстах и экспериментальная проверка следствий модели.

0,3,. ^ОД.етод исследования

В диссертации приведены результаты исследований и разработок,. полученные путем последовательного применения эволюционного (ила инкрементального) метода, доминирующего в разработке экспертных "сдастем [65, с.34]. . \ . . V. '•-•••• V--; . •

В ходе разработки ГИОС и модели использовались

- математические методы обработки информации и представления данных на ЭВМ,

- методы теории графов,

- методы теории грамматик и автоматов, - "многопроцессорная метафора" [30, с.41], заключающаяся в сопоставлении выделенных отделов мозга с процессорами вычислительных устройств,

- результаты исследований в области когнитивной психологии.

0.4 Научная новизна

Новыми являются следующие результаты диссертационной работы.

1. Прототип гипертекстовой интеллектуальной объектноориентированной системы (ГИОС).

2. Моделирование процесса генерации текста генерацией прототипа текста, представляющего из себя описание путей в графе автоматом-"писателем" по алгоритму, учитывающему ограниченность кратковременной памяти человека.

3. Представление реального текста в виде матрицы лексических связей (МЛС), формальное определение ключевых слов (лексем) и их классификация.

4. Введение информационной меры важности слова - ассоциативной

мощности.

5. Алгоритм автоматической генерации базы знаний о связях (БЗС), основанный на ассоциативной модели, с составляющими алгоритмами подпроцессов (лексико-синтаксического анализа входного текста, определение ассоциативных мощностей лексем, весов предложений и автоматического итеративного квазиреферирования).

6. Вывод о постоянстве коэффициентов реферирования и полноты описания, сделанный на основе анализа частотных характеристик прототипа текста и его экспериментальное подтверждение путем анализа реальных текстов различных жанров.

~ 7. Введение критической частоты лексемы в качестве критерия выделения наиболее значимых (доминантных) лексем из полного множества лексем связи.

0.5 Практическая ценность работы

1. Разработанный прототип гипертекстовой интеллектуальной системы, может эффективно использоваться в исследовательских целях, параллельно увеличивая собственные интеллектуальные возможности.

2. Использование алгоритма генерации БЗС полностью автоматизирует работу по определению ключевых слов и словосочетаний - лексем множества связи.

3. На основе автоматически сгенерированной БЗС можно системати-зированно и обоснованно варьировать объем представлемой пользователю информации от единиц доминантных лексем до квазирефератов различных итераций для ознакомления с текстом и гипертекстового доступа. ,

4. Автоматически составляемые квазирефераты могут использоваться в готовом виде или в качестве заготовок для библиографических аннотаций в традиционных библиотеках, при подготовке авторефератов.

5. Квазирефераты последних итераций (одно или два ключевых предложения) могут использоваться при составлении дайджестов прессы и подзаголовков статей.

6. Сокращение почти на порядок исходного словаря текста до лексического множества связи и установление формальной структуры текста в виде лексических связей между предложениями упрощает задачу

последующего семантического анализа.

7. Возможность итеративного метода подготовки текстов, основанного на:

- визуальной оценке структуры и однородности по графику весов предложений;

- увеличении коэффициента полноты описания путем варьирования лексического состава предложений;

^ использовании автоматически составляемых квазирёфератов различных итераций для оценки степени готовности отдельных фрагментов и текста в целом.

Усовершенствованная методика может быть использована в процедурах генерации ответов интеллектуальной поисковой системой на запросы об информации как таковой, не всегда имеющейся в текстах в эксплицитном виде.

0.6 Апробация работы и публикации

Основные положения работы докладывались на международной конференции "Информационные технологии и радиосети-96" (Омск, 1996), У1-ом Сибирском научном семинаре с международным участием "Автоматизированные библиотечно-информационные системы" (Новосибирск, 1996), Международной конференции "Проблемы оптимизации и экономические приложения" (Омск, 1997). По теме диссертации опубликовано 5 научных работ [10, 11, 12, 48, 67]. __

0.7 Основные положения, выносимые на защиту

1. Разработана ассоциативная модель реального текста.

2. Разработан прототип интеллектуальной системы управления текстовыми базами данных (система ГИОС), в котором базы знаний о связях в текстах автоматически генерируются по алгоритмам, основанным на положениях модели.

3. Проведена экспериментальная проверка применимости модели для автоматической генерции БЗС в широком диапазоне жанров и объемов реальных текстов.

4. Свойство постоянства средних значений коэффициентов реферирования и полноты описания, выведенное как результат анализа про-

тотипа текста и экспериментально подтвержденное для реальных текстов, является объективным подтверждением правильности ассоциативной модели и перспективности ее развития в направлении автоматического семантического анализа текстов.

Автор благодарит кандидата физико-математических наук, зав. лабораторией C.B. Зыкина за конструктивное научное руководство и ряд ценных практических советов.

1 АНАЛИТИЧЕСКИЙ ОБЗОР И ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЙ

1.1 Проблема ключевых слов и квазиреферирование

Основными идеологическими препятствиями на пути автоматического выявления семантической сети текста являются кажущаяся субъективность понятия "ключевое слово", зависимость оценки важности того или иного слова от общей ситуации восприятия, психологического состояния воспринимающего текст [1]. Ключевые слова, определяющие объекты предметных (проблемных) областей и отношения между ними, так или иначе задаются [2],[4, с.249]. В методиках по координатному индексированию критерии выбора ключевых слов не алгоритмизируемы: "...ключевыми могут быть предметные, опорные, вспомогательные и аспектные слова, которые к тому же должны быть терминами" [5, с. 17]. Развитие информационных технологий [6] поднимает уровень участия человека до создания специализированных тезаурусов в интерактивном режиме взаимодействия с ЭВМ, которые затем используются для автоматического создания ПОД [7, 8].

Одна из самых совершенных и мощных современных систем управления электронными документами Excalibur EFS [9] " автоиндексиру-ет" полное собрание сочинений В. Шекспира за 2 мин. 20 сек. Технология "адаптивного распознавания образов" (APRP), базирующаяся на концепции "нечеткой логики", предусматривает использование мощного нейрокомпьютера. Система после ввода изучает" документ с целью определения координат слова ("образа") и быстрого его поиска. Но проблема определения относительной важности слова в том или ином тексте, принципиально важная для семантической интерпретации, остается нерешенной.

В методе ГАБЕК [10] (немецкая аббревиатура GABEK расшифровывается как "целостное преодоление языковых сложностей) текст обрабатывается в два этапа. На первом он рассматривается как чисто синтаксический объект, смысл фраз значения не имеет, важны только ключевые понятия. Второй этап - анализ смысла отдельных предложений (суждений, фраз) с целью построения резюмирующего суждения. На всех этапах анализа принципиальную роль играет эксперт. Даже на первом, "полностью автоматизированном" этапе эксперт для каждого предложения выбирает его ключевые понятия, затем текст подается на

вход программы. Д.Е. Пальчунов совершенно справедливо отмечает: "Значение обобщающих суждений трудно переоценить, вопрос только в том, насколько адекватно они передают информацию, содержащуюся в данном тексте. Очевидно, что это зависит от способностей и компетентности данного эксперта." [10, с.153-154]

Адекватность передачи информации - главная проблема даже "ручного" реферирования. Основные идеи автоматического реферирования изложены в уже цитируемой монографии Д. Солтона [12]. Точнее, речь идет о "квазиавтореферировании" [13,14, 4] - экстрагировании предложений текста на основании "пиков" в распределении смысловой информации текста" [4, с.244]. "Смысл" может определяться на основании принадлежности слов текста к тезаурусам, определяющим семантические поля, или по другим критериям важности терминов и предложений. Сегменты текста могут выделяться на основании повторения в них "доминантных лексических единиц" [14], и связывания выделенных сегментов при помощи распознавания так называемых "релято-ров" (фиксированных местоимений, союзов, вводных слов, глагольных форм) [15]. Такой реферат "может выступать в качестве единого смыслового образа текста" [4, с.248] только с точки зрения интерпретирующего его человека.

Тем не менее, при наличии метода автоматического определения значимости ("весов") предложений, соответствующей их роли в раскрытии темы текста, автоматическое квазиреферирование представляется оптимальным вариантом для организации гипертекстового доступа наряду с доступом по связной системе ключевых слов.

1.2 Концепция гипертекста и основная проблема ГТ-систем

В контексте настоящей работы принципиальный интерес представляет концепция гиперт