автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Автоматизированное формирование лингвистических баз знаний

кандидата физико-математических наук
Субботин, Алексей Викторович
город
Москва
год
1999
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Автоматизированное формирование лингвистических баз знаний»

Автореферат диссертации по теме "Автоматизированное формирование лингвистических баз знаний"

М^С^овский ордена Ленина, ордена Октябрьской Революции и ордена Трудового Красного Знамени государственный } Л'Д "" "'университет имени М.В.Ломоносова

Факультет вычислительной математики и кибернетики

(Т/0 ^О

На правах рукописи

Субботин Алексей Викторович

Автоматизированное формирование лингвистических баз знаний: интеграционный подход

специальность: 05ЛЗЛ1 — математическое и программное обеспечение вычислительных машин, комплексов, систем и сетей

Автореферат

диссертации на соискание ученой степени кандидата физико-математических наук

Москва, 1999 г.

Работа выполнена на кафедре алгоритмических языков факультета Вычислительной математики и кибернетики Московского Государственного Университета им. М.В. Ломоносова

Научный руководитель:

профессор, доктор физико-математических наук М.Г. Малысовский

Официальные оппоненты:

доктор физико-математических наук С.Ю.Соловьев

кандидат физико-математических наук С.А.Шаров

Ведущая организация:

Институт системного программирования РАН

Защита диссертации состоится «./.'г'.» апреля 2000 г. в 11 час. на заседании диссертационного Совета Д.053.05.38 в Московском Государственном Университете им. М.В. Ломоносова по адресу: 119899, Москва, Воробьевы Горы, МГУ, 2-й учебный корпус, ВМиК, ауд. 685.

С диссертацией можно ознакомиться в библиотеке факультета ВМиК МГУ.

Автореферат разослан марта 2000 г.

Ученый секретарь

диссертационного Совета

профессор ¿И—г Н.П. Трифонов

-0/8, о

Общая характеристика работы

Актуальность темы

Сегодня системы, обрабатывающие естественный язык (ЕЯ-системы), применяются практически во всех областях человеческой деятельности. Эти системы решают широкий спектр задач, начиная от поддержки редактирования текстов, до информационного поиска, управления документооборотом, обработки запросов и генерации текстов и речи на естественном языке (ЕЯ).

Общепризнанным фактом является то, что для достижения приемлемого для большинства задач качества ЕЯ-обработки необходимы специальные информационные массивы, содержащие информацию о языке, называемые «лингвистическими базами знаний» (ЛБЗ). В связи с большим объемом, сложностью, разнородностью обрабатываемой при формировании ЛБЗ информации, а также необходимостью привлечения экспертов формирование баз знаний нуждается в автоматизации. Практика показывает, что для эффективного формирования лингвистических баз знаний необходимо совместное использование различных методов обработки лингвистической и текстовой информации.

Однако при интеграции методов формирования ЛБЗ возникают следующие трудности:

• Отсутствуют целостные подходы к интеграции различных методов и поддерживающие их лингвистические и математические модели.

• Реализация методов формирования ЛБЗ ведется на базе разных информационных технологий, часто без опоры на стандарты, что существенно затрудняет их интеграцию.

Таким образом, актуальной задачей является создание моделей, на основе которых могут быть интегрированы различные методы автоматизированного формирования ЛБЗ, и их компьютерная реализация.

Основные цели работы

Основными целями представленной диссертационной работы являются:

• обобщение опыта интеграции различных методов автоматизированного формирования ЛБЗ в целостный подход,

• создание моделей для представления ЛБЗ и процесса их формирования,

• разработка архитектуры системы автоматизированного формирования ЛБЗ.

Научная новизна

В диссертации на основе анализа существующих подходов к автоматизированному формированию ЛБЗ, современных технологий и методологий построения информационных систем формулируется новый подход к интеграции различных методов обработки лингвистической информации. Стержнем этого подхода является метамодель для интеграции различных методов формирования ЛБЗ (МЕТАМОДЕЛЬ), основанная на метамодели языка объектного моделирования UML и нечеткой математике.

В диссертации предложены оригинальные методы автоматизированного формирования отдельных компонентов ЛБЗ, а также архитектура распределенной системы автоматизированного формирования ЛБЗ (САФЛБЗ), основанная на стандартах OMG (CORBA, CORBAservices, CORBAfacilities).

Методы исследования

В работе использованы методы объектно-ориентированного моделирования, анализа, проектирования и программирования, нечеткой математики, теории сетей Петри.

Практическая значимость работы

Работа выполнена в рамках госбюджетной темы НИР кафедры алгоритмических языков факультета Вычислительной математики и кибернетики МГУ им. М.В. Ломоносова «Лингвистические и алгебраические методы в современных информационных технологиях» (Гос. per. № 01960003308).

Результаты работы использованы при выполнении НИР по теме «Программно-информационное обеспечение обработки текста в интегрированных информационных системах» (подпрограмма «Информатизация России» - шифр проекта 037.01.178.23, Гос. per. № 01.9.80 003341).

Практическая значимость данной работы подтверждается результатами экспериментов с системой распознавания речи, разрабатывавшейся в рамках договора о сотрудничестве между факультетом вычислительной математики и кибернетики МГУ им.М.В.Ломоносова и американской компанией Accent,Inc. в 1995-1996 гг. (за счет применения методов, описанных в третьей главе диссертации, было зафиксировано устойчивое повышение надежности распознавания на 1 -2% при исходном уровне в 9394%), а также эксплуатацией прототипов системы автоматизированного формирования ЛБЗ при построении специализированного информационно-поискового тезауруса.

4

Созданная метамодель может применяться для унифицированного хредставления различных методов обработки лингвистической информации.

Апробация

Результаты диссертационной работы докладывались на Международных сонференциях и семинарах: "Интеллект. Язык. Компьютер." (Казань, 1996г.), 'Диалог'97" и "Диалог'98" (Ясная поляна 1997г., Таруса 1998г.), "Когнитивное моделирование" (Пущино, 1999г.), "Анализ систем на рубеже тысячелетий: Теория и Трактата" (Москва, 1998, 1999 гг.), а также на научной конференции МГУ 'Ломоносовские чтения" (Москва, 1997 г.).

Публикации

По теме диссертации опубликовано 7 работ, достаточно полно отражающих кновные научные результаты диссертации.

Структура и объем работы

Диссертация состоит из введения, шести глав, заключения, списка литературы, источающего 72 названия, и приложений. Основной (без приложений) текст занимает 11 б машинописных страниц.

Содержание работы

Во введении описаны истоки задачи автоматизированного формирования ЛБЗ, слассифицированы компоненты ЛБЗ, указаны основные источники информации, 1Спользуемой при формировании ЛБЗ, и существующие проблемы.

В первой главе рассматривается текущее состояние работ по ттоматизированному формированию ЛБЗ, дается классификация и краткий обзор кновных подходов и методов, которые используются или могут быть использованы 1ля решения этой задачи, описываются особенности лингвистической информации, формулируются основные требования к МЕТАМОДЕЛИ и САФЛБЗ.

В первую очередь исследуются жизненный цикл и процесс формирования ЛБЗ. Нормирование ЛБЗ заключается в извлечении информации из источников, обработки :е при участии инженеров знаний с целью формализации лингвистических знаний для 1аполнения ЛБЗ.

Далее для систематизации последующего рассмотрения методов формирования ЛБЗ вводятся различные способы их классификации:

• по источникам информации (люди, тексты, существующие ЛБЗ);

• по формируемым компонентам ЛБЗ (лексические, синтаксические, семантические, прагматические);

• по характеру (статистические, лингвистические, эвристические);

• по роли инженеров знаний (автоматические, автоматизированные, не автоматизированные).

Основная часть главы посвящена обзору методов автоматизированного формирования компонентов ЛБЗ раздичпых уровней.

Компоненты лексического уровня являются достаточно простыми и некоторые из них могут быть сформированы автоматически статистическими методами на основе текстов. Примерами таких компонентов являются словари словоформ, лексических п-грамм, формирование которых предусматривает выделение и подсчет словоформ и их последовательностей длины п в тексте.

Наиболее характерными компонентами синтаксического уровня ЛБЗ являются грамматический словарь, словари синтагм и словари синтаксических моделей управления. Поскольку в работе более подробно рассматривается формирование грамматического словаря, основная часть обзора компонентов синтаксического уровня посвящена ему.

Грамматический словарь или его упрощенные варианты (словари основ и неизменяемых слов, не содержащие информацию о грамматических признаках лексических единиц, а просто позволяющие устанавливать связь основ и словоформ) применяются практически во всех системах обработки текстов.

Сложность грамматического словаря и процесса его формирования зависит от свойств описываемого естественного языка. Так, в большинстве ЕЯ-систем, ориентированных на обработку английского языка ввиду достаточно бедной морфологии часто используются наборы «сиГп'рщГе» правил, которые вполне заменяют грамматический словарь. Для русского языка построить такой анализатор, работающий с приемлемым уровнем точности, практически невозможно.

Далее рассматриваются проблемы формирования тезауруса, как наиболее характерного компонента семантического уровня. Создание качественного тезауруса является довольно сложным процессом, требующим значительных ресурсов и привлечения экспертов. Многолетняя практика применения тезаурусов показывает, что для получения хороших результатов в прикладных задачах (в частности, в задачах

б

информационного поиска) приходится использовать отдельные тезаурусы для различных предметных областей (ПО).

Существующие работы по автоматизированному формированию информационно-поисковых тезаурусов (ИПТ) можно классифицировать следующим образом с точки зрения решаемых задач:

• формирование ИПТ для коллекций документов;

• формирование ИПТ, независимых от коллекций документов;

• пополнение ИПТ.

К первой группе относятся работы, направленные на формирование тезаурусов для организации информационного поиска в рамках заданной коллекции документов. Критерием качества таких тезаурусов является эффективность поиска по данной коллекции. Обычно результирующие тезаурусы содержат описание недифференцированных ассоциативных связей, установленных на основе анализа совместной встречаемости терминов в документах коллекции.

Авторы работ, относящихся ко второй группе, обычно не претендуют на разработку целостного подхода к формированию ИПТ, независимого от коллекции документов. Большинство методов использует достаточно поверхностные лингвистические знания и основано либо на внелингвистических соображениях, либо на статистических методах обработки текстов.

Методы третьей группы представляют наибольший интерес, поскольку первичное создание ИПТ «с чистого листа» происходит только один раз, в его пополнение - в течение всего жизненного цикла, при этом на пополнение затрачивается гораздо больше ресурсов. В этих методах используется информация, уже существующая в тезаурусе, что открывает принципиально новые возможности по сравнению с методами из первых двух групп. Так, специалисты могут (в частности с помощью автоматизированных методов) сформировать высококачественный каркас тезауруса, содержащий верхние уровни его родо-видовых иерархий, на небольшом объеме лексики. Путем устанавления связей вновь выделенных понятий с этим каркасом может быть автоматизированным образом сформирован более высококачественный тезаурус. При этом возникает возможность автоматизации контроля качества на основе анализа того, насколько тесно вновь добавляемый термин связан с существующей в тезаурусе иерархией.

Далее указываются основные особенности информации, содержащейся в ЛБЗ:

• неточный характер;

• неполнота;

• наличие ошибочной информации.

Исходя из этих особенностей формулируются требования к МЕТАМОДЕЛИ и к САФЛБЗ. При этом САФЛБЗ рассматривается как распределенная информационная система.

С учетом выдвинутых требований анализируются основные подходы к обработке лингвистической информации:

• логические подходы, рассматривающие процесс обработки текстов, как процесс логического или грамматического вывода;

• подходы, основанные на нечетких множествах, нечеткой логике;

• подходы, основанные на нейронных сетях, позволяющие обрабатывать тексты с помощью специально обученных нейронных сетей;

• эвристические подходы, основывающиеся на построении алгоритмов, основанных па лингвистических соображениях и активном использовании лингвистических знаний;

• статистические подходы, предусматривающие исследование статистических характеристик текстов;

• подходы, основанные на фреймовом или объектном представлении знаний;

• комбинированные подходы.

Эти подходы рассматриваются с точки зрения следующих позиций: возможность применения для автоматизированного формирования ЛБЗ, возможность совместного использования.

Вторая глава посвящена общему описанию предлагаемого подхода и метамодели, являющейся основой для интеграции различных методов автоматизированного формирования ЛБЗ.

На основе анализа сформулированных выше требований обосновываются следующие основы построения МЕТАМОДЕЛИ:

• объектный подход и язык UML;

• нечеткая математика;

• сета Петри.

Объектный подход предоставляет средства для моделирования и работы со

сложными структурами данных. Современный объектный подход, воплощенный в

языке UML, вобрал в себя средства моделирования отношений, аналогичные с точки

зрения выразительности, аппарату семантических сетей. В UML также определены

модели, предназначенные для описания поведения объектов (State Diagrams), динамики

их взаимодействия (Sequence Diagrams, Collaboration Diagrams) и процессов,

8

протекающих в объектных системах (Activity Diagrams). Причем последний вид моделей позволяет отображать как потоки управления, так и информационные потоки.

Правила интерпретации для Sequence и Collaboration Diagrams являются достаточно простыми (обмен сообщениями между объектами) и в стандарте UML описаны строго. Диаграммы состояний имеют реактивную семантику, унаследованную от аппарата конечных автоматов, которая также формально описана. В действующем стандарте UML не определена в точности семантика выполнения моделей действий (Activity Diagram), особенно в части моделирования информационных потоков. Существующего описания вполне достаточно для практических целей, когда модели можно дополнить рядом соглашений по их интерпретации, однако с точки зрения построения формальной модели формирования ЛБЗ этого недостаточно.

Одним из путей решения этой проблемы является интеграция аппарата моделей действий UML с формализмом сетей Петри в рамках средств расширения UML. Такой симбиоз дает возможность, сохранив стандартные выразительные средства UML, дополнить их формальной основой, позволяющей осуществлять строгую интерпретацию. К тому же, в аппарате сетей Петри практически отсутствуют возможности по представлению сложно структурированных данных. Развитая типовая система UML позволит устранить этот недостаток сетей Петри.

Многие способы представления неточной информации могут быть транслированы на язык нечеткой математики. При этом связи могут быть представлены нечеткими отношениями, предикатами и правилами, а последовательность преобразований этих отношений - как процесс нечеткого вывода.

Статистические наблюдения, позволяющие оценить частотность или вероятность того или иного события, могут быть также представлены в виде нечеткого предиката или отношения над множеством исследуемых объектов. Нейронная сеть, позволяющая оценивать числовые соотношения, также может быть инкапсулирована в виде системы нечетких правил.

Подчеркивается, что речь не идет об отображении внутренних особенностей построения умозаключений с использованием всех указанных формализмов на нечеткую математику. Предполагается только "оборачивать" методы обработки текстов в нечеткую форму, на базе которой можно уже строить выводы с использованием информации, добытой этими методами.

В UML нет средств описания нечетких фактов и правил, однако этот язык расширяем. Поэтому выразительные средства нечеткой математики могут быть интегрированы в UML с помощью механизмов его расширения.

В заключении главы определяется природа МЕТАМОДЕЛИ:

• МЕТАМОДЕЛЬ представляет собой расширение метамодели языка иМЬ средствами нечеткой математики и сетей Петри;

• в САФЛБЗ должна быть предусмотрена возможность интеграции различных методов обработки информации: нейронных сетей, статистических методов и т.п., которые будут предоставлять интерфейс в виде, предусмотренном созданной МЕТАМОДЕЛЬЮ.

Для того чтобы сохранить совместимость с UiS.iL, МЕТАМОДЕЛЬ построена как профиль иМЬ.

Третья глава посвящена вопросам формирования и коррекции компонентов ЛБЗ лексического уровня - словарей п-грамм (п-ок лексем). Предлагается метод коррекции словарей биграмм, использованный в системе распознавания речи для американского английского языка, адаптированный впоследствии к русскому языку.

N-граммы представляют собой довольно мощное средство улучшения результатов распознавания. Можно указать следующие особенности п-грамм, обуславливающие характер их применения:

• п-граммы набраны по некоторому множеству текстов;

• п-граммы несут статистическую информацию, т.е. их использование может дать правильный результат с некоторой достоверностью.

Естественно, возможность получения правильного результата (например по распознанному первому слову биграммы и шаблону для второго слова правильно выбрать второе слово) будет больше на том множестве текстов, на базе которого формировался данный словарь. Если множество текстов было достаточно представительно для некоторой ПО, то полученная информация (п-граммы и их веса) будет адекватна и большинству текстов этой ПО.

Обычно очень трудно подобрать тексты, покрывающие всю ПО, особенно для областей, в которых происходит интенсивное увеличение обьема знаний (выявляются новые свойства объектов, исследования, новые объекты и, соответственно, появляются новые языковые единицы - например терминологические сочетания, и изменяются старые - например модели управления).

Компенсировать неполноту корпуса текстов можно следующими способами:

• исключить из словаря все п-граммы, содержащие малочастотные слова, и при использовании словаря учитывать, что в нем присутствуют п-граммы не для всех слов;

• попытаться дополнить словарь недостающими п-граммами.

10

В диссертационной работе развивается второй способ.

Поскольку эффективность применения биграмм определяется статистически, то не требуется, чтобы все добавляемые биграммы были правильными (т.е. были допустимыми с точки зрения рассматриваемого подъязыка). Правило коррекции можно применять, если в соответствии с ним добавляется настолько больше правильных Зиграмм, чем неправильных, что при этом улучшаются результаты распознавания.

Предлагаются следующие методы пополнения словарей биграмм.

Пополнение парадигмы

Пусть одна из форм некоторого слова ФС1 встречается в словаре в биграмме (ФС1 С) или (С ФС1) в качестве первого или второго слова, а другая форма ФС2 этого же слова не встречается в соответствующей биграмме (ФС2 С) или (С ФС2). Тогда при некоторых условиях на С, ФС1, ФС2 можно добавить в словарь биграмму (ФС2 С) или (С ФС2). Например, если в словаре есть биграмма " поставил на", то можно добавить биграммы "поставила на", "поставит на","поставить на" и др.

Трансформации

Словарь можно пополнить и добавляя новые формы биграмм, представляющих собой согласованные сочетания. Так, если есть биграмма "левом берегу", то можно добавить биграммы "левый берег", "левому берегу" ит.п.

Другим методом пополнения является перефразирование биграмм, представляющих собой части одной синтаксической группы (например именной или глагольной). Если можно сказать "заяц бежал", то можно сказать и " бегущий заяц", "бегавший заяц" и т.п. Этот способ является более "рискованным" чем предыдущие, и при его применении в большей степени должна учитываться специфика ПО. Так, перефразирование терминологического сочетания может привести к построению несуществующей или крайне редко используемой в подъязыке биграммы. Например из известного и широко используемого словосочетания "налоговая полиция" подобным перефразированием можно получить сочетание "полиция налогов".

Кластеризация

После применения указанных выше средств пополнения можно выполнить частичную кластеризацию слов, и произвести обмен биграммами среди слов одного кластера, т.е. получить объединение множеств биграмм слов кластера и для каждого

слова добавить в словарь все биграммы с этим словом из объединения, которых там еще нет.

Так, если слова «Россия», «Франция», «Италия», «Германия» попали в один кластер, и в словаре есть битраммы «посольство России», «посольство Франции», то можно добавить в словарь биграммы «посольство Италии», «посольство Германии».

Следует заметить, что совершенно необязательно, чтобы каждое слово словаря входило в некоторый кластер. При проведении кластеризации важно не количество кластеров и слов в них, а максимальная близость слов одного кластера.

Четвертая глава посвящена проблемам автоматизации формирования грамматического словаря русского языка.

На момент начала работы над диссертацией существовала реализация морфологической модели русского языка на языке программирования Плэнер. Этот язык является интерпретируемым, а следовательно, довольно медленно работающим, что затрудняет его применение в системах, к которым предъявляются высокие требования по быстродействию. Обработка сложной структуры списков, используемых в Плэнере, требует существенных затрат машинного времени, даже при реализации алгоритма их обработки на компилируемых языках, ориентированных на написание эффективных программ (С, С++). Поэтому было принято решение о переходе к другой структуре словаря и соответствующей модификации алгоритмов анализа и синтеза.

Новое представление словаря трудно воспринимаемо для человека, однако, унификация и упрощение структур данных позволило создать условия для значительного увеличения скорости обработки.

Автор настоящей работы участвовал в создании новой модели словаря.

Вне зависимости от изменения модели словаря, пополнение словаря по-прежнему осталось весьма трудоемкой задачей, требующей значительного времени. Если в плэнерской модели основная сложность этого процесса заключалась в описании грамматических признаков того или иного слова в виде списков языка Плэнер, то теперь проблема состоит в основном в следующем:

• выявление всех основ (поскольку каждая основа соответствует одному словарному входу);

• приписывание каждой из основ словоизменительного класса.

Таким образом, решение задачи -автоматической классификации вновь вводимых слов позволило бы значительно сократить объем работ по поддержанию словаря в актуальном состоянии.

Исходя из поставленной выше задачи был выбран следующий подход:

1. Создать алгоритм, позволяющий выделять группы слов, описываемых в существующем словаре одинаковыми наборами словарных статей.

2. Создать алгоритм, позволяющий на основе анализа совокупностей словарных статей описывать (например в виде контекстно-свободной грамматики) структуру начальной формы класса слов, изменяющихся в соответствии с указанными правилами.

В пятой главе описывается предложенная в работе модель семантического словаря (тезауруса), ориентированная на его автоматизированное формирование. Также дается ее сравнение с другими моделями тезаурусов.

Первой посылкой предлагаемой модели тезауруса является наличие двух уровней: лексического и смыслового (аналогично модели «Смысл-Текст»). При этом семантические связи между лексемами являются не прямыми, а опосредованными, устанавливаемыми через единицы смыслового уровня. Современные требования к информационному поиску предполагают наличие тезауруса, фактически представляющего лингвистическое отображение модели ПО. В этих условиях модель ПО может быть построена на смысловом уровне, а ее лексическое выражение задано связями построенной системы смыслов с лексемами. При этом должны использоваться как связи между смыслами, так и между смыслами и лексемами. Еще одним видом связей, важных для информационного поиска, являются отношения между лексемами, которые определяются непосредственно. Примером такого отношения может быть синтаксическая деривация.

Описанная модель открывает новые возможности для автоматизированного формирования тезауруса. Например, устойчивая структура категорий понятий может быть выражена в описанной модели в виде системы смыслов, которым приписываются наиболее известные способы их выражения, и сформирована экспертами. В ходе последующего автоматизированного формирования на основе этого каркаса наращивается тезаурус, который впоследствии корректируется экспертом. Указанная модель также может служить для автоматизированного формирования рубрикатора.

Помимо этого она позволяет представлять промежуточную информацию, получаемую при анализе источников в ходе автоматизированного формирования тезауруса. Например, вводя специальные отношения между лексемами, соответствующие их текстовым связям: совместной встречаемости в рамках того или иного фрагмента текста или синтаксических отношениях в предложениях текста, -

можно на базе модели выразить эту информацию. В дальнейшем эти связи могут быть проанализированы, а затем на их основе могут быть выделены тезаурусные отношения.

Шестая глава посвящена системе автоматизированного формирования ЛБЗ (САФЛБЗ), воплощающей предлагаемый в работе подход.

САФЛБЗ должна обеспечить хранение и доступ к большим объемам информации. При этом, поскольку речь идет как о создаваемой ЛБЗ, так и об источниках лингвистической информации (например, текстах, существующих словарях), для этой информации характерно разнообразие представлений и методов организации доступа к ней.

Пытаться собрать в единой программе столь разнообразные алгоритмы и организовать взаимодействие с различными источниками данных достаточно сложно. Более простым путем решения этой задачи является создание распределенной системы.

Другим обоснованием такого подхода к организации системы может служить естественная распределенность источников информации, расположенных на различных вычислительных узлах в локальной или глобальной сети. Требование распределенности системы также выражается в необходимости предоставления удаленного доступа инженерам знаний (лингвистам-экспертам) к системе для корректировки и анализа информации, поскольку физическое перемещение данных часто является затруднительным.

Так как МЕТАМОДЕЛЬ основана на объектном подходе, логично использовать для построения системы объектные технологии. Другой причиной использования объектных технологий является то, что на сегодняшний день объектный подход вобрал в себя все средства более ранних (структурно-функционального и модульного) подходов и поддержан достаточно развитыми и проверенными на практике технологиями.

Исходя из распределенности и «объектности» системы наиболее подходящими технологиями будут являться так называемые технологии распределенных объектов.

Технологии распределенных объектов, продвигаемые Object Management Group (OMG), основаны на серии CORBA-стандартов (CORBA, CORBAservices, CORBAfacilities). Отличием технологии CORBA является изначальная ориентация на интеграцию программных систем и компонентов, написанных на различных языках программирования и работающих на различных программно-аппаратных платформах. В отличие от технологии Java, для CORBA не зафиксирован единственный язык программирования, а определен независимый от языка программирования язык спецификации интерфейсов компонентов распределенной системы - CORBA IDL

(Interface Definition Language). Консорциумом OMG определены отображения с этого языка на различные языки программирования (в частности, С, С++, Java), что позволяет организовывать взаимодействие компонентов распределенной системы, написанных на этих языках посредством ORB (Object Request Broker).

Семейство технологий распределенных объектов, продвигаемых корпорацией Microsoft (DCOM, ActiveX), во многом аналогичны CORBA, но обладают рядом существенных недостатков:

• Эти технологии изначально ориентированы на работу в среде Microsoft Windows и перенос их на другие платформы затруднен.

• В DCOM компонент распределенной системы представляет собой не объект, а фабрику объектов, вследствие чего объектная модель DCOM фактически не поддерживает понятие состояния объекта.

• Программное обеспечение, реализующее данную технологию, фактически зависит от одного производителя.

• Ограничены возможности по использованию языков программирования для реализации программных компонентов.

Таким образом, наиболее подходящей базовой технологией для создания САФЛБЗ является технология CORBA.

Поскольку, как было отмечено выше, информация о языке может быть представлена в различном виде, необходима инкапсуляция особенностей источников данных. Это достигается за счет создания CORBA-сервера, обеспечивающего доступ к данным на основе унифицированного интерфейса.

Этот сервер организуется таким образом, чтобы путем встраивания в него различных классов можно было организовать доступ к данным произвольной структуры, хранящимся в произвольном источнике данных.

Процесс формирования ЛБЗ обычно требует длительных экспериментов, поэтому необходимо иметь возможность достаточно «легковесного» изменения логики их выполнения.

В связи с этим процесс формирования ЛБЗ лучше представлять в декларативном виде, а также иметь возможность изменять ход процесса во время его выполнения. Это достигается с помощью так называемой технологии Workflow.

Целесообразно отделить пользовательский интерфейс от функциональной логики и доступа к данным системы. Подсистема пользовательского интерфейса может быть построена на основе Internet и Java.

В связи с вышесказанным предлагается следующая архитектура САФЛБЗ:

15

j User |

interlace ,

\

-- - -!

" Component'

' ~~ Repasitoiy j

Property Service

InfoimationResouxce - сервер доступа к данным в терминах сети объектов, связанных нечеткими отношениями. Этот сервер позволяет динамически загружать компоненты (в виде динамических библиотек):

• реализующие доступ к различным классам объектов;

• реализующие обработку данных (те, которые целесообразно размещать в непосредственной близости от данных).

Workflow - реализует ядро OMG Workflow Facility и позволяет динамически изменять и загружать новые описания процессов.

Fuzzylnference - подсистема нечеткого вывода. Может реализовываться, например, путем «обертывания» (wrapping) в CORBA IDL интерфейс интерпретатора FPROLOG.

AppServer - подсистема, позволяющая размещать компоненты, обрабатывающие информацию, и управлять ими. В качестве AppServer может использоваться какой-либо из CORBA-совместимых промышленных серверов приложений.

Все компоненты (обрабатывающие информацию, обеспечивающие доступ к объектам), а также описания процессов хранятся в ComponentRepository, предоставляющем унифицированный интерфейс для доступа к ним.

В системе поддерживается как минимум два вида пользовательского интерфейса: интерфейс для эксперта-лингвиста и рядового носителя языка (User Interface) и интерфейс для администратора/инженера знаний (Engineer Interface). На данный момент создан прототип САФЛБЗ.

Engineer | Interface-

Fuzzy- j Inference .,<--

IL

Workfiow

hWh^Wn Rssoiice

tusnt

' Notiiication

Namirg Ser/ce

В заключении сформулированы основные результаты работы, которые ■включаются в следующем:

» Предложена метамодель, позволяющая единообразно описывать различные модели лингвистических баз знаний и процессы их автоматизированного формирования.

> На основе этой метамодели разработаны: модель тезауруса, ориентированная на его автоматизированное формирование; структура и методы формирования грамматического словаря и частотного словаря n-ок лексем (словаря лексических п-грамм).

> Разработана и опробована на прототипах архитектура системы автоматизированного формирования лингвистических баз знаний, поддерживающая предложенную метамодель.

На основе предложенного подхода сформулированы и опробованы при создании я коррекции различных лингвистических баз знаний методы автоматизированного формирования грамматического словаря, коррекции словарей n-грамм и модель тезауруса для автоматизированного формирования.

В приложениях приведены фрагменты проектной документации по системе автоматизированного формирования ЛБЗ, а также примеры использования МЕТАМОДЕЛИ.

Основные результаты работы изложены в следующих публикациях:

1. Мальковский М.Г., Субботин A.B. Синтаксический анализ в прикладных ЕЯ системах // "Интеллект. Язык. Компьютер.", вып.4, Казань, 1996. - С. 67 - 72.

2. Мальковский М.Г., Большакова Е.И., Субботин A.B., Челпанов A.B., Челпанов И.В. Лингвистический процессор в интегрированной среде поддержки работы аналитика // Труды Межд. семинара Диалог'97 по компьютерной лингвистике и ее приложениям - М., 1997,- С. 197-200.

3. Мальковский М.Г., Абрамов В.Г., Субботин A.B. Об автоматизированном формировании лингвистических баз знаний // Труды Межд. семинара Диалог'98 по компьютерной лингвистике и ее приложениям - М., 1998, т.2. - С.831-836.

4. Леонтьев В.В, Ахтырченко К.В., Субботин A.B. Информационные системы в едином информационном пространстве // Тезисы Международной научно-практической конференции "Анализ систем на рубеже тысячелетий: Теория и Практика" - 1998. - С. 59-60.

5. Мальковский М.Г., Субботин А.В., Грацианова Т.Ю. Интеграционный подход к автоматизированному формированию лингвистических баз знаний. // Межд. конференция "Когнитивное моделирование - 99". - Web Journal of Formal, Computational and Cognitive Linguistics ( http://www.kcn.ru/tat_en/science/fccl/).

6. Мальковский М.Г., Абрамов В.Г., Пильщиков B.H., Субботин А.В. Программно-информационное обеспечение обработки текста в интегрированных информационных системах. //Научно-технический отчет по Проекту № 037.01.178.23 Подпрограммы «Информатизация России», ВНТИЦентр инв.№ 02.9.90 000109,1998.-20 с.

7. Леонтьев В.В, Субботин А.В. Процесс создания сложных информационных систем // Тезисы Международной научно-практической конференции "Анализ систем на рубеже тысячелетий: Теория и Практика" - 1999 - С. 145-146.

Оглавление автор диссертации — кандидата физико-математических наук Субботин, Алексей Викторович

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР МЕТОДОВ И ТЕХНОЛОГИЙ ФОРМИРОВАНИЯ ЛБЗ.

Раздел 1.1. Жизненный цикл ЛБЗ.

Раздел 1.2. Процесс формирования ЛБЗ.

Раздел 1.3. Классификация методов автоматизированного формирования ЛБЗ.

Раздел 1.4. Обзор методов формирования ЛБЗ.

1.4.1 Лексический уровень./

1.4.2 Синтаксический уровень.

1.4.3 Семантический уровень.

1.4.4 Энциклопедический уровень.

Раздел 1.5. Особенности ЛБЗ, их формирования и использования.

1.5.1 Особенности лингвистической информации и процесса ее формирования.

1.5.2 Особенности ЛБЗ как информационного ресурса.

1.5.3 Основные требования к моделям ЛБЗ и процесса ее формирования.

1.5.4 Особенности системы автоматизированного формирования ЛБЗ (САФЛБЗ).

Раздел 1.6. Основы модели формирования ЛБЗ.

1.6.1 Логический подход.

1.6.2 Нечеткая математика.

1.6.3 Нейронные сети.

1.6.4 Статистические подходы.

1.6.5 Сети Петри.

1.6.6 Фреймы и объектный подход.

ГЛАВА 2. МЕТАМОДЕЛЬ ЛБЗ.

Раздел 2.1. Выбор базовых технологий и подходов для построения МЕТ AMO ДЕЛИ.

Раздел 2.2. Описание МЕТАМОДЕЛИ.

2.2.1 Введение.

2.2.2 Обзор МЕТАМОДЕЛИ.

2.2.3 Соглашения по именованию и обозначения.

2.2.4 Стереотипы.

2.2.5 Именованные значения.

2.2.6 Ограничения и правила построения моделей.

ГЛАВА 3. КОРРЕКЦИЯ СЛОВАРЕЙ N-ГРАММ.

Раздел 3.1. Основные понятия.

Раздел 3.2. Методы пополнения словаря биграмм.

3.2.1 Пополнение парадигмы.

3.2.2 Трансформации.

3.2.3 Кластеризация.

Раздел 3.3. Коррекция словаря биграмм общеупотребительной лексики американского английского языка.

3.3.1 Виды неполноты парадигмы в словаре биграмм американского английского.

3.3.2 Пополнение парадигмы глаголов.

3.3.3 Пополнение парадигмы существительных.

3.3.4 Пополнение диграммами с числительными.

3.3.5 Пополнение биграммами с местоимениями.

3.3.6 Другие возможности коррекции словаря биграмм.

Раздел 3.4. Применение методов пополнения словаря ы-грамм.

3.4.1 Обобщение сформулированных правил для коррекции словарей п-грамм.

3.4.2 Оценка качества коррекции словаря п-грамм.

ГЛАВА 4. ФОРМИРОВАНИЕ ГРАММАТИЧЕСКОГО СЛОВАРЯ РУССКОГО ЯЗЫКА.

Раздел 4.1. Преобразование грамматического словаря русского языка.

4.1.1 Морфологическая модель и принципы ее реализации.

4.1.2 Программный комплекс формирования словаря.

Раздел 4.2. Автоматизированное пополнение словаря.

4.2.1 Проблемы пополнения словаря и пути их решения.

4.2.2 Метод автоматизированного пополнения словаря.

ГЛАВА 5. МОДЕЛЬ ТЕЗАУРУСА ДЛЯ АВТОМАТИЗИРОВАННОГО ФОРМИРОВАНИЯ

Раздел 5.1. Введение.

Раздел 5.2. Модели тезаурусов.

5.2.1 Граф понятий.

5.2.2 Граф понятий и лексем.

Раздел 5.3. Модель тезауруса на основе лингвистической модели "Смысл - Текст".

Раздел 5.4. Математическая модель тезауруса.

5.4.1 Теоретико-множественные операции над тезаурусами.

5.4.2 Некоторые метрики.

5.4.3 Отображение явлений синонимии и омонимии на модель тезауруса.

5.4.4 Подход к разрешению омонимии.

ГЛАВА 6. СИСТЕМА АВТОМАТИЗИРОВАННОГО ФОРМИРОВАНИЯ ЛБЗ.

Раздел 6.1. Базовые технологии.

Раздел 6.2. Архитектура.

Введение 1999 год, диссертация по информатике, вычислительной технике и управлению, Субботин, Алексей Викторович

В настоящее время все больше текстов (книг, энциклопедий, документов) и иной информации создаваемой человеком переносится на электронные носители и число пользователей, заинтересованных в этой информации, постоянно растет. Возможность электронного представления и обработки текстовой информации стала новым фактором, стимулирующим рост ее количества и темпов создания. Уже на 1994 год в одних только Соединенных Штатах Америки с помощью компьютеров ежедневно формировалось более 2,7 миллиардов страниц текста [1]. В нашей стране, несмотря на явное отставание в области применения информационных технологий, в последние годы наблюдается значительное расширение сфер применения компьютерной обработки информации. Например, электронные документы уже стали средством общения граждан и государственных служб и в нашей стране: налоговые декларации за 1998 год принимались в электронном виде, практически все государственные службы принимают обращения граждан по электронной почте.

В связи с вышесказанным, очевидна необходимость систем, обрабатывающих естественный язык (ЕЯ-систем). Такие системы применяются практически во всех областях человеческой деятельности, и решают широкий спектр задач, начиная от поддержки набора текстов, до обработки запросов и генерации текстов и речи на естественном языке (ЕЯ).

На сегодняшний день известно множество областей успешного применения ЕЯ- систем, среди которых наиболее развитыми являются:

• распознавание и генерация текста и речи;

• информационный поиск и управление документооборотом.

Общепризнанным фактом является то, что для достижения приемлемого для большинства задач качества ЕЯ-обработки необходимы специальные информационные массивы, содержащие информацию о языке.

Так, например, практически ни одна система распознавания речи не обходится без информации о статистических свойствах различных слов и их сочетаний в текстах. Более сложные системы применяют элементы синтаксического анализа, который практически неосуществим без наличия синтаксических и морфологических описаний языка.

В современных информационно-поисковых системах (ИПС) интенсивно используется информация о ЕЯ. Такие лингвистические понятия, как морфологический анализатор и словарь1 синонимов (тезаурус) прочно вошли в практику и используются практически во всех современным ИПС.

Основной проблемой создания информационного обеспечения ЕЯ-систем на сегодняшний день является сложность ЕЯ и невозможность полной его формализации. В отличие от формальных языков, которые могут быть полностью и точно описаны (т.е. указано множество возможных конструкций языка и правил их интерпретации), для естественного языка это сделать пока не представляется возможным. ЕЯ является отражением деятельности и внутреннего мира человека, вследствие чего представляет собой неформальную, открытую и постоянно изменяющуюся систему [2]. В связи с невозможностью построения компактной модели ЕЯ, обеспечивающей требуемый уровень качества обработки, часто нужны описания большого количества правил и отдельных языковых явлений.

Практика последних лет показала, что подходы к ЕЯ-обработке, основанные на поверхностной информации о языке, например, статистической, способны обеспечить лишь ограниченный уровень качества обработки (количества правильно распознанных слов, найденных релевантных документов и т.п.). Для повышения качества обработки требуется применение более сложной и лингвистически содержательной информации. Так, применение в системах распознавания речи статистических методов о совместной встречаемости словоформ в тексте позволяет обеспечить до 70-90% правильно распознанных словоформ. Применение же более сложных методов, таких, как локальный синтаксический анализ позволяют улучшить эти результаты до 95% и более.

Ввиду необходимости удовлетворять современным высоким требованиям к качеству ЕЯ-обработки, сложность и объем информационных массивов ЕЯ-систем обычно настолько велики, что для них адекватным является название "база знаний", пришедшее из искусственного интеллекта. Эти базы знаний содержат информацию о языке, поэтому за ними укрепилось название "лингвистических", т.е. "языковедческих". Таким образом в компьютерной лингвистике закрепился

1 Под термином «словарь» в данной работе понимается компьютерный словарь, если явно не оговорено иное. термин "лингвистическая база знаний"(ЛБЗ), который означает совокупность информации о ЕЯ, используемой ЕЯ-системой при ее работе.

В зависимости от решаемых задач, ЛБЗ ЕЯ-системы может включать различные словари, отличающиеся друг от друга глубиной проникновения в структуру описываемого языка и характером содержащейся информации.

Можно выделить несколько уровней глубины проникновения в структуру языка. Поверхностный уровень содержит информацию о «нелингвистических» свойствах языка. Примером компоненты этого уровня может служить частотный словарь орфограмм (последовательностей букв языка), применяемый в текстовых процессорах, для проверки правописания. При проверке, осуществляемой таким образом, ошибка фиксируется при наличии в лексеме не встречающихся или малочастотных орфограмм. Так, например орфограмма «ннн» не встречается в русском языке (за исключение аббревиатур), а ее появление является верным признаком распространенной опечатки. Компоненты лексического уровня содержат информацию об особенностях отдельных слов языка, например их морфологических свойствах или частотности. На синтаксическом уровне представлены знания о правилах связывания лексем в более сложные синтаксические конструкции - словосочетания, предложения, информация о синтаксических свойствах лексем (например, каждой лексеме может быть приписан некоторый синтаксический класс и указаны правила сочетания представителей этих классов в предложении). Семантический уровень содержит информацию о связях понятий проблемной области. Энциклопедический уровень содержит информацию о проблемной области, которая, вообще говоря, уже не относится к лингвистике, однако используется при глубинной обработке текстов, например, при извлечении информации из них [3,4].

Следует отметить, что распределение словарных компонентов по уровням является условным. Так, например, в лексических биграммах содержится информация не только о формах слов, но и о статистических характеристиках их сочетаемости. Поэтому эти словари можно отнести, как к лексическому, так и к синтаксическому уровню.

Поверхностный уровень Словари орфограмм

Лексический уровень Словари словоформ

Частотные словари словоформ

Словари основ и неизменяемых слов

Словари лексических п-грамм

Синтаксический уровень Грамматические словари

Частотно-грамматические словари

Словари грамматических п-грамм

Синтаксические правила

Словари моделей управления

Семантический уровень Словари семантических моделей управления

Тезаурусы

Энциклопедический уровень Проблемно-ориентированные базы знаний

Толковые словари

Таблица 1. Структура ЛБЗ

Формирование ЛБЗ представляет собой процесс сбора лингвистической информации, представления ее в виде, пригодном для автоматической обработки и поддержание этой информации в актуальном состоянии. Сбор лингвистической информации осуществляется на основе источников, которые могут быть классифицированы следующим образом:

• Люди2:

• эксперты-лингвисты;

• рядовые носители языка (в том числе и эксперты в предметной области).

• Тексты:

• описания языка, созданные специалистами;

2 Получение информации от экспертов-лингвистов и рядовых носителей языка может вестись как в непосредственном диалоге с ЭВМ (on-line), так и в пакетном режиме (off-line), когда некоторой программной системой обрабатываются протоколы интервью.

• тексты предметной области.

• Существующие ЛБЗ.

Использование всех этих источников необходимо, поскольку ни один из них не дает полной информации о языке:

• Хотя результаты лингвистических исследований обладают высокой степенью достоверности, они не покрывают весь спектр языковых явлений, которые необходимо описать в ЛБЗ, поскольку осмысление и описание новых языковых объектов и явлений неизбежно отстает от развития языка. Важным фактором, который также надо учитывать при использовании этих источников, является их субъективность, обусловленная, в частности, влиянием на позицию эксперта-лингвиста принадлежности его к той или иной лингвистической школе.

• В отличие от экспертов-лингвистов, рядовые носители языка непредвзяты в своей оценке языковых явлений. Но при этом, даже у экспертов в предметной области хорошее знание терминологии может сочетаться с недостаточной лингвистической компетентностью. Рядовой носитель языка зачастую не может правильно (с лингвистической точки зрения) описать, атрибутировать и классифицировать языковые феномены. В связи с этим следует отметить необходимость участия инженера знаний в процессе получения информации от рядовых носителей языка. Инженер знаний здесь выполняет ту же роль, что и при формировании баз знаний для экспертных систем.

• Строгость лингвистических описаний языка зачастую недостаточна для непосредственной формализации. Даже словарь Зализняка [5], который считается одним из наиболее формальных описаний русской морфологии, все же ориентирован на читателя-человека. К описаниям языка также относятся все замечания, сделанные выше относительно информации, полученной от экспертов-лингвистов, поскольку эти описания представляют собой одну из форм воплощения этой информации.

• Тексты предметной области отражают сегодняшний срез языковой реальности. Однако для получения адекватной информации необходимо использовать большие (представительные) выборки текстов, которые сложно формировать и поддерживать в актуальном состоянии. Обычно ЛБЗ сформированная на основе выборки текстов успешно может быть использована на текстах из этой выборки или очень близких к ним по лингвистическим особенностям -например, тексты того же автора на ту же тему. Хорошим примером может служить эксперимент, проведенный с системой распознавания речи [6,7]. На текстах, публиковавшихся в течении нескольких лет в Уолл-Стрит Джорнал, было произведено обучение распознающей системы (составлены словари п-грамм). После такого обучения система распознавания достаточно хорошо распознавала тесты из Уолл-Стрит Джорнал (даже выпусков, не вошедших в тренировочный корпус). Однако при распознавании тестов из других источников было продемонстрировано существенно более низкое качество распознавания.

• Существующие ЛБЗ создавались в различных концептуальных и технических контекстах. Несовместимость обычно обнаруживается практически на любом уровне: от базовой лингвистической модели до кодировки символов.

Проблему формирования ЛБЗ обостряют также следующие моменты:

• Большой объем и сложность ЛБЗ.

• Значительная часть компонентов ЛБЗ, наиболее сложных и трудоемких для формирования, эффективно может быть использована только для подъязыка достаточно узкой проблемной области.

В силу указанных причин критической проблемой в области ЕЯ-обработки является проблема формирования лингвистических баз знаний (ЛБЗ). Как отметил академик Ершов в эпиграфе к книге [8], посвященной проблемам построения Машинного фонда русского языка - совокупности ЛБЗ, централизованно поддерживаемой и пополняемой в государственном масштабе, "Любой прогресс в области построения моделей и алгоритмов останется академическим упражнением, если не будет решена наиважнейшая задача создания Машинного фонда русского языка". К сожалению, в связи с общей тяжелой экономической ситуацией, создание Машинного фонда русского языка так и не было завершено. В результате, на сегодняшний день ситуация практически не изменилась.

Проблема формирования ЛБЗ является частью глобальной проблемы передачи человеческих знаний вычислительным машинам, решению которой посвящена область, называемая инженерией знаний. I

В силу необходимости привлечения экспертов, формирование ЛБЗ не может быть полностью автоматическим. Поэтому, ввиду объема и сложности ЛБЗ актуальной является проблема автоматизированного формирования. Под автоматизированным формированием ЛБЗ понимается совместная работа экспертов, инженеров знаний и вычислительных машин по формированию ЛБЗ.

Следует отметить, что формирование ЛБЗ является специальным видом ЕЯ-обработки.

Для каждого из указанных выше видов источников нужны свои специфичные способы извлечения лингвистической информации. В зависимости от особенностей используемых источников и формируемой ЛБЗ применяются различные методы обработки исходных данных, эвристики извлечения информации и их комбинации, а процесс формирования ЛБЗ является процессом достаточно сложным, трудоемким, насыщенным экспериментами. На сегодняшний день интеграция различных методов и технологических приемов становится необходимым условием успешного решения задачи автоматизированного формирования ЛБЗ.

При этом дают наибольший эффект и представляют наибольшую трудность для применения методы основывающиеся на различных, часто далеких друг от друга подходах. Так, например, комбинация статистических методов и методов локального синтаксического анализа позволяет обеспечить точность обработки свыше 94% в системах распознавания речи.

Такое сочетание открывает новые технологические возможности по сопровождению ЕЯ-систем. Если в системе используется только статистическая информация, то для отслеживания изменений в ЕЯ, приходилось бы довольно часто собирать и поддерживать представительные корпусы текстов для обновления статистики. Если используется только синтаксическая информация, то она отражает более фундаментальные закономерности и поэтому изменяется реже. Однако и изменение такой информации представляет собой более сложный процесс, требующий привлечения специалистов. Совместное использование двух видов информации может позволить увеличить интервалы между пересмотрами ЛБЗ профессиональными лингвистами, поскольку изменения в языке будут отражаться в более легко извлекаемой статистической информации. С другой стороны снижаются расходы на подготовку и сбор статистической информации, поскольку наиболее сложная информация, точность которой критична и для сбора требуется большой объем тренировочного корпуса текстов, представлена в синтаксических компонентах ЛБЗ.

Аналогичные тенденции, однако, гораздо более ярко выраженные, наблюдаются и в области автоматизированного формирования ЛБЗ. На сегодняшний день интеграция различных методов становится необходимым условием успешного решения этой задачи.

Следующие трудности интеграции различных методов обработки являются наиболее существенными:

• Отсутствие целостных подходов к интеграции различных методов, соответствующих лингвистических и математических моделей.

• Реализация различных методов формирования ЛБЗ ведется на базе различных информационных технологий, часто без опоры на стандарты, что существенно затрудняет их интеграцию.

Целью настоящей работы является обобщение опыта интеграции различных методов автоматизированного формирования некоторых компонентов ЛБЗ (тезауруса, грамматического словаря и словаря n-грамм) в целостный подход, создание моделей, на базе которых могут быть интегрированы различные методы, и описание принципов компьютерной реализации системы автоматизированного формирования ЛБЗ.

Предлагаемый подход предполагает:

1. Построение метамодели ЛБЗ (МЕТАМОДЕЛИ), то есть унифицированного средства представления структуры ЛБЗ и процесса ее формирования.

2. Создание системы автоматизированного формирования ЛБЗ (САФЛБЗ), реализующей МЕТАМОДЕЛБ.

При наличии такой МЕТАМОДЕЛИ и САФЛБЗ интеграция осуществляется следующим образом:

1. Структура формируемой ЛБЗ отображается на МЕТАМОДЕЛБ.

2. Алгоритмы формирования ЛБЗ отображаются на МЕТАМОДЕЛБ.

3. Реализации алгоритмов формирования ЛБЗ интегрируются в САФЛБЗ.

Текст диссертации включает введение, шесть глав, заключение, список литературы и приложения.

Заключение диссертация на тему "Автоматизированное формирование лингвистических баз знаний"

Результаты работы использованы при выполнении НИР по теме «Программно-информационное обеспечение обработки текста в интегрированных информационных системах» (подпрограмма «Информатизация России» - шифр проекта 037.01.178.23, Гос. per. № 01.9.80 003341).

Практическая значимость данной работы подтверждается результатами экспериментов с системой распознавания речи, разрабатывавшейся в рамках договора о сотрудничестве между факультетом вычислительной математики и кибернетики МГУ им. М.В. Ломоносова и американской компанией Accent,Inc. в 1995-1996 гг. (за счет применения методов, описанных в третьей главе диссертации, было зафиксировано устойчивое повышение надежности распознавания на 1-2% при исходном уровне в 93-94%), а также эксплуатацией прототипов системы автоматизированного формирования ЛБЗ при построении специализированного информационно-поискового тезауруса.

Созданная метамодель может применяться для унифицированного представления различных методов обработки лингвистической информации.

Библиография Субботин, Алексей Викторович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Church K.W., Rau L.F. Commercial Applications of Natural Language Processing // Communications of the ACM, November 1995/Vol.38, No.l 1, pp. 71-79.

2. Мальковский М.Г. Программно-информационное обеспечение адаптивных систем общения с ЭВМ на естественном языке Дисс. . докт. физ-мат. наук, -МГУ, 1990.

3. Кузнецов И.П., Мацкевич А.Г. Методы поиска похожих объектов и событий на основе признаков и связей // Тр. Международного семинара ДИАЛОГ'99 по компьютерной лингвистике и ее приложениям Таруса, 1999 - С. 164-171.

4. Тотков Г., Танев X. Компьютеризированное извлечение значения слов с помощью анализа связного текста// Тр. Международного семинара ДИАЛОГ'99 по компьютерной лингвистике и ее приложениям Таруса, 1999 - С. 360-365.

5. Зализняк А.А. "Грамматический словарь русского языка" М.: Русский язык, 1977.

6. Мальковский М.Г., Волкова И.А., Пильщиков В.Н. и др. Лингвистический процессор в системе распознавания устной речи // Тр. Международного семинара ДИАЛОГ'96 по компьютерной лингвистике и ее приложениям М., 1996 -С. 149-150.

7. Malkovsky М. NL-Processor in a Speech Recognition System // On-line Conference "Speech Synthesis and Analysis" 1997 - http://www.ksu.ru/science/fccl/index.html

8. Машинный фонд русского языка: идеи и суждения (Под ред. Ю.Н. Караулова) -М.: «Наука», 1986.

9. Kukolich L., Lippmann R. LNKnet User's Guide, MIT Lincoln Laboratory, May, 1999.

10. Ronald A. Cole, Joseph Mariani, Hans Uszkoreit, et al (editors). Survey of the State of the Art in Human Language Technology, 1995. (ftp://speech.cse.ogi.edu/pub/docs/ HLT/).

11. Petheroudakis J. MORPHOGEN automatic generator of morphological information for base form reduction. Technical report, Executive Communication Systems ECS, Provo, Utah, 1991.

12. Лукашевич H.B. Автоматизированное формирование проблемно-ориентированных баз знаний в системах общения с ЭВМ на естественном языке Дисс. канд. физ-мат. наук. - МГУ, 1989.

13. Тезаурус информационно-поисковый одноязычный: Правила разработки, структура, состав и форма представления, ГОСТ 7.25-80.

14. Лукашевич Н.В. Разрешение многозначности терминов в процессе автоматического индексирования// Тр. Международного семинара ДИАЛОГ'96 по компьютерной лингвистике и ее приложениям М., 1996 - С. 142-146.

15. С. Cardie, S. Mardis Proposal for a Framework for the High-Precision Identification of Linguistic Relationships, Cornell CS Technical Report TR97-1653,1997.

16. H. Chen, T. Yim, D. Fye, B. Schatz Automatic Thesaurus Generation for Electronic Community System // Journal of the American Society for Information Science, Vol. 46, April 1995 (Number 3), pp. 175-193.

17. Jing Yufeng, Croft W. Bruce, An Association Thesaurus for Information Retrieval, Technical Report UMASS-CS-94-17 (IR-47), University of Massachusette, 1994.

18. Q. Yuan, I. Chang IT Thesaurus Construction the Methodology and Observations - IASTED International Conference on Software Engineering, 1997. (http://pride-i2.poly.edu/~qmyz/papers/iasted/iaspap.html)

19. B. J. Dorr, D. Jones, Automatic Extraction of Semantic Classes from Syntactic Information in Online Resources, UMIACS-TR-95-65, January 1996.

20. B. Levin English Verb Classes and Alternations: A Preliminary Investigation The University of Chicago Press, 1993.

21. M. Hearst Automatic Acquisition of Hyponyms from Large Text Corpora, Proceedings of the 14th International Conference on Computational Linguistics, 1992, pp. 539-545.

22. WordNet a Lexical Database for English, Cognitive Science Laboratory, Princeton University, 221 Nassau St. Princeton, NJ 08542 (http://www.cogsci.princeton.edu/~wn/w3wn.html)

23. Кузнецов И.П., Козеренко Е.Б. Поиск языковых универсалий для лингвистического моделирования на расширенных семантических сетях // Тр. Международного семинара ДИАЛОГ'99 по компьютерной лингвистике и ее приложениям Таруса, 1999 - С. 157-163.

24. Retrieval Ware 6.0 System Administrator's Guide, Excalibur Technologies Corporation, 1997.

25. Мальковский М.Г. Диалог с системой искусственного интеллекта М: МГУ, 1985.

26. Ахтырченко К.В., Леонтьев В.В. Распределенные объектные технологии в информационных системах // СУБД, №5-6, 1997 (http://www.osp.ru/dbms/1997/0506/52.htm).

27. Сухомлин А.В. Методологический базис открытых систем // Открытые системы, №4, 1996 (http://www.osp.ru/os/1996/04/48.htm).

28. Логический подход к искусственному интеллекту. От модальной логики к логике баз данных /Пер. с франц. Гаврилова Г.П., Пермякова П.П., Ивановой А.А. под ред. Гаврилова Г.П. М.: «Мир», 1998.

29. L.A. Zadeh Fuzzy Set // Information and control, 1965, No.8, pp. 338-353.

30. L.A. Zadeh Outline of new approach to the analysis of complex systems and decision process // IEEE Transactions on SMC, 1973, Vol.3, No. 1, pp. 28-44.

31. К. Хоггер Введение в логическое программирование /Пер. с англ. М.: «Мир», 1988.

32. T.P. Martin, J.F. Baldwin, B.W. Pilsworth The implementation of FPROLOG A fuzzy Prolog interpreter // Fuzzy Sets and Systems, 1987, №23, pp.119-129.

33. Прикладные нечеткие системы: Пер. с япон./ К. Асаи, Д. Ватада, С. Иван и др.; под редакцией Т. Тэрано, К. Асаи, М. Сугэно М.: «Мир», 1993.

34. W. Royce Software Project Management: A Unified Framework Addison-Wesley, 1998.

35. А. Горбань , Д. Россиев Нейронные сети на персональном компьютере -Новосибирск: «Наука», 1996.

36. А. Зельцер PolyAnalyst решает задачи интеллектуального анализа данных // Computer Weekly, №46, 1996.

37. Н. Nomura, I. Hayashi, N. Wakami A Learning Method of Fuzzy Inference Rules by Descent Method // Proceeding IEEE International Conference on Fuzzy Systems, San Diego, 1992, pp. 203-210.

38. W. Pedrycz, H.C. Card Linguistic Interpretation of Self-Organizing Maps, Proceedings IEEE International Conference on Fuzzy Systems, San Diego, 1992, pp. 371-378.

39. H.B. Berenji A Reinforcement Learning-Based Architecture for Fuzzy Logic Control // Int. J. Aproximate Reasoning, 1992, pp. 267-292.

40. Р.Г. Пиотровский Текст, машина, человек JI.: «Наука», 1975.

41. Сухотин Б.В. Исследование грамматики числовыми методами /Отв. ред. А.А.Зализняк; АН СССР Ин-т рус.яз. М.: Наука, 1990.

42. М. Брой Информатика. Основополагающее введение; в 4-х ч. Ч.З /Пер. с нем. -М.: Диалог-МИФИ, 1996.

43. High-level Petri Nets Concepts, Definitions and Graphical Notation / Committee Draft ISO/IEC 15909, ver. 3.4, 1997.

44. Marvin Minsky A Framework for Representing Knowledge // Massachusetts Institute of Technology, Artificial Intelligence, Memo No. 306, 1974.

45. Шаров С.А. Инструментальная среда для разработки лингвистических процессоров. Дисс. . канд. физ-мат. наук. - Москва, 1997.

46. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на С++, 2-е изд. / Пер. с англ. М: «Издательство Бином», СПб: «Невский диалект», 1998.

47. Ivar Jacobson Object-Oriented Software Engineering: A Use Case Driven Approach Addison-Wesley Publishing Company, 1993, ISBN 0-201-54435-0

48. J. Rumbaugh, et al. Object-Oriented Modeling and Design Prentice Hall, 1991.

49. OMG Unified Modeling Language Specification, Version 1.3, June 1999.

50. Марка Д., МакГоуэн К. Методология структурного анализа и проектирования: Пер. с англ. М.: 1993.

51. Initial UML Submission to AD RFP-1 //OMG document ad/97-01-12

52. Интернет-сайт компании MicroGOLD производителя WithClass'99: www.microgold.com.

53. Изралевич E.E., Качалова K.H. Практическая грамматика английскогоязыка М.: ВНЕШТОРГИЗДАТ, 1953.

54. Пильщиков В.Н. Язык плэнер М.: Наука, 1983.

55. Страуструп Бьярн Язык программирования С++. Вторая редакция Киев: Диасофт, 1993.

56. Мальковский М.Г., Волкова И.А. Анализатор системы TULIPS-2. Морфологический компонент. // Вестник МГУ, сер. 15, 1981, N 1. С. 70 -76.

57. Мальковский М.Г., Субботин A.B. Построение лингвистических баз знаний для прикладных систем обработки текста и речи // Программа научной конференции Ломоносовские чтения'97 с.81.

58. Мельчук И.А. Опыт теории лингвистических моделей «Смысл-Текст». Семантика, синтаксис М.: «Наука», 1974.

59. Robert Orfail, Dan Hakrey, Jeri Edwards The Essential Distributed Objects Survival Guide John Wiley&Sons, Inc., 1996.

60. D. Flanagan Java in a Nutshell. A Desktop Quick Reference O'Reilly, 1997.

61. A. Pope The CORBA Reference Guide: Understanding the Common Object Request Broker Architecture Addison-Wesley, 1998.

62. CORBA/HOP 2.3.1 Specification // OMG document formal/99-10-07.

63. CORBA Services complete book // OMG document formal/98-12-09.

64. CORBAFacilities Architecture Specification // OMG document formal/98-07-10.

65. F. E. Redmond III DCOM: Microsoft Distributed Component Object Model IDG Books Worldwide, 1997.

66. D. Chappell Understanding ActiveX and OLE Microsoft Corporation, 1996.

67. J. Edwards, "3-Tier Client/Server At Work" — John Wiley&Sons Inc., 1997.

68. The Workflow Reference Model // Workflow Management Coalition document WFMC-TC-1003, 19-Jan-95, ver. 1.1 (http:// www.aiim.org/wfmc/standards/docs/ tc003vll.pdf).

69. OMG BODTF RFP#2 Submission Workflow Management Facility, Draft Revised Submission, May, 1998 // OMG document bom/98-05-04.

70. Thomas J. Mowbray, Ron Zahavi The Essential CORBA: Systems Integration Using Distributed Objects John Wiley & Sons, Inc., 1995.