автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Концептуально-лингвистическое моделирование в интеллектуальных системах на основе расширенных семантических сетей

кандидата филологических наук
Козеренко, Елена Борисовна
город
год
1995
специальность ВАК РФ
05.13.17
Автореферат по информатике, вычислительной технике и управлению на тему «Концептуально-лингвистическое моделирование в интеллектуальных системах на основе расширенных семантических сетей»

Автореферат диссертации по теме "Концептуально-лингвистическое моделирование в интеллектуальных системах на основе расширенных семантических сетей"

Р Г Б ОД

2 8 АВГ 1995 На правах рукописи

Козеренко Елена Борисовна

Концептуально-лингвистическое моделирование в интеллектуальных системах на основе расширенных семантических сетей

Специальность: 05.13.17 - Теоретические основы информатики

Автореферат

диссертации на соискание ученой степени кандидата филологических наук

На правах рукописи

Козеренко Елена Борисовна

Концептуально-лингвистическое моделирование в интеллектуальных системах на основе расширенных семантических сетей

Специальность: 05.13.17 - Теоретические основы информатики

Автореферат

диссертации на соискание ученой степени кандидата филологических наук

Работа выполнена в Институте проблем информатики РАН

Научный руководитель доктор технических наук Кузнецов Игорь Петрович

Официальные оппоненты доктор технических наук, профессор Шемакин Юрий Иванович доктор филологических наук Белецкая Ирина Платоновна

Ведущая организ а'ц и я Институт русского языка РАН

Защита состоится 17 сентября 1995 года в 10 часов на заседании диссертационного совета Д 003. 02.01 во Всероссийском институте научной и технической информации по адресу: 125219. Москва, ул. Усиевича, д. 20 а /Ссл-1,5~02~

С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации.

т. -.35*

Автореферат разослан "Ш"

1995 г.

Ученый секретарь диссертационного совета

доктор биологических наук, профессор

Каменская Марина Александровна

I. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В связи с широким внедрением новых информационных технологий практически во все сферы человеческой деятельности особенно актуальной становится проблема организации эффективного и удобного взаимодействия с ЭВМ конечных пользователей, являющихся специалистами в различных областях знаний. Оперативный доступ к содержательной информации ' является жизненно важным для пользователей, занимающихся аналитической работой, связанной с изучением больших массивов текстовой информации, например, в сферах социально-политического прогнозирования, административного и финансово-экономического управления и др. Для этого создаются различные системы, обеспечивающие работу со знаниями (экспертные, информационно-поисковые, и т. п.).

Важнейшей составляющей интеллектуальных систем, основанных на знаниях, является их лингвистическое обеспечение. Эти системы в большей степени, чем'другие ориентированы на пользователей-непрограммистов, а из этого вытекают повышенные требования к "естественности" языка общения. Во многих странах мира эта проблематика включена в национальные программы как одна из наиболее приоритетных в деле информатизации общества.

Интенсивньй рост объемов международных коммуникаций и накопление огромных массивов информации по . различным отраслям знаний в виде текстовых файлов на разных естественных языках (в первую очередь, европейских) делают особо актуальной ориентацию лингвистического обеспечения на работу в многоязычной ситуации. Это означает поддержку такого режима работы интеллектуальной системы, который позволял бы получать доступ к знаниям, введенным на одном естественном языке, посредством запросов, формулируемых на другом естественном языке.

При создании естественно-языковых компонент интеллектуальных систем требуется предварительная разработка модели естественного языка (исходя из конкретных требований решаемой задачи), а также механизмов отображения предложений естественного языка' во внутренние структуры знаний. Самой

трудной для моделирования является область семантики. До настоящего времени нет единого подхода к ее описанию, при этом очень мало исследованы возможности создания многоязычных интеллектуальных систем.

В Институте проблем информатики РАН разработан ряд интеллектуальных инструментальных средств, реализованных на основе аппарата расширенных семантических сетей, поддерживающих общение с пользователем на естественном языке. На базе этих средств создаются прикладные экспертные, консультационные и другие системы, основанные на знаниях, при разработке которых с необходимостью встают задачи как построения их лингвистического обеспечения, так и концептуального моделирования. Представляется целесообразным разработать методику организации этих процессов для обеспечения их технологичности. а также выработать унифицированный метод представления смысла высказываний (для ограниченного подмножества естественного языка) в многоязычной ситуации.

Цель работы состоит в исследовании и разработке методики концептуально-лингвистического моделирования, а также построении унифицированной семантико-синтаксической модели ограниченного подмножества естественного языка, предназначенной для эффективного построения лингвистического обеспечения интеллектуальных систем в условиях многоязычной ситуации.

Для достижения указанной цели в диссертационной работе решаются следующие основные задачи:

- провести анализ существующих подходов к моделированию естественного чязыка и выработать требования к представлению лингвистических знаний в интеллектуальных системах, основанных на расширенных семантических сетях;

- -определить характеристики представляемого подмножества естественного языка;

- выработать методику, построения естественно-языковой модели предметной области, основанную на синтезе процессов концептуального и лингвистического моделирования;

-'развить предлагаемую методику в многоязычной ситуации, для чего выявить и исследовать наиболее

релевантные для концептуально-лингвистического моделирования языковые объекты в системах русского, английского и итальянского языков и построить унифицированную семантико-синтаксическую модель предложения;

- разработать на базе предлагаемых методов' прикладные концептуально-лингвистические оболочки для конкретных предметных областей.

Методы исследования. Для решения поставленной задачи использовались методы разработки систем искусственного интеллекта: аппарат расширенных семантических сетей, элементы теории исчисления предикатов, структурной лингвистики, когнитологии (инженерии знаний), теории формальных грамматик.

Научная новизна работы.

1) Проведен анализ существующих подходов к моделированию естественного языка и выработаны требования к представлению лингвистических знаний в интеллектуальных системах, основанных на расширенных семантических сетях:

2) Определены характеристики представляемого подмножества естественного языка, являющегося разновидностью деловой прозы: функционального стиля экспертных знаний;

3) На основе синтеза концептуального и лингвистического подходов к построению модели предметной области разработана новая методика организации процесса концептуально-лингвистического- моделирования в интеллектуальных системах, реализованных на базе аппарата расширенных семантических сетей, поддерживающих естественноязыковой доступ к знаниям;

4) Построена базовая структурная иерархически-сетевая модель лексической семантики, служащая основой для концептуально-лингвистических моделей конкретных предметных областей. обеспечивающая возможность эффективного расширения;

5) Исходя из результатов ст'руктурно-контрастивного анализа русского. английского и итальянского языков, выработан новый унифицированный метод представления в базе лингвистических знаний интеллектуальной системы семантико-синтаксических отношений между элементами предложения, основывающийся на гибридной падежно-реляционной

грамматике, отражающий общность основных концептуализации в этих языках.

Практическая ценность и реализация результатов работы.

Основными практическими результатами диссертационной работы являются: прикладная интеллектуальная система, основанная на знаниях в области социально-политического прогнозирования, идеографический словарь (тезаурус) проблемной области социально-политического прогнозирования, служащий основой этой системы; прикладная русско-английская информационная система по административной организации научного учреждения; ряд концептуально-лингвистических оболочек для конкретных предметных областей; унифицированный метод построения глубинных семантических представлений в базе знаний интеллектуальной системы, обеспечивающий создание алгоритмов лингвистического анализа в многоязычной ситуации.

Предложенная методика концептуально-лингвистического моделирования дает технологическую основу для разработки естественно-языковых моделей предметных областей в интеллектуальных системах, работающих в реальном времени; при этом .обеспечивается гибкий доступ к знаниям по естественноязыковым запросам в произвольной форме, реализущий возможность ассоциативного поиска.

Работа проводилась в рамках следующих тем:

ЛОГОС-Д - "Создание программных средств логико-лингвистического анализа естественно-языковых текстов для организации интеллектуального интерфейса с базами знаний", основанием для разработки которой являлся Единый план МНТК "ПЕРСОНАЛЬНЫЕ ЭВМ". (п. 5. 5.5), утвержденный ГКНТ СССР от 2.04.91 за N426.

- ИКС - "Создание интеллектуального редактора знаний с естественно-языковым интерфейсом", данное направление находится в русле перспективных исследований в области новых информационных технологий Российской Академии наук.

Апробация работы.

• Основные ■ результаты диссертационной работы докладывались на научно-техническом семинаре "Методы и средства представления знаний" (г. Ленинград, 1990г.), на

международном семинаре "Бионика интеллекта" (г. Харьков, 1991г.), на международной школе-семинаре по искусственному интеллекту 1АЗА1-91 (г. Туапсе, 1991г.), на международном семинаре "Знание-Диалог-Решение" (г. Светлогорск, 1.992г.), на международной конференции "Восток-Запад" по ' проблемам использования искусственного интеллекта в образовании (г. Москва, МЦНТИ, 1992), на международном семинаре "Знание-Диалог-Решение" (г.Киев, 1993г.). на международной конференции "Восток-Запад: Компьютерные технологии в образовании" (1994, Крым, Украина), на международной конференции "Лингвистика на исходе XX века" (г. Москва. 1995 г.), на международной конференции "Диалог-95" (г. Казань, 1995 г.), на научных семинарах Института проблем информатики РАН (г. Москва, 1989-1995гг.)

Публикации.

По теме диссертации опубликовано 7 научных работ.

Структура и объем работы.

Диссертация состоит из введения. четырех глав, заключения, списка литературы (123 наименования) и трех приложений. Общий объем работы 142 страницы машинописного текста, 2 таблицы, 25 рисунков.

II. ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ.

Во введении отмечается актуальность проводимых исследований, сформулированы цель и задачи исследования, научная новизна и практическое значение диссертационной работы. - приводится краткое содержание глав диссертации.

В первой главе дается анализ современных подходов к моделированию естественного языка и существующих интеллектуальных систем с естественно-языковым (ЕЯ) интерфейсом, показана возрастающая роль ЕЯ компоненты в новых информационных технологиях.

Проблема создания средств для формализации и представления смысла естественно-языкового текста изучалась в рамк'ах трех основных направлений: первое ориентировано на задачи машинного перевода, второе занимается разработкой естественно-языковых интерфейсов для баз данных, третье -наименее исследованное - связано с построением ограниченных

подмножеств естественного языка для ввода экспертных знаний и общения с интеллектуальными системами. Область наших исследований лежит в русле последнего направления, однако, целесообразным представляется более широкое изучение подходов к моделированию смысла.

В данной работе также используются некоторые подходы смежной области - концептуального моделирования (Осипов Г.С., Михновский С.Д. и др.), целью которого является разработка методических и технологических основ для построения моделей предметных областей.

Известной как среди лингвистов, так и среди разработчиков различных информационных систем является модель "Смысл - Текст", ' предложенная И. А. Мельчуком. Ее основная идея: смысл есть инвариант всех синонимичных преобразований, т.е. то общее, что имеется в равнозначных текстах. Работы группы Э.Ф. Скороходько в Киеве положили начало инженерному направлению в моделировании смысла,1 получившему название "ситуационного управления" (Ю.И. Клыков, Д.А. Поспелов). Характерным для данного подхода можно считать моделирование смысла текста в языке бинарных отношений - триад вида R(a,b). H.H. Леонтьевой был предложен подход, моделирующий предикатно-актантные связи• по валентности"). В начале 80-х годов был предложен формализм "ассоциативной сети" (Э. В. Попов, Г. С. Цейтин). В работах Ю. Д. Апресяна в значительной степени' используются синтактико-семантические свойства слов, "модель управления". Работы по созданию информационно-лингвистического процессора, ведутся группой под руководством М.Г. Мальковского._ Методика извлечения из естественно-языкового текста его концептуального содержания представлена в работах Ю. И. ТИемакина. Модель терминологической системы в виде интеллектуального тезауруса предложена В. Ш. Рубашкиным.

Среди современных отечественных систем, построенных на базе модели "Смысл - Текст" можно выделить лингвистический процессор системы ЭТАП-2 (Ю. Д. Апресян и др.), лингвистический процессор системы ПОЭТ (Э.В. Попов), которую следуёт отнести к модели "Смысл - Текст - Действительность". Широко известны также естественноязыковые системы общения с

базами данных, выполненные коллективами разработчиков под руководством А.С. Нариньяни.

Исследования зарубежных авторов по данному кругу проблем ведутся очень интенсивно и имеют прочную традицию. Существуют следующие ставшие уже классическими модели семантики.

Одной из первых моделей был компонентный анализ (Катц, Фодор), который исходит из предпосылки, что семантика естественных языков может быть адекватно выражена в терминах конечного неструктурированного набора семантических множителей (атомов смысла). Н. Хомский ввел понятия глубинной и поверхностной структур, рассматривая предложения естественного языка с точки зрения процесса порождения поверхностных структур из глубинных. Следующий этап разработки языка для записи смысловых структур связан с работами Ч.Филлмора, указавшего роли аргументов в аргументной структуре предиката ("семантические падежи") и предложившего концепцию пресуппозиции. "Семантики предпочтения" выдвинуты Уилксом: сообщения рассматриваются как смыслоопределяющий конструкт. который снимает неоднозначность каждого слова, входящего во фрагмент. В основе модели концептуальной зависимости (КЗ) Р. Шенка лежит сеть концептуализаций, являющаяся квазиграфом. В рамках КЗ реализованы лингвистические процессоры таких систем как MARGIE (RiesbecK). BORIS (Dyer).

Современные работы в значительной мере основаны на указанных подходах, при этом в их моделях прослеживается отчетливая тенденция к интеграции синтаксиса и семантики.

В настоящее время в Римском исследовательском центре IBM разрабатывается система анализа и порождения итальянских текстов (П. Веларди. М.Т. Пацьенца. М. Де'Джованетти). основанная на "концептуальном лексиконе" дескрипций смыслов слов в виде расширенных падежных 'фреймов, представляющих собой поверхностно-семантические шаблоны, сочетающие семантическую и синтаксическую информацию.

Перспективным является новое направление, разрабатывающее комбинированные семантико-еинтаксические системы (Kaplan. Barwise). Разрабатывается концепция

интегральной обработки (Шенк и Бирнбаум). суть которой состоит в том, что синтаксические и семантические структуры обрабатываются одновременно, в ходе одного и того же процесса, и обработка языковых сообщений по своей природе тождественна обработке памяти.

Этот подход представляется особенно продуктивным, если принимать во внимание то обстоятельство, что в ряде случаев один и тот же смысл может передаваться либо лексическими, либо синтаксическими, либо морфологическими средствами естественного языка.

В рамках этого . подхода строится концептуально-лингвистическая модель,- развиваемая в семействе интеллектуальных систем,, основанных на аппарате расширенных семантических сетей (Кузнецов И.П.), где представление текста дается в виде иерархической пропозициональной сети.

Во второй главе главе дается описание методики концептуально-лингвистического моделирования (КЛМ) в естественно-языковых интеллектуальных системах: экспертных системах (ЭС), базах знаний (БЗ), построенных на основе расширенных семантических сетей (РСС).

КЛМ - это это процесс построения естественно-языковой модели предметной области_(П0), синтезирующий в себе подходы концептуального и лингвистического моделирования.

Построение концептуально-лингвистической модели некоторой ПО, подразделяется на следующие этапы:

■- построение собственно концептуальной модели. •т.е. вычленение базовых понятий, организация их в родо-видовые деревья и определение связей между ними;

- разработка идеографического 'словаря предметной области, т.е. лексическое наполнение концептуальной модели;

- ввод базовых, правил, описывающих на естественном языке "модель мира", релевантную для данной ПО.

Методика концептуально-лингвистического моделирования на основе аппарата РСС базируется на следующих принципах:

1." Модель додана быть "открытой", то есть поддерживать эффективный механизм -расширения и обновления информации;

2. Модель представления "смысла" должна учитывать не только значения слов, но' и факты экстралингвистической

реальности, которые в виде правил и отношений составляют некоторую базовую "модель мира", достраиваемую конкретными моделями предметных областей.

3. Модель должна быть ' практичной, то есть не перегруженной детальными описаниями связей и отношений между понятиями, чтобы обеспечить возможность ее реализации, но в то же время, отражать всю релевантную для конкретной задачи информацию. -

Реалистический подход .к постановке задачи диктует необходимость ограничения моделируемого подмножества естественного языка. Суть ограничений сводится к следующему: во-первых, анализируемые текстовые материалы относятся к функциональному стилю деловой прозы: они содержат экспертные знания из конкретных предметных областей (диагностика брака при изготовлении микросхем, социальное прогнозирование, организационная структура учреждений и др.); .

- во-вторых, в целях максимально возможного устранения неоднозначности,- словарь строится по модульному принципу: есть некоторая наиболее общая часть (1-2 иэовня). которая достраивается специальными словарями для каждой отдельной предметной области (Рис. 1).

Дается описание особенностей представления лингвистических и предметных знаний на РСС. которое созвучно с идеями интегрального подхода, хотя здесь синтаксис и семантика обрабатываются по типу одновременного логически перемежающегося процесса, в котором существует разграничение между механизмами распознавания морфологической и семантической информации. Этап морфологического анализа является подготовительным для последующих процедур синтактико-семантического анализа.

Предлагаемая модель отчасти использует идею разложимости лексического значения, слова нж меньшие составляющие ("семы", "атомы смысла" и т.п.), но. в отличие от компонентного анализа, ставящего своей целью дать исчерпывающее представление каждой лексической единицы в виде набора конституирующих ее сем (что на уровне предложения приводит к очень громоздким построениям).

основной принцип в нашем случае г использование "ядерного" значения, реализуемого в контексте данной предметной области, и, затем индуктивного наращивания других значений (если они актуализируются в рассматриваемых контекстах). Также широко используется идея пресуппозиций, которые реализуются в виде иерархических деревьев классов слов (от более общего - к частному)._ Основным подходом к анализу является текстологический, рассматривающий текст как глобальную связную структуру.

Общая "модель мира" системы служит основой для моделей ПО. Элементами этой модели являются классы слов, которые подразделяются на - понятия/имена, - отношения, ~ действия, - свойства, - характеристики действий, временные и пространственные характеристики.

Самым общим понятием является концепт, или универсальный класс, который подразделяется на объект, ситуацию, процесс и др. Таким образом строится базовая "модель мира" системы, имеющая иерархическую структуру.

Слова, относящиеся к классам действий и отношений, представлены как сешнтико-сиктаксические фреймы, задающие предикатно-актантные структуры (модель управления). Однако, в описываемом подходе . (назовем его РСС-подход) существенно расширена область значений актантов. Суть расширения состоит, во-первых, в том, что в роли актантов могут выступать не только простые объекты, 'соответствующие отдельным словам, но и структурные объекты, представляющие словосочетания и фразы, а во-вторых, в том. что понятие "падежа" включает в себя не только семантические, но и синтаксические (в традиционно-лингвистическом понимании) признаки, и является существенным отличием описываемой здесь модели от других.

Подход, основанный на РСС, позволяет отражать произвольный уровень вложенности структур за счет пропозициональных вершин семантической сети, что4 обеспечивает представление сложных синтаксических конструкций фраз-ЕЯ. а также позволяет отразить структурный характер лексической' семантики, которая в предлагаемой модели имеет иерархически-сетевую структуру.

При построении модели ЕЯ язык рассматривается не только как- система (парадигматический аспект), но и как речь, процесс (синтагматический аспект). Для изучения второго аспекта проведен анализ большого корпуса связного текста.

Моделирование смысловых представлений - это процесс развивающийся в направлении от поверхностных семантических структур - к глубинным. Поиск такого внутреннего представления смысла в условиях многоязычной ситуации является развитием методов концептуально-лингвистического моделирования на базе расширенных семантических сетей.

В третьей главе строится модель глубинной семантики для создания лингвистического обеспечения интеллектуальных систем, работающих в условиях многоязычной ситуации. В качестве исходного материала для сопоставительного исследования были использованы наиболее употребимые и релевантные для лингвистического моделирования объекты трех европейских языков: русского, английского, итальянского. Целью анализа было выявление смысловых структур, инвариантных для указанных языков, и систематическое описание средств выражения этого смысла на поверхностном уровне.

В качестве метода лингвистического исследования использован структурно-контрастивный анализ. При -этом наше исследование направлено на конкретную цель: построение работающей структурно-семантической модели для сегодняшних задач информационных технологий.

Глубинная структура, представленная нелинейно, требует определенных правил организации предложений на поверхностном уровне. Предложения с очень различными ' поверхностными структурами могут иметь одинаковые глубинные структуры и наоборот.

Семантика и часть синтаксиса приравниваются к глубинной структуре, а оставшаяся часть синтаксиса и морфология - к поверхностной структуре. Термины типа . "подлежащее" и "сказуемое" относятся к поверхностной структуре, тогда как "агент" и "объект" - к глубинной. Из всех разнообразных интерпретаций глубинной структуры концепция семантических падежей Филлмора представляется наиболее продуктивной.

В глубинном синтаксисе единицы линейно не ограничены.' Ограничения накладываются только на их иерархическое расположение. Линейные ограничения получают описание в грамматике каждого конкретного языка.

Основная единица членения речи - предложение (Б), она же является структурной макроединицей смысла и разложима на составные части. Как глубинная единица смысла предложение разлагается на модальность и пропозицию. Как единица речи -на члены предложения. Каждый член предложения может »быть простым (т.е. выражен одним словом), структурным (выражен

- словосочетанием или однородными членами), и композиционным (выражен придаточным предложением). Структурные и композиционные члены предложения выполняют те же функции, что и соответствующие им простые члены предложения.

В предлагаемой нами модели все типы распространенных и сложных предложений с подчинением и сочинением сводимы к основному типу, который мы назовем "идеальным предложением".

Сравнительное изучение типов предложений в ряде европейских языков (английском, русском и итальянском) показало значительное сходство устойчивых структурных типов предложений.

Основным структурным каркасом предложения является пропозиция. Основной элемент пропозиции - . сказуемое, выражаемое глаголами и глагольными фразами (т.н. составные сказуемые), вербоидами (т.е. предикатные выражения). К вербоидам мы относим все неличные формы глагола (НФГ), а также производные (предикативы).

Представление семантики глагола является центральным .вопросом. В результате анализа грамматических парадигм глагола в рассматриваемых языках и глагольных употреблений в . текста?; построена обобщенная таблица видо-временных значений, которые можно условно разделить на три большие группы: "быть в состоянии действия", "совершить, закончить действие", "выполнять повторяющееся или регулярное действие". При этом действия могут иметь различную временную отнесенность: к прошлому, настоящему или будущему.

Далее строится унифицированная модель для вербоидов.

- Характерной особенностью вербоидов является их

"гибридность". т.е. сочетание в себе глагольных и именных признаков.

Будем выделять следующие типы значений, выражаемых вербоидами в русском, английском и итальянском языках:

A. Действие-определение (Verbal_Deflnltlon, V_D).

B. Действие-обстоятельство, сопутствующее основному действию (Verbal_Clrcumstance V_C).

C. Действие-сущность (Verbal_Entlty VJE).

Эти значения выражаются такими неличными формами глаголов (НФГ) как причастия и причастные обороты, герундии и герундиальные обороты, инфинитивы и инфинитивные обороты. Причем во всех трех языках наблюдается значительное подобие этих форм как с точки зрения морфологии (конгруэнтность), так и с точки зрения выражаемых ими значений (эквивалентность). Обороты с НФГ в предложении являются тем, что мы называем "структурными членами".

Важным наблюдением является то, что структурные члены предложения синонимичны соответствующим композиционным членам предложения, которые фактически являются экспликацией значений, выражаемых оборотами с НФГ.

Для выражения семантико-синтаксических отношений в предложении необходимо выбрать наиболее адекватное формальное выражение, облегчающее логико-алгоритмический этап моделирования.

Ряд исследователей, занимавшихся проблемами представления смысла высказываний (Хомский, Шенкидр.), считали излишним уровень, связанный с такими понятиями как "члены предложения". Это объяснялось тем, что многие разработки изначально велись в русле формальнограмматических построений на основе английского языка. В связи с этим их грамматики уделяют основное внимание порядку слов (который в английском языке жестко фиксирован), что не дает приемлемой основы для построения формальной модели языков со свободным порядком слов.

В последнее время появилась новая модель грамматики, развиваемая Перлмуттером и , Посталом, которая называется реляционной грамматикой (relational grammar). Реляционная грамматика, как и падежная грамматика, отличается от главных

направлений формальной грамматики тем, что она ставит в центр отношения (реляции), в которые вступают именные группы в предложении. Эти реляции рассматриваются как исходные элементы грамматики. Однако реляционная грамматика отличается от падежной тем, что реляции, с которыми она имеет дело, являются синтаксическими, а не семантическими.

Очевидно, что при создании многоязычных систем для описания смысла отношений между структурными составляющими предложения необходим такой метауровень (Ю. который и будет задавать значение отношений, помечаемых на поверхностном уровне порядком слов (в английском языке), либо падежными флексиями (в русском языке) и/или предлогами.

Введение этого уровня реляций совершенно необходимо для построения унифицированной структурно-смысловой модели предложения, которая была бы инвариантной по отношению к конкретным естественным языкам.

Для того, чтобы выяснить суть этих реляций нами были рассмотрены структурные типы предложений, типы значений, выражаемых вербоидами. а также понятия простого, структурного и композиционного членов предложения.

В нашей работе строится новая. гибридная модель, использующая элементы реляционной грамматики в сочетании с падежной грамматикой, для представления целостной модели предложения. При этом наше представление релевантно для основных европейских языков, что определяется практическими задачами.

Дается унифицированная схема семантических падежей (категорий), инвариантная для всех трех рассматриваемых нами языков и приводится обобщенная схема отображения этих падежей на множество предлагаемых нами реляций. Предлагается двухуровневая базовая иерархия типов семантических падежей. Верхний уровень содержит шесть падежных категорий: А (агенте), Ь (локатив). О (объект). М (метод). й (характеристика). Р (цель), которые задают общефункциональное значение. Базовые семантические падежи второго уровня задают более дифференцирующие селекционные признаки.

Для описания смысловой структуры предложения и

предикатного выражения как его составной части мы используем 4 типа значений, которые мы представляем следующим образом:

М (модальность);

С (семантические падежи);

R (реляции);

Sub (SUB - деревья лексических значений).

Дается целостное представление смысловой структуры предложения S_sem.

S_sen представляет собой некоторое пространство

смысловых структур {S_senl, S_sea2, .... S_seai____}.

1<=1<=N, которые задаются совокупностью семантических категорий М# С, R, Sub, где

N - это категория, представляющая множество значений, определяющих сентенциальную и. локальную модальность. Подытоживая содержание, которое мы вкладываем в понятие модальности, мы можем сказать, что модальность реальной ситуации M(R) задается парами значений:

М —> (Р.П); (Р.Н}; {Р. Б); (3, ГО; {3. ГО; {3. Б};

{Д. П); (Д. ГО; (Д. Б}; где первый элемент задает видовые* характеристики: Р -регулярное действие; 3 - завершенное; Д - длящееся; а второй элемент - временные: П - прошедшее; Н - настоящее; Б -будущее;

С - это конечное множество семантических падежей:

С - {A, L, О, И, D. Р},

которые отображаются на уровень реляций и проходят лексикализацию, принимая значения из множества классов понятий;

На уровне реляций фиксируются значения функций, которые выполняют слова . и группы слов в предложении.

R - множество реляций, задагарх значение отношений между структурными элементами предложения:

S - {R1, К2, R3, R4, R5, Кб), где

R1 - реляция, соответствуицря функции, штору® выполняет подлежадее - субъект;

■ R2 реляция, соответствующая функции, вшшянййиюй прямым дополнением;

R3 - реляция, соответствующая функции, выполняемой косвенным (предложным или беспредложным дополнением);

R4 - реляция, соответствующая функции определения;

R5 - реляция, соответствующая функции обстоятельства события;

R6 - реляция, соответствующая функции "макросвязи", которую осуществляют соединительные элементы, связывающие простые структуры в сложные.

Sub - иерархически-сетевая модель представления лексических значений слов, которая может произвольно детализироваться "вглубь", и структурно делится на базовую "модель мира" и частные модели проблемных областей, представляемые как поддеревья базового дерева; элементы Sub производят лексикализацию падежно-реляционной рамки.

Итак, S_sem - это смысловая структура, определяемая значениями описывающих его семантических категорий: S_sem = {М, С, R, Sub).

Процесс порождения ЕЯ предложения из глубинных смысловых структур в поверхностные можно схематически изобразить следующим образом: S_sem ====> С —> R —> Sub —> М ====> ЕЯ предложение.

S_sem отображается в РСС-представления следующим образом: вначале происходит "сборка" элементарных пропозиций, которые через пропозициональные G-вершины связываются между собой метками реляций, затем строится структура сентенциальной пропозиции, которая упорядоченным образом включает в себя все элементарные пропозиции.

Назовем описываемый здесь метод падежно-реляционной грамматикой (ПРГ). ПРГ является концептуальной основой алгоритмов семантико-синтаксич^ского анализа в условиях многоязычной ситуации (Рис. 2), поскольку рассматриваемая в работе выборка репрезентативна для Европы: представлены языки славянской, германской и романской групп.

В четвертой главе описываются прикладные системы, разработанные с использованием методики КЛМ. Эти прикладные системы могут быть двух видов:

- концептуально-лингвистические оболочки, являющиеся

открытыми системами;

' - закрытые системы, которые поддерживают только информационные функции и не обеспечивают расширения.

Системы обоих видов базируются на иерархически-сетевых идеографических словарях конкретных предметных областей.

Дается описание экспериментальной базы знаний текстовых прогнозов в социальной сфере, разработанной на базе инструментальной интеллектуальной среды ДИЕС в рамках Фундаментальной темы "Семантический анализ вербальных экспертных оценок для повышения качества экспертизы прогнозирования ожидаемых и желательных изменений в социальной сфере". В качестве основы концептуально-лингвистической модели был разработан тезаурус текстов политологических прогнозов.

Развитие средств, обеспечивающих унифицированную обработку текстовой информации на разных языках, позволит в дальнейшем разрабатывать многоязычные базы знаний.

В Заключении сформулированы основные результаты диссертационной работы и намечены направления дальнейших исследований.

В Приложениях приведены тезаурус проблемной области социально-политического прогнозирования и фрагмент базы лингвистических знаний, представленных в виде расширенных семантических сетей.

III. ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ.

.1) Разработана методика концептуально-лингвистического моделирования в интеллектуальных системах на базе аппарата расширенных семантических сетей, предназначенная для построения естественно-языковых моделей предметных областей.

2) Построена базовая структурная иерархически-сетевая модель лексической семантики. служащая основой концептуально-лингвистических моделей конкретных предметных областей, обеспечивающая возможность эффективного расширения.

3) На основе структурного анализа русского, английского и итальянского языков разработаны структурно-семантические

схемы объектов, релевантных для лингвистического моделирования и создания алгоритмов семантико-синтаксического анализа. Для этого построена обобщенная типологическая классификация предложений и предикатных выражений как структурной основы предложений; разработаны обобщенные таблицы значений, выражаемых личными-и неличными формами глаголов и оборотами с неличными формами глаголов в этих языках; исследованы наиболее употребимые конструкции с неличными формами глаголов (они содержатся в 90% предложений реальных текстов), показано, что их функции в предложении можно рассматривать с точки зрения функций именных групп.

4) Выработан новый унифицированный метод представления семантико-синтаксических отношений между элементами предложения в базе знаний интеллектуальной системы, основывающийся на гибридной падежно-реляционной грамматике, отражающий общность основных концептуализации в рассматриваемых языках.

5) Предложена технологическая схема лингвистического моделирования в многоязычной интеллектуальной среде на основе расширенных семантических сетей.

6) Реализована прикладная информационно-аналитическая система для проблемной области социально-политического прогнозирования, в качестве концептуально-лингвистической основы которой построен идеографический словарь (тезаурус).

7) Разработана русско-английская система, основанная на знаниях по организационной структуре научного учреждения; созданы концептуально-лингвистические оболочки для некоторых предметных областей (таможенного контроля, диагностики брака микросхем).

Основные положения диссертации опубликованы в работах;

1. Козеренко Е.Б., Пузанов В.В. Сравнительный анализ оболочек экспертных систем. "НОВИНТЕХ"- международный компьютерный журнал, N1. г. Тверь. 1990.

2. Козеренко Е.Б. Концептуально - лингвистическое моделирование в среде интеллектуального редактора знаний ИКС. В сб. "Проблемы проектирования и использования баз

- знаний. " Ин-т кибернетики им. В.М. Глушкова, Киев, 1992.

С. 73-79.

3. Kuznetsov I.P.. Kozerenko E.B. CONTACT: Integrated natural language tool system for developing language training environments. Proceedings of the East-West Conference on Emerging Computer Technologies in Education, 6-9 April 1992, Moscow, Russia, International Centre for Scientific and Technical Information, Moscow. 1992.

А. Козеренко Е.Б. 0 подходе к выявлению универсальных семантических категорий и способов их выражения в различных языковых системах (на материале английского русского и итальянского языков). В Сб. "Системы и средства информатики", вып. 5. М.: Наука, 1Э93, с. 53-61.

5. Козеренко Е.Б. Моделирование глубинных семантических структур в интеллектуальной интегрированной среде ДИЕС. В сб. трудов ИПИРАН, вып. 6, М.: Наука, 1994.

6. Kozerenko E.B., Kuznetsov I.P. Comparative method In language training on the basis of the intelligent natural language environment. Proceedings of the East-West Conference on Emerging Computer Technologies In Education, 19-23 September 1994, Crimea, Ukraine. International Centre for - Scientific and Technical Information, Moscow, 1994.

7. Козеренко Е.Б. Лингвистическое моделирование в многоязычной ситуации. Лингвистика на исходе XX века: итоги и перспективы. Тезисы международной конференции. Т. I. - М.: Филология, 1995, с. 237-239.

Рис. 1.

КОНЦЕПТ ОБЪЕКТ ! АБСТРАКТ ! СИТУАЦИЯ ! СРЕДСТВО!

ЧИСЛО! СОСТОЯНИЕ ! ОПЕРАЦИЯ ! СПОСОБ ! СОБЫТИЕ ! КАТЕГОРИЯ

ОБЪЕКТ ::= ЧЕЛОВЕК ! ВЕЩЬ ! СИСТЕМА ! ОРГАНИЗАЦИЯ ! ИНФОРМАЦИЯ ! ДОКУМЕНТ ! СТРАНА

АБСТРАКТ ::= ПОРЯДОК ! УСЛОВИЕ ! задача ! функция ! ОСНОВА ! концепция

ОРГАНИЗАЦИЯ ::= НАУЧНАЯ ОРГАНИЗАЦИЯ !

ФИНАНСОВАЯ ОРГАНИЗАЦИЯ ! ГОСУДАРСТВЕННАЯ ОРГАНИЗАЦИЯ

НАУЧНАЯ ОРГАНИЗАЦИЯ ::= АКАДЕМИЯ ! ИНСТИТУТ

ИНСТИТУТ ::- ИПИРАН ! ИНЭУМ

Рис. 1 (а). Фрагмент концептуального дерева в БНФ-нотации.

КОНЦЕПТ

ФИНАНСЫ

ЦЕННЫЕ БУМАГИ

ДОЛГОВЫЕ I- ВЕКСЕЛЬ I- ИПОТЕК

ДОЛЕВЫЕ

I- АКЦИЯ

I--КАЗНАЧЕЙСКИЕ-ЦЕННЫЕ БУМАГИ

I- ЗАКЛАДНОЙ ЛИСТ I- СЕРТИФИКАТ ОБЛИГАЦИЯ

Рис. 1 (б). Поддерево предметной области.

2. Технологическая схема работы интеллектуальной системы с текстовыми базами знаний в многоязычной ситуации

=>| Подсистема I -Иведения диалога! р

IПодсистема | Iнастройки на| |язык ПО |

I Анализ на I основе I ПРГ-Iпредставления

I-1

|Лингвистический |. I—| процессор I <I |русского языка |

_1 I_I

I-1

\Лингвистический I Чпроцессор |<-

|английского языка|

I _I

I-;-1-—1 | ¡Лингвистический |

IЛингвистическая! Чпроцессор |<-

->| база знаний | ¡итальянского языка!

—I /словарь/ I 1-1

¡База предметных! ¡знаний /РСС/ 1

1БАЗА ТЕКСТОВЫХ ЗНАНИЙ|

I /ПРЕДМЕТНЫХ/ |

I <-> | ТЕКСТЫ НА ИТАЛЬЯНСКОМ ЯЗЫКЕ Р

-Н СЕМАНТИЧЕСКОЕ I

I-:-1

Н ТЕКСТОВЫЕ К-I ФАКТЫ |

I_I

. I I

ПРОСТРАНСТВО I |--1

I <-> I ТЕКСТЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Н ТЕКСТОВ I I—1-1

I <-> | ТЕКСТЫ НА РУССКОМ ЯЗЫКЕ \-

_| I___I