автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка представления семантики ценностно-ориентированных текстов в базе знаний
Автореферат диссертации по теме "Разработка представления семантики ценностно-ориентированных текстов в базе знаний"
На правах рукописи
Малкова Анастасия Сергеевна
Разработка представления семантики ценностно-ориентированных текстов в базе знаний (на материале русских пословиц)
Специальность 05.13.17 - Теоретические основы информатики
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Москва 2011
2 7 ОКТ 2011
4858198
Работа выполнена в Институте лингвистики федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Российский государственный гуманитарный университет».
Научный руководитель:
доктор физико-математических наук, доцент О.М. Аншаков
Официальные оппоненты:
доктор технических наук, профессор О.П. Кузнецов
кандидат физико-математических наук, старший научный сотрудник Д.В. Виноградов
Ведущая организация:
Институт системного анализа Российской академии наук
Защита состоится 14 ноября 2011 г. в 16 часов на заседании диссертационного совета Д.212.198.13 при Российском государственном гуманитарном университете по адресу: г. Москва, Миусская пл., д. 6, ауд. 206.
С диссертацией можно ознакомиться в библиотеке Российского государственного гуманитарного университета.
Автореферат разослан
Ученый секретарь диссертационного совета кандидат технических наук
Д.Б. Халяпин
ОБЩЛЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальное! ь
Представление знаний в настоящее время является одним из центральных направлений развития информационных технологий. Основная цель направления - разработка методических оснований и прикладных средств, позволяющих использовать вычислительные машины для решения интеллектуальных задач, требующих глубоких знаний о предметной области, таких как принятие экспертных решений, интеллектуальный поиск, извлечение актуальных знаний из больших объемов необработанных данных.
Ядром интеллектуальных систем, основанных на знаниях, является формализованная модель реальности - структурное описание, в котором основные закономерности строения и функционирования элементов предметной области описаны в терминах формальных объектов и отношений. Строгое формальное описание позволяет формулировать алгоритмы для манипулирования знаниями: вывода новых знаний на основе имеющихся, выдачи ответов по запросам, сканирования на предмет наличия противоречий и т.п.
Системы, основанные на знаниях, в настоящее время разрабатываются в таких областях, как медицина1, экономика, анализ новостных лент. Представление знаний является одним из перспективных направлений развития сети Интернет (проект Semantic Web).
Анализ семантики ценностно-ориентированных текстов (ЦОТ) - это одна из областей, где методы представления знаний до сих пор не использовались. Термин ценностно-ориентированные применяется в настоящей работе для обозначения текстов, описывающих явления, лежащие в области этики и морали. Это пословицы, басни, притчи, афоризмы. Семантическую основу ЦОТ составляет проблемная ситуация или комплекс проблемных ситуаций: реализация морального выбора, разрешение социального конфликта, предписание поведенческого сценария, этическая оценка людей и событий.
Актуальность создания семантических моделей для ЦОТ обусловлена тем, что ЦОТ являются важным компонентом языка, как самостоятельно, так и входя в состав других, более крупных текстов, где они часто занимают акцентные позиции: заголовки, эпиграфы, резюме (мораль) и т.п. Адекватная формальная модель семантики ЦОТ позволит автоматизировать целый ряд процедур интеллектуальной обработки ЦОТ, таких как семантический поиск, машинный перевод, культурологический анализ статистическими методами и другие.
Отсутствие практики применения методов представления знаний для анализа семантики ЦОТ связано с объективной сложностью выделения формальных
1 В области медицины созданы большие стандартные, структурированные словари, например, такие как SNOMED и сематтаческая сеть Системы Унифицированного Медицинского Языка (the Unified Medical Language System).
объектов в данной предметной области. При разработке семантической модели в настоящей работе были использованы и адаптированы методы, сформировавшиеся в дисциплинах, для которых ЦОТ является традиционным объектом исследования: филологии, отчасти психологии, когнитивной лингвистики. В том числе был рассмотрен ряд структурных семантических моделей пословицы (Г.Л. Пермяков1, B.C. Баевский2, А.К.Жолковский3, М.Черкасский, Т.С. Зевахина4, А. Дандес5, Н.Барли6 и другие), максимы (Ю.С. Мартемьянов, Г.В. Дорофеев7), исследованы основные положения концептуальной теории метафоры Дж. Лакоффа и Т. Джонсона8 и фундаментальных трудов по теории мифа (К. Леви-Стросс9,0.М. Фрейденберг'0, Е.М. Мелетинский").
В работе была осуществлена формализация структурного подхода, развившегося на базе классической филологии и структурной антропологии (О.М. Фрейденберг, К. Леви-Стросс) и когнитивной лингвистики (Дж. Лакофф) для построения формальной семантической модели частного случая ЦОТ -пословицы.
Цели it задачи диссертационной работы
Целью диссертационной работы является построение базы знаний (описание объектов, отношений и ограничений на значения, а также аналитического аппарата) для формализованного представления семантики ценностно-
1 Пермяков ГЛ. Пословицы н поговорки народов Востока: Систематизированное собрание изречения двухсот народов. — М.: Лабиринт, 2001
2 Баевскин B.C. Лингвистические, математические, семиотические и компьютерные подели в истории и теории литературы. М.: Языки славянской культуры, 2001.
! Жолковский А.К. К описанию выразительной структуры паремий. // Паремиологический сборник. Пословица. Загадка, п/р ГЛЛермякова. — М.: "Наука", 1978
4 Зевахина Т.С. Метафора мертвая и метафора живая: экспериментальный подход к паремиологии дунганского и китайского языков II Компьютерная лингвистика и интеллектуальные технологии / Труды Международного семинара Диалог'2002. - М.: Наука, 20026. - Т. 1.-С. 154-162
' Дандес А. О структуре пословицы. II Паремиологический сборник. Пословица. Загадка, п/р ГЛ.Пермхкова. — М.: "Наука", 1978.
6 Барли Н. Структурный подход,к пословице и максиме. // Паремиологические исследования, п/р Г.Л.Пермякова. — М.: "Наука", 1984.
7 Мартемьянов Ю.С. Дорофеев Г.В., Опыт терминологии общелитературной лексики (о мире тщеславия но Ф.де Ларошфуко)//Вопросы кибернетики. Логика рассуждений и ее моделирование. —М.: 1983
8 Лакофф Дж, Джонсон М. Метафоры, которыми мы живем. — М.: Едиториал УРСС, 2004.
' Леви-Строс К. Структурная антропология / Пер. с фр. Вяч. Вс. Иванова. — М.: ЭКСМО-Пресс, 2001.
Фрейденберг О.М. Поэтика сюжета и жанра / Ред. и коммент. Н.В.Брагннской. — М. Лабиринт, 1997.
" Мелетинский Е.М. Поэтика мифа. — М.: Издательская фирма «Восточная литература» РАН, Школа «Языки русской культуры», 1995.
ориентированных текстов (пословиц) и ее программная реализация в информационной системе «МЕТАФОРА - тезаурус русских пословиц».
Для достижения заявленной цели были поставлены и решены следующие задачи.
1. Анализ научно-методических основ формального представления семантики ЦОТ:
a. обзор и анализ методов представления знаний в направлении Искусственный интеллект.
b. анализ существующих подходов к описанию семантики ЦОТ в дисциплинах, для которых ЦОТ является традиционным объектом исследования (структурной фольклористике, лингвистической семантике, когнитивной лингвистике);
2. Разработка методологического подхода к формальному представлению семантики пословицы:
a. разработка и обоснование общей структуры базы знаний для представления семантики ЦОТ;
b. разработка формальной модели семантики пословицы, в том числе составление словарей элементов модели, формулировка правил построения формального описания по тексту на естественном языке.
3. Разработка методики интеллектуального анализа семантики пословиц с помощью базы знаний, включая:
a. формальное описание критериев семантического сходства текстов;
b. описание алгоритмов поиска по ключевым словам.
4. Разработка концепции, схемы данных информационно-справочного Интернет-ресурса «МЕТАФОРА - тезаурус русских пословиц», реализующего формальную модель пословицы (включая аппарат интеллектуального анализа семантики пословиц).
Методы исследования
В диссертационной работе используются методы, характерные для трех дисциплин: представления знаний (направление Искусственный интеллект), концептуального моделирования (когнитивная лингвистика) и структурной нарратологии (фольклористика, филология).
Объект и предмет исследования
Объектом исследования являются русские пословицы. В качестве экспериментальной выборки использован словарь современных русских пословиц под
ред. В.М. Мокиенко', содержащий 505 единиц. Выбор обусловлен тем, что словарь снабжен обширным справочным аппаратом, включающим толкования, культурологическую справку, примеры употреблений в художественной литературе, а также тем фактом, что при относительно сжатом объеме словарь охватывает большое тематическое многообразие пословиц. Также в экспериментальную выборку вошли 100 случайно отобранных английских пословиц. Предметом исследования является семантика пословицы.
Результаты, выносимые на защиту
Получены лично автором и выносятся на защиту следующие научные результаты:
1. Методологический подход к проектированию базы знаний для представления семантики ЦОТ:
a. общая структура базы знаний для данной предметной области (принципы выделения формальных объектов и отношений);
b. формальная модель семантики частного случая ЦОТ - пословицы.
2. Методика интеллектуального анализа семантики пословицы с помощью базы знаний, включающая:
a. формальные критерии семантического сходства пословичных высказываний;
b. язык поисковых запросов (поиск по ключевым словам).
3. Концепция, структура данных, аппарат интеллектуального анализа информационно-справочного Интернет-ресурса «МЕТАФОРА».
Научная новизна
Научная новизна результатов диссертационной работы заключается в следующем.
1. Разработан новый подход к представлению знаний в ЦОТ, объединяющий методы структурной фольклористики, когнитивной лингвистики и Искусственного интеллекта.
2. Построена новая формальная модель пословицы, позволяющая формально описывать критерии семантического сходства высказываний и осуществлять поиск по запросам.
3. Создана информационная система, включающая уникальный интеллектуальный поисковый аппарат.
1 Словарь русских пословиц / В.М. Мокиенко, Ю.А. Ермолаева, АА. Зайнульдшюв и др.; под ред. В.М. Мокиенко. — М.: Астрель: ACT, 2007.
Теоретическая значимость и практическая ценность
Теоретическая значимость работы заключается в разработке методологического подхода к представлению семантики ЦОТ в базе знаний, отражающего характерные особенности предметной области и, как следствие, позволяющего эффективно решать специфические задачи интеллектуального поиска и анализа.
Практическая ценность работы заключается разработке средств семантического анализа пословичных высказываний, которые могут быть использованы в электронных словарях и тезаурусах ЦОТ, системах поддержки перевода, поисковых машинах, в программном обеспечении филологических, этнографических (в т.ч. кросскультурных) исследований, а также для решения других задач интеллектуального семантического анализа ЦОТ.
Апробация полученных результатов
Результаты диссертационной работы докладывались и обсуждались на конференциях: XL Международной филологической конференции СПбГУ (2011), КИИ-2010, «История и математика-2007», «Рефлексивные процессы и управле-ние-2007»; на семинарах ИСА (2010, 2009), ВИНИТИ (2009), «Искусственный интеллект» в Политехническом музее (2009), «Искусственный интеллект» ВМиК МГУ (2008), «Фольклор и постфольклор» Центра Типологии и Семиотики Фольклора РГГУ (2007, 2010).
Публикации
Научные результаты были опубликованы в журналах, рекомендованных ВАК: «Научно-техническая информация» Сер.2 «Информационные процессы и системы», «Моделирование и анализ информационных систем» (ЯрГУ), Вестник РГГУ серия «Информатика, защита информации, математика» (в печати); в сборниках трудов: Двенадцатой национальной конференции по искусственному интеллекту КИИ-2010, конференции «Математическая история-2008», конференции «Курдюмовские чтения-2007» а также в тезисах трех конференций. Список публикаций приведен в конце автореферата.
Структура и объем работы
Диссертация состоит из введения, четырех глав, заключения, библиографического списка и двух приложений. Объем основного текста работы - 154 страницы. В тексте содержатся 47 рисунков и диаграмм, 20 таблиц, список литературы включает 111 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность выбранной темы; формулируются цель и задачи исследования, показана научная новизна, теоретическая значимость и прикладная ценность результатов. Кратко излагается содержание диссертации по главам.
Первая глава посвящена анализу научно-методических основ и формированию структуры диссертационного исследования.
Раздел 1.1 посвящен описанию современного состояния исследований в области формального представления знаний в искусственном интеллекте: приводятся основные определения, области применения, принципы функционирования каждого из методов.
В разделе 1.2 дается характеристика объекта исследования, рассматриваются существующие подходы к представлению семантики ЦОТ, сформировавшиеся в рамках специальных дисциплин: структурной фольклористики, лингвистической семантики, когнитивной лингвистики.
В разделе 1.3 вводятся понятия базы знаний и модели знаний: существующие определения, способы представления, области применения. Обсуждается роль модели знаний для решения задач структуризации данных, семантического поиска, вывода новых знаний. Показывается целесообразность применения данного формального аппарата для представления семантики ЦОТ.
В заключительном разделе формулируется цель работы: создание базы знаний для представления семантики ЦОТ (на примере частного случая ЦОТ -пословицы), излагаются основные задачи и структурно-логическая схема исследования.
Вторая глава посвящена решению второй задачи диссертационного исследования: разработке формальной модели семантики пословицы (как частного случая ЦОТ) и решению ряда сопутствующих задач: построения модели реальности для пословичного текста, формирования словаря базовых элементов модели, описания правил построения формальных описаний по текстам на ЕЯ.
Согласно правилам проектирования баз знаний, основанных на онтологической модели представления знаний, которые были сформулированы в работе Н. Ной и Д. МакГинесс1, структура базы знаний зависит от многих факторов: устройства предметной области, требуемого уровня абстракции, широты охвата материала, комплекса практических задач, которые предполагается решать с помощью БЗ, намеченной степени формализации. Таким образом, постановка
' Ной Н., МакГиннесс Д. Разработка онтологий 101: руководство по созданию Вашей первой онтологии http://ifets.iecc.org/nissian/depositoiy/ontologyl01_rus.doc
задачи и описание требований к базе знании являются важным этапом, определяющим ее структуру и конечный вид.
В разделе 2.1 детально рассматривается объект исследования (пословица), исследуется ее семантическая организация.
Пословица была избрана в качестве объекта исследования, поскольку из всех ЦОТ малых жанров (басни, притчи, афоризмы) она является наиболее компактной, стабильной, универсальной. Под стабильностью понимается тенденция к дублированию одной и той же (или близкой) семантики в целых кластерах квазисинонимичных текстов, прослеживаемая не только в рамках одного фонда, но и на многонациональном материале. Под универсальностью -минимизация авторского, индивидуального начала, которая отличает фольклорные произведения от авторских. Несмотря на возможное появление у пословицы в различных ситуационных контекстах окказиональных значений, существует одна (в редких случаях две-три) базовая интерпретация, зафиксированная в толковом словаре.
Пословица хорошо изучена и описана в филологии. Это позволяет задействовать в диссертационном исследовании обширный справочно-методический материал, наработанный данной специальной дисциплиной: толковые словари, системы классификации пословиц, существующий опыт формализации.
Все перечисленные факторы позволяют говорить о принципиальной возможности создания адекватной формальной семантической модели пословицы.
В п. 2.1.2 формулируются практические задачи, которые возможно будет решить на выбранном корпусе текстов с помощью базы знаний. Их постановка также оказывает влияние на структуру базы знаний. К ним относятся следующие задачи интеллектуальной обработки корпусов ЦОТ:
1. Семантический поиск текстов, находящихся между собой в различных семантических отношениях-, сходства, противоположности, частичного сходства, противоречивости. Для пословиц эта задача наиболее актуальна в контексте создания электронных мулътиязычных словарей.
2. Семантический поиск по ключевым словам (например: пословицы о труде, о дружбе, о беспечности, о смирении с судьбой и т.п.). При этом ключевые слова интерпретируются не как теги, а как семантические конструкты, которые соотносятся со структурой проблемной ситуации, отраженной в пословицах.
Указанные задачи могут быть решены (т.е. разработаны формальные процедуры анализа), если в результате выделения объектов семантика отдельного текста пословицы (также как структура поискового запроса) будет представима в виде набора однозначно интерпретируемых семантических единиц. Тогда сходство двух пословичных высказываний может быть интерпретировано как полное или частичное совпадение наборов их составляющих, а соответствие
поисковым запросам будет понято как вхождение элементов запроса в состав высказывания.
При этом большое значение имеет однозначность семантических описаний. Если один и тот же смысл может быть выражен несколькими различными способами, то это приведет к резкому усложнению алгоритмов семантического анализа. Таким образом, семантическое сходство двух высказываний должно необходимо влечь за собой совпадения в их формальной структуре, и при этом ни один из базовых элементов модели не может быть выражен через комбинацию других.
Обобщая, можно сказать, что критерием успешности модели является формирование системы классов подобия, сохраняющей семантические отношения (частичного сходства, противоположности и др.) на множестве пословичных текстов.
Рисунок 1. Формирование классов подобия в процессе моделирования.
Итак, словарь модели формирует очень компактный набор элементов, описанных на высоком уровне абстракции. Малое количество элементов упрощает описание аксиоматики, классификацию объектов, хотя и снижает точность семантических описаний отдельных высказываний.
Необходимо отметить, что экспериментальная выборка текстов специально была подобрана таким образом, чтобы в ней были представлены не одна или несколько тематических групп, а все многообразие пословичных текстов. Это необходимо для того, чтобы модель и алгоритмы поиска на ней обладали свойствами универсальности.
В последнем пункте раздела (п. 2.1.3) осуществлен детальный анализ объекта исследования (пословицы) с целью выявления его семантической структуры: определения сущности базовых элементов модели и природы связывающих их отношений.
В пункте показано, что лингвистические методы анализа недостаточны для адекватного представления семантики ЦОТ, поэтому теоретической базой для исследования послужили труды филологов и антропологов, в частности работы представителей французского и отечественного структурализма (К.Леви-Стросс, О.М.Фрейденберг). Согласно их выводам, со структурной точки зрения фольклорные произведения представляет собой последовательность элементар-
ных микросюжетов. Их строение подчинено двум базовым ментальным механизмам: мифологическому отождествлению (уподоблению) и оппозиционному противопоставлению. В разделе рассмотрена суть этих механизмов.
В основе системы категорий первобытной логики, реконструированной французским антропологом К.Леви-Строссом1, лежит принцип бинариых оппозиций - пар противопоставленных понятий, из которых одно, как правило, имеет позитивную оценку, а другое - негативную, таких как: холодное - тетое, низкое - высокое, сырое - вареное, темное - светлое, женское - мужское, мертвое - живое и другие. При этом тепло, свет, жизнь, верх, правда, сакральное наделяются позитивной оценкой, а холод, тьма, смерть, низ, ложь, профанное - негативной.
Не только сюжетные линии в фольклоре, но и системы верований и обрядов имеют в своей основе подобные оппозиционные противопоставления. В настоящее время аппарат бинарных оппозиций представляет собой широко распространенный и активно используемый рабочий инструмент этнографических и фольклористических исследований.
С другой стороны, профессор кафедры классических языков ЛГУ О.М. Фрейденберг, исследуя логику развития сюжетных линий в мифологии античности, пришла к выводу, что она формируется под критическим влиянием ментального феномена, который можно назвать «мифологическим отождествлением'». Это бессознательное ощущение глубинной взаимосвязи между двумя явлениями вплоть до полного стирания границ между ними. Исследовательница пишет: «Система первобытной образности - это система восприятия мира в форме равенств и повторений»2. О.М. Фрейденберг указывает основные направления отождествления: равенства целого и части, мнимого и реального, прошлого, настоящего и будущего, актера и роли, аю1ии и реакции, постоянного и временного, лидера и возглавляемого им коллектива и другие.
В повествовании отождествление может принимать характер причинно-следственной, экзистенциальной связи, имплицитного логического перехода. О.М. Фрейденберг показывает, как мифологическое отождествление участвует в формировании повествовательных сюжетов: сбываются пророчества (отождествление мнимого и реального); злодеев настигает возмездие (акция и реакция); события далекого прошлого определяют судьбы героев (прошлое и будущее); кукла, перышко, перстень, платочек воплощают в себе силы их обладателя (объект и атрибут); дети чудесных родителей (зверей, стихий и богов) наделяются сверхъестественной силой (порождающее и порожденное); внешние преображения (костюм, татуировка) изменяют характер героев.
1 Леви-Строс К. Первобьггаое мышление. — М.: ТЕРРЛ — Книжный клуб; Республика, 1999
2 Фрейденберг О.М. Поэтика сюжета и жанра/Ред. и коммент. Н.В.Брагинской. — М.Лабиринт, 1997
Практически любое базовое отождествление может быть преобразовано в утверждение, по структуре близкое к пословичному:
Какое целое, такая и часть.
Какой лидер, такие и подчиненные.
Каким [некто] был, таким и останется.
Какое начало [дела], таков и конец, и др.
Утверждения, построенные на мифологических отождествлениях, представителям архаической культуры представляются очевидными, хотя природа этой причинно-следственной связи сугубо ментальная, основанная на вере в гораздо большей степени, чем на реальном опыте.
Полученные выводы о ключевой значимости двух ментальных механизмов (оппозиционного противопоставления и отождествления) подтверждает также и один из основателей когнитивной лингвистики Дж. Лакофф1. В своей классической работе «Метафоры, которыми мы живем» Дж. Лакофф показывает несостоятельность подхода к метафоре, как к тропу, имеющему периферийную значимость в языке, и предлагает рассматривать ее как один из фундаментальных когнитивных механизмов. Он определяет два основных вида метафор: структурные и ориентационные.
Структурные метафоры «осмысляют понятия одного рода в терминах понятий другого рода». Так в английском языке (также как и в русском), СПОР осмысляется как БИТВА, что служит источником бесконечного многообразия фразеологических оборотов вида: одержать победу в споре, держать удар, отбиваться от нападок, укрепить свои позиции и др. Язык пронизан огромным количеством подобных метафорических уподоблений: ИНФЛЯЦИЯ как ПРОТИВНИК, ВРЕМЯ как ДЕНЬГИ, ЛЮБОВЬ как ПУТЕШЕСТВИЕ и т.п.
Ориентационные метафоры восходят к противопоставлению ВЕРХ-НИЗ (НИЗ при этом оценивается отрицательно, а ВЕРХ - положительно). Они лежит в основе таких фразеологизмов как низкие помыслы, низкие вкусы, низкий поступок, низы общества. След противопоставления ВЕРХ-НИЗ прослеживается в широком круге метафорических пар: РАДОСТЬ-ГРУСТЬ (Он пребывал в приподнятом настроении. - Он был подавлен.), ЗДОРОВЬЕ-БОЛЕЗНЬ (Он выкарабкапся из болезни. - Его подкосило.), БОГАТСТВО-БЕДНОСТЬ, ДОБРОДЕТЕЛЬ-ПОРОК, ВЛАСТЬ-ПОДЧИНЕНИЕ и многие другие.
Тот факт, что выводы, полученные исследователями, работающими в различных, хотя и смежных, дисциплинах, независимо и на разном материале, имеют столь глубокие параллели, подтверждает состоятельность опоры на механизмы отождествления и оппозиционного противопоставления при моделировании семантики ЦОТ.
1 Лакофф Дж, Джонсон М. Метафоры, которыми мы живем. — М.: Елиториал УРСС, 2004
Таким образом, подводя итог раздела 2.1, можно сказать, что пословица в исследовании интерпретируется как особая информационная единица, содержащая специфические (ценностно-ориентированные) знания о мире. Ее семантика соотносится со структурой проблемной этической ситуации, регулярно воспроизводящейся в кластерах синонимичных текстов. И существуют закономерности в построении ценностных суждений, которые могут быть описаны относительно формально, - это механизмы оппозиционного противопоставления и отождествления (уподобления).
В разделе 2.2. на материале конкретных текстов показано, как, рассматривая отождествление и оппозиционное противопоставление в качестве основных структурообразующих механизмов ЦОТ, можно сконструировать модель реальности для пословичного высказывания и создать базу знаний.
Формальная модель допускает запись в синтаксисе различных языков программирования и инженерии знаний. Для описания оптологий рекомендован язык OWL, являющийся расширением RDF. В настоящей работе для описания формальной модели был избран язык теории множеств. Одновременно с этим был разработан графический язык диаграмм, призванный облегчить визуальное восприятие модели. Между графическими диаграммами и записями и логическими выражениями существует взаимнооднозначное соответствие.
Множеством ценностных оппозиций (или просто оппозиций) будем называть множество упорядоченных пар О с Р х N, где
(i) Р, N - непустые конечные множества,
(ii) PnN = 0,
(iii) О есть график биективного отображения Р на N.
Интуитивный смысл оппозиции - это пара понятий, характеризующих человека или некоторые внешние обстоятельства с двух сторон - позитивно и негативно, например: добродетель-порок, успех-неудача.
Оппозиции можно разбить на два класса с помощью сюръективного отображения: class: О -> М, где М = {man, univ}
Мшш = {о I class(o) = man} - оппозиции, характеризующие поступки, черты характера человека. Мтап = {(добродетель, порок), (знания, глупость), (труд, безделье), (помощь, вред), (воля, покорность)}.
Мть = I class(o) = univ} — оппозиции, характеризующие обстоятельства, которые, однако, могут являться результатом целенаправленной деятельности человека. Мипь = {(успех, неудача), (доход, убыток), (удовольствие, страдание), (покой, работа), (статус, презрение), (одиночество, дружба)}.
Для любой пары о = (р,п)еО положим Р(о) =р, N(o) = п.
Р(о) будем называть позитивной частью оппозиции о.
Гч'(о) будем называть негативной частью оппозиции о.
-12В графической записи оппозиции описываются двумя расположенными одна над другой окружностями. Верхняя окружность соответствует позитивному элементу оппозиции, а нижняя - негативному.
povitive t © успех
negative j пример. ^ неудача
Рисунок 2 Графическое представление оппозиции.
Множеством структурно-функциональных пар (или уподоблений) будем называть множество упорядоченных пар R с D х А, где
(i) 12, А - непустые конечные множества,
(ii) йпА = 0,
(iii) R есть график биективного отображения Л на А.
Интуитивный смысл уподобления - это пара понятий, восходящих к одному из мифологических уподоблений (см. параграф 1.3). В модели уподобление играет роль основания, по которому противопоставляются две оппозиции в рамках отношения.
R = {(временно, в итоге), (мнимо, реально), (материально, духовно), (желаемое, доступное), (часть, целое), (некто, сам), (сфера, акция)}.
Вторая часть уподобления всегда занимает доминирующую позицию (целое доминирует над частью, содержание - над формой и т.п.)
Для любой пары г = (а, а>) е R положим
А(г) = а, С1(г) = а. А (г) будем называть доминирующей частью уподобления г. Q(r) будем называть подчиненной частью уподобления г.
В графической записи уподобление протянуто в горизонтальной оси: слева находится подчиненная часть, справа - доминирующая.
omega alpha
Рисунок 3 Графическое представление уподобления.
Обозначим Т = {человек, мир} - множество типов акторов (действующих лиц) ценностного высказывания, Е = {-1, +1} - множество результирующих этических оценок ценностного высказывания (положительная оценка -«одобрение», «оправдание», отрицательная - «осуждение», «констатация несправедливости»). Пусть tl, t2 е Т, ol, о2 е О, г е R, а е Е.
Звеном для tl, t2, ol, о2, г назовем упорядоченную тройку: L = «tl, П (г), xl), If 2, Mr), х2), а),
где xl е {Р(о/), Що1)}, х2 е {Р(о2), N(о2)}.
Неформальная интерпретация: звено - это отношение между двумя оппозициями, основанное на некотором уподоблении и обладающее результирующей этической оценкой.
В графической записи звена две оппозиции изображаются рядом друг с другом, при этом левая оппозиция соотносится с подчиненной частью уподобления, правая - с доминирующей,
omega alpha
positive] negative!
отношение ->
©
positive2 negative2
Рисунок 4 Графическое представление звена.
Тип актора tl, t2 определяет, к какому из классов М„,ат Munh, принадлежат оппозиции ol, о2 соответственно.
Поскольку существует два типа акторов Т = {человек, мир}, возможно четыре варианта их сочетания в звене:
1. ol е Mmam о2 е Mulliv: высказывание описывает влияние поступков, черт характера человека на его судьбу, отношение к нему других людей, например: кто трудится, будет жить в достатке.
2. ol е Мши-„ о2 е Мт„„: высказывание описывает влияние внешних обстоятельств на поступки человека, необходимость совершать вынужденные действия, например: что пропето, того уже не вернуть.
3. ol, о2 е Мта„: высказывание устанавливает приоритеты между чертами характера человека или внутри коллектива, например: главное не внешность, а сущность человека.
4. ol, о2 е M„„i,.: высказывание устанавливает приоритеты между обстоятельствами, например: в больших делах издержки неизбежны.
Таким образом, в высказываниях, где оппозиции принадлежат к разным классам, полученное отношение может быть охарактеризовано как «влияние», где к одному - как «предпочтение».
Положим
f +1, * е Р val(x) = {
L —1, X G N
Значение val(x) будем называть ±оценкой части оппозиции.
Конфигурацией звена L = {{tl, Q (г), xl), {t2, А (г), х2), а) назовем упорядоченную тройку conf(L) = (val(.vi), val(x2), а).
Интуитивный смысл конфигурации - это регулярное сочетание позитивных/ негативных частей оппозиций, входящих в состав высказывания, с результирующей этической оценкой высказывания.
-14В модели всего выявлены десять различных видов конфигураций. Они могут быть объединены в пары - у двух конфигураций в паре все три оценки (уя1(х1), у-а1(х2) и е-) противоположны. Графические схемы конфигураций и примеры интерпретаций приведены в таблице 1.
Таблица 1 Графические схемы конфигураций.
■ ; . Оценки Граф. схема Пример интерпретации
\я\(х1) уа1(л:2) <7 а) б)
ТИП «ВЛИЯНИЕ»
| +1 + 1 + 1 « * а) кто трудится, будет иметь доход
! -1 -1 + 1 • • б) кто бездельничает, потерпит убыток
+1 -! -1 © * • © а) некто трудился, а терпит убытки
-1 + 1 -1 * © б) некто бездельничая, а имеет доход
.....- - — ■ 1 ТИП «ПРЕДПОЧТЕНИЕ»
-1 + 1 + 1 * © а) пусть часть плохая, зато целое хорошее
+ 1 -1 -1 Ф * ® б) хотя часть хорошая, да целое плохое
+ 1 -1 + 1 © • У а) когда целое плохое, хор .часть - уже
-1 + 1 -1 © 9 © хорошо
б) плохая часть портит хорошее целое
! +1 + 1 + 1 * а) целое хорошее и часть хороша
! -1 -1 -1 * 1 ! чу ' б) целое плохое и часть плоха
Используя введенное понятие конфигурации еоп1'(1) = (ха\(х1), уа1(лс2), о), определим сокращенную запись для звена Ь = ((11, П (г), х1), (12, к(г), х2), с). Звено может быть представлено в виде
((11,12), о1, о2, г, с), где с - конфигурация связи.
Рассмотрим два примера звеньев: их формальную запись, семантическую интерпретацию и графическую схему.
Пример 1. {(человек, человек), (добродетель, порок), (добродетель, порок), (форма, содержание), (+1,-1,-1))
Интерпретация: Человек, с виду добродетельный, в действительности может оказаться дурным.
ЧЕЛОВЕК форма
ЧЕЛОВЕК содержание
лобролетель порок
а.
©i
доородетель порок
Рисунок 5 Графическая схема звена (пример 1). Пример 2 «человек, мир), (труд, безделье), {доход, убыток), {человек, мир), (+1,+ 1,+ 1)). Интерпретация: Кто трудится, будет жить в достатке.
ЧЕЛОВЕК МИР
труд безделье
доход убыток
Рисунок 6 Графическая схема звена (пример 2).
Модель реальности. Полная схема пословицы, (пп. 2.2.1, 2.2.2).
Анализ экспериментальной выборки показал, что пословичные высказывания отражают взаимодействие человека с окружающим миром. В пословицах представлены четыре основных вида утверждений:
1. ЧЕЛОВЕК —> МИР: влияние поступков, черт характера человека на его судьбу, отношенне к нему других людей.
2. МИР —> ЧЕЛОВЕК: влияние внешних обстоятельств на поступки человека; необходимость совершать вынужденные действия.
3. ЧЕЛОВЕК > ЧЕЛОВЕК: установление приоритетов, зависимостей между чертами характера человека или внутри коллектива.
4. МИР > МИР: установление приоритетов, зависимостей между внешними обстоятельствами.
Данные четыре вида утверждений могут быть объединены в полной схеме пословицы. Полная модель семантики пословицы включает три звена и представляет собой упорядоченную тройку
Prov = {({til, tl2), oll, ol2, rl, cl), «iÜ,t2), ol,o2,r,c>, ((121, t22), o21, o22, r2, c2)\ где
tl= til = tl2 = человек, t2 = t21 = t22 = мир, ol = ol2, o2 = o22.
Графическая схема полной модели пословицы включает схемы трех звеньев: ЧЕЛОВЕК г МИР
г 1
г2
В
oll о12
о21 о22
Рисунок 7. Графическая схема полной модели пословицы.
Первое и третье звено характеризуются отношением типа «предпочтение». Они устанавливают приоритеты внутри каждой из сфер МИР и ЧЕЛОВЕК. Второе звено характеризуются отношением типа «влияние». Оно устанавливает причинно-следственную связь между двумя сферами, направленную либо в одну, либо в друаую сторону. Все акторы первого звена и первый актор второго звена имеют значение человек, второй актор второго звена и все акторы третьего звена имеют значение мир. В полной модели пословицы отдельные звенья могут оставаться пустыми (незадействованными).
Ниже приведены примеры полных схем трех пословиц, в том числе таких, где задействованы не все звенья.
Пример 3: Мал золотник, да дорог, {((человек, человек), (добродетель, порок), (добродетель, порок), (форма, содержание), (-1, +1, +1), 0, 0). Интерпретация: Человек с виду добродетельный может оказаться дурным.
ЧЕЛОВЕК МИР
форма содерж.
добродетель порок
Рисунок 8 Графическая схема модели пословицы (пример 3). Пример 4: Кто рано встает, тому Бог дает. (0, ((человек, мир), (труд, безделье), (доход, убыток), (человек, мир), <+!,+ !,+1)), 0). Интерпретация: Кто трудится, будет жить в достатке.
ЧЕЛОВЕК МИР
временно
добродетель порок
@ * » 4 —* б * • •
доход убыток
Рисунок 9 Графическая схема модели пословицы (пример 4).
Пример 5: Отольются волку овечкины слезки. (0, ((человек, мир), (добродетель, порок), (удовольствие, страдание), (человек, мир), (-1, -1, +1)), «мир, мир), (удовольствие, страдание), (акция, реакция), (+1, -1, -1))). Интерпретация: дурной человек временно может жить припеваючи, но в конце котюв он будет наказан.
ЧЕЛОВЕК МИР
временно в итоге
доородетель порок
удовольствие страдание
Рисунок 10 Графическая схема модели пословицы (пример 5)
Представление о модели реальности для пословичного высказывания позволяет сформулировать правила построении формального описании пословицы по тексту на естественном языке. Они могут быть описаны в виде последовательности шагов, приведенной в п. 2.2.4 диссертационной работы. Данная последовательность имеет полуформальный характер, ее назначение -служить руководством экспертам при работе моделью. Необходимо отметить, что полностью автоматизировать процесс генерации схем в настоящее время не представляется возможным.
1. Оценка высказывания. Определить ±-оценку высказывания (одобрение или осуждение).
2. Центрачьное отношение. Определить, присутствует ли в пословице причинно-следственная связь ЧЕЛОВЕК —* МИР или МИР —> ЧЕЛОВЕК', если присутствует, то каково ее направление;
3. Доминирующие отношения.
a. Определить, присутствуют ли в семантике высказывания доминирующие отношения; к какой из двух сфер (МИР или ЧЕЛОВЕК) они относятся. При этом следует ориентироваться на список возможных маркеров отношений, доступный в модели.
b. Определить конфигурации доминирующих отношений (из списка конфигураций). При этом их ±-оценки должны быть согласованы с общей ¿-оценкой высказывания.
4. Объекты (оппози1!ии). Подобрать наиболее близкие по семантике оппозиции из классов МИР и ЧЕЛОВЕК для каждой из частей высказывания.
В третьем разделе второй главы (2.3) перечисляются списки элементов модели, полученные в результате анализа текстов из экспериментальной выборки. Полученные списки являются рабочими, их нельзя считать универсальными (применимыми на любом материале) или оптимальными. Задача формирования оптимальных словарей объектов выходит за рамки диссертационного исследования, ее решение должно осуществляться в сотрудничестве с экспертами-паремиологами.
При формировании списков применялся «экономный» подход, при котором количество элементов модели минимально, и каждый из них охватывает широкое семантическое поле (включающее множество семантически близких понятий). При этом каждому структурному элементу соответствует уникальный компонент смысла, не выразимый через комбинацию других элементов. Таким образом, исключается возможность двоякого представления семантики, что существенно для реализации алгоритмов семантического поиска по семантическим отношениям и по ключевым словам.
В результате словарь был ограничен минимальным набором из 11 оппозиций (5 из класса ЧЕЛОВЕК, 6 из класса МИР), 9 типов доминирующих
отношений и 5 видов конфигураций, что позволило описать семантику до 90% высказываний из выборки, сохраняя основные отношения сходства, противоположности, частичного сходства. Полученные рабочие списки были приведены выше при описании формальной модели. Численные показатели результатов верификации модели на экспериментальной выборке: около 70% высказываний пред ставимы хорошо и удовлетворительно, 20% - частично, еще 10% — не могут быть адекватно представлены в модели.
Третья глава посвящена решению третьей задачи диссертационного исследования: в ней показано, как предложенная формальная модель пословичного высказывания может быть использована для описания алгоритмов семантического поиска. Специально для исследования поискового потенциала модели в экспериментальную выборку были включены 100 английских пословиц.
Основной предпосылкой для создания алгоритмов семантического поиска является тот факт, что модель базируется не на лексическом составе высказывания, а на структуре описанной в пословице ситуации. Соответственно, если два высказывания соотносятся со сходными ситуациями, то они будут иметь определенные совпадения в семантике.
Модель позволяет определить следующие семантические отношения, базирующиеся на регулярных совпадениях в формальных описаниях высказываний: подобие, противоположность (контрапозиция/антонимия), частичное сходство.
1. Подобными можно считать высказывания, обладающие идентичной семантической структурой.
2. Противоположными (контрапозитивньши либо антонимичными в зависимости от структуры) можно считать высказывания, содержащие одни и те же содержательные элементы (уподобления, оппозиции), но с противоположной ±оценкой конфигурации. Контрапозиция - выражение одной и той же идеи через отрицание (знание приводит к успеху, глупость приводит к неудаче). Антонимия - описание противоположных ситуаций (внешность хорошая, натура плохая и наоборот внешность плохая, натура хорошая).
3. Для определения частичного сходства нет четких критериев. Любое совпадение фрагментов семантической структуры двух высказываний может быть проинтерпретировано как семантическая близость.
Модель задает^ разбиение пословичных высказываний на кластеры таким образом, что высказывания, принадлежащие к одному кластеру, обладают сходной семантической структурой, соответственно их семантические схемы 1 содержат общие фрагменты. Между разными кластерами также существуют регулярные семантические параллели (общая картина разбиения и пример кластера приведены в разделе 4.5).
Итак, структура модели такова, что многие регулярные совпадения в формальных описаниях двух высказываний могут быть содержательно интерпретированы и на их основе разработаны критерии семантического поиска.
Модель также может быть использована для поиска с помощью поисковых запросов (раздел 3.3). Основу такого запроса составляют ключевые слова. Особенность предлагаемого подхода заключается в том, что ключевые слова интерпретируются не как теги, а как семантические конструкты: каждому ключевому слову сопоставлены одно или несколько (объединенных логическим ИЛИ) фиксированных сочетаний элементов схемы пословичного высказывания.
Так, например, выглядят формальные записи поисковых слов жадность (желаемый доход, но доступный убыток) и учение (временное невежество, но в итоге-знания):
ЧЕЛОВЕК МИР
желаемое доступное
9доход
убыток
Рисунок 11 Формальная схема поискового слова жадность.
ЧЕЛОВЕК МИР временно в итоге
знание?
глупость
Рисунок 12 Формальная схема поискового слова учение.
За счет комбинационных возможностей модели возможно определить широкий спектр понятий, не входящих в ее базовый словарь, но выразимых через сочетания его элементов (такие понятия как смелость, терпение, богатство, неблагодарность, неисправимость, правда, сила/власть, основательность, невзгоды, кара, дружба, закон, внешность, беспечность, своеволие, жадность, несвоевременность, промахи, спешка, опытность, одиночество, отчаянность, злонамеренность, похвальба, самопожертвование, учение, трусость, соблазн, недостойный, тайное, судьба, бестолковый, неопытность, скромность и др.)
В настоящий момент поисковые слова заносятся в базу данных и выверяются в итеративном процессе анализа пословичных высказываний из корпуса.
Разработанный поисковый аппарат востребован в контексте создания электронных мультиязычных словарей пословиц.
-20В четвертой главе описывается структура и интерфейсы информационной системы МЕТАФОРА, реализующей семантическую модель пословицы.
Система представляет собой клиент-серверное приложение, располагается в сети Интернет по адресу http://metaphora2.ru/ и включает в себя:
1. библиотеку текстов пословиц;
2. редактор семантических моделей пословиц;
3. поисковый аппарат:
a. для семантического поиска по различным критериям сходства;
b. для поиска по ключевым словам.
4. демонстрационные модули.
Система была разработана в соавторстве с В.И. Январевым (ВМиК МГУ).
Роль автора диссертационной работы заключалась в проектировании и реализации фрагмента базы данных, обеспечивающего функционирование модели и интеллектуального модуля (включая таблицы, запросы, процедуры обработки) и в проектировании и реализации пользовательских интерфейсов системы.
Роль соавтора, В.И. Январева, заключалась в проектировании клиент-серверной архитектуры системы (на базе CMS Wacko Wiki Quick Start 4.0), реализации многопользовательского режима, поддержки системы версий.
Клиентская часть системы выполнена с использованием технологии Flash (язык программирования ActionScript3, среда разработки FlexBuilder2). Серверная часть написана на PHP 5. В качестве хранилища данных используется СУБД MySQL.
На рис. 13 приведен интерфейс редактора формальных описаний пословиц, реализованный с помощью технологии Flash (доступ к нему имеют администраторы системы). В левой части располагается интерактивный редактор схемы активной пословицы. В правой (на вкладках) - поисковые инструменты, в числе которых: поиск по фрагменту текста, поиск по фрагменту схемы, по ключевым словам, а также модуль статистики.
Ä МЕТАФОРА Моделирование ж Демонстрационный модуль . Вход : Тексты ( Оппозиции ( Образы J Тождества , ¡ R
' в ./.'■'-"Л'
"....... _ 1
кремйкн;; SKCff #_ Y H« •« ««г» наемница (ejoji I
Д|| О -i ' 'О }
: „ ,:> Е 't V 1 "*v, t- 1 «SI i 1! -t J - •>ЪШЩЩ ШЙ v mtßk •• V. 'г .»< J': V ;i«K: • V21 ' 'тз: j . - %! i- »С.КО.ПЫКО. строку itía)
Рисунок 13 Интерфейс редактора формальных описаний пословиц ИС «МЕТАФОРА».
Для широкого круга пользователей (без ограничения прав доступа) открыты демонстрационные модули, которые в более привычном для пользователей Интернет HTML-интерфейсе демонстрируют основные возможности модели:
1. поиск пословиц по набору ключевых слов;
2. поиск ключевых слов, проассоциированных с заданной пословицей;
3. поиск пословиц, находящихся в отношении подобия/противоположности /частичного сходства с заданной пословицей;
Также в HTML-интерфейсе реализован модуль, позволяющий экспертам конструировать семантические схемы пословиц с помощью электронной анкеты (вопросно-ответной подсистемы).
В Заключении сформулированы основные научные и практические результаты работы, обсуждаются перспективные направления дальнейших исследований. Основное направление дальнейших работ заключается в совершенствовании аппарата интеллектуального поиска и анализа: расширении списка ключевых слов, исследовании возможностей формального описания сложных семантических отношений (отношения противоречия, частичного сходства). При расширении корпуса текстов словари элементов могут быть уточнены. Большой интерес с точки зрения перспектив использования модели представляет перенесение ее на ЦОТ других жанров (сказку, басню и др.).
В Приложениях приведен список всех полученных в процессе исследования формальных описаний пословичных высказываний из экспериментальной выборки и список имеющихся в базе ключевых слов с их формальными интерпретациями.
III. ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Поставленная в диссертационном исследовании задача - разработка формального представления семантики пословицы в базе знаний - была успешно решена. В процессе исследования были решены следующие частные задачи.
1. Проведен анализ предметной области, в процессе которого выявлены характерные особенности ЦОТ и описана структура предметной области.
2. Разработана структура базы знаний для представления семантики пословицы как частного случая ЦОТ (определены классы, объекты, отношения). Предложена формальная модель пословичного высказывания. Разработан графический язык для записи формальных схем.
3. Разработан аналитический аппарат базы знаний: определены критерии семантического сходства (подобия, противоположности, частичного сходства); сформулированы принципы поиска по ключевым словам.
4. Модель верифицирована на экспериментальной выборке текстов: словарь современных русских пословиц под ред. В.М. Мокиенко (505 единиц) и 100
чайно выбранных английских пословиц. В модели представимы до 90%
¡называний из выборки (70% хорошо и 20% удовлетворительно).
5. База знаний реализована (в соавторстве) в информационной системе
ТАФОРА, представляющей собой клиент-серверное приложение.
Список публикаций
1. Малкова A.C. Разработка представления семантики ценностно-ориентированных текстов в базе знаний (на материале русских пословиц) // НТИ. Сер. 2. Информационные процессы и системы. 2011. № 1. — С. 13-23.
2. Малкова A.C. Формальное разрешение проблемы противоречивости оценок в ценностных высказываниях (на материале русских пословиц). // Вестник РГГУ (в печати).
3. Малкова A.C. Представление знаний в ценностных суждениях (на материале русских пословиц) // Двенадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2010 (2024 сентября 2010 г., г. Тверь, Россия): Труды конференции. Т.1. — М: Физматлит, 2010. — С. 353 -361.
4. Малкова A.C., Январев В.й. Информационная система для анализа социокультурных данных, заложенных в фольклорных текстах // Проблемы математической истории: основания, информационные ресурсы, анализ данных / Отв. ред. Г.Г. Малинецкий, A.B. Коротаев. — М.: Книжный дом «ЛИБРОКОМ», 2009. — С. 116-130.
5. Малкова A.C., Январев В.И. Формальная модель семантики художественного текста (на материале русских пословиц) // Моделирование и анализ информационных систем, 2007, Т. 14, №.4. — С.43-53.
6. Малкова A.C. Моделирование структуры пословиц // 14 международная конференция «Математика-Компьютер-Образование» г. Пушино, 22-27 января 2007. Тезисы. — С. 288.
7. Малкова A.C. Разработка информационной системы для анализа структуры пословиц // Третьи Курдюмовские чтения: Синергетика в естественных науках, г.Тверь, 19-22 апреля 2007. Сборшк трудов. — С. 428.
8. Малкова A.C., Январев В.И. Информационная система для анализа социокультурных данных, заложенных в фольклорных текстах // Математическое моделирование исторических процессов: тезисы докладов П международной конференции. — М.: ИПМ им. М.В.Келдыша, 2007. — С. 45-46.
Оглавление автор диссертации — кандидата технических наук Малкова, Анастасия Сергеевна
СОДЕРЖАНИЕ.
ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ.;.
ВВЕДЕНИЕ.;.
1 АНАЛИЗ СОСТОЯНИЯ ВОПРОСА И ФОРМИРОВАНИЕ СТРУКТУРЫ ДИССЕРТАЦИОННОГО ИССЛЕДОВАНИЯ. 131.1 Анализ современного состояния исследований в области представления знаний .;.,.
1.1.1 Представление знаний в системах искусственного интеллекта.
1.1.2. .Методы представления знаний.
1.2 Онтологическая^модель представления знаний предметной области.
1.2.1 Преимущества онтологической модели.
1.2.2 Описание онтологической-модели.
1.3; Проблема представления знаний в ЦОТ.;.
1.3'Л Лингвистическая ¡семантика.•.
1.3.2 Структурная фольклористика.,.
1.3:3" Когнитивная лингвистика.431.4: . Итоги; анализа, формирование цели и структуры диссертационного исследованиям.,!.;.
К ФОРМАЛЬНОМУ ПРЕДС ТАВЛЕНИЮ
СЕМАНТИКИ ПОСЛОВИЦЫ (НА БАЗЕ ОНТОЛОГИЧЕСКОЙ МОДЕЛИ).
211 Анализ предметной области применительно к решаемой задаче.
2.1.1. Обоснование выбора объекта исследования:.
2.1.2. Цели моделирования (постановка практических задач).
2.1.3 Теоретические основания для выделения объектов и отношений в предметношобласти.;.:.'.'.
2.2 Модель семантика пословицы.
2.2.1 Модель реальности. Нестрогое описание модели пословицы.
2.2.2" Формальное описание модели пословицы.
2.2.3 Графическое представление модели.
2.2.4 Правила построения формального описания по тексту на естественном языке.
2.3 Словари»элементов модели.
2.3.1 Проблема формирования словаря элементов.
2.3.2 Оппозиции.1.
2.3:3 Уподобления.1.
2.3.4 Конфигурации.
Выводы.
3 МЕТОДИКА ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА СЕМАНТИКИ пословице ПОМОЩЬЮ МОДЕЛИ.;.
3.1 Разрешение в модели проблем семантической многозначности и внутренней противоречивости пословичного фонда.
3.1.1 Проблема многозначности.
3.1.2 Проблемы внутренней противоречивости пословичного фонда.ЛОО
3.2 Формальные, определения семантических отношений.
3.2.1 Подобие.
3.2.2 Противоположность (антонимия/контрапозиция).
3.23 Частичное сходство.:.
3.2.4 Сходство по ключевому слову.
3.2.5 Противоречие*.
3.3 Поисковые запросы.
3.3.1 Структура запроса.
3.3.2 Обзор результатов.
Выводы.:.:„.::.
4 ИНФОРМАЦИОННАЯ СИСТЕМА «МЕТАФОРА».
411 Технические характеристики ИС МЕТАФОРА.
4.1.1 Общее описание системы.
4.1.2 Функциональные требования к системе.
4Л .З Архитектура системы.
4-1.4 Средства реализации.
4;21 База знаний ИС МЕТАФОРА.
4.2.Г Структура|базы знаний.
4.2.2 Реализация поискового аппарата.
4 3 Пользовательские интерфейсы. Работа пользователей с системой:.130.
4.3.1 Под система, авторизации.
4.3:2 Редактор структурных описаний пословиц .131:
4:3;3 - Редактор словарешэлементов.:.137;
4:3.4 Демонстрационный модуль. 1394.3 ;5 Анкета-конструктор.:.
4.4. Применение системы для анализа семантики пословиц.
4.5 Результаты использования ИС МЕТАФОРА для верификации модели на экспериментальной выборке текстов.144'
4.5:1 Выбор фактического материала.1.
4:5.2 Разбиение на кластеры.
4.5.3 Пример кластера.
4.5.4 Количественные показатели.:.
Выводы.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Малкова, Анастасия Сергеевна
Актуальность
Представление знаний в настоящее время является одним из центральных направлений развития информационных технологий. Основная цель направления - разработка методических оснований и прикладных средств, позволяющих использовать вычислительные машины для решения интеллектуальных задач, требующих глубоких знаний о предметной области, таких как принятие экспертных решений, интеллектуальный поиск, извлечение актуальных знаний из больших объемов необработанных данных.
Ядром интеллектуальных систем, основанных на знаниях, является формализованная модель реальности — структурное описание, в котором основные закономерности строения и функционирования элементов предметной области описаны в терминах формальных объектов и отношений. Строгое формальное описание позволяет формулировать алгоритмы для манипулирования знаниями: вывода новых знаний на основе имеющихся, выдачи ответов по запросам, сканирования на предмет наличия противоречий и т.п.
Системы, основанные на знаниях, в настоящее время разрабатываются в таких областях, как медицина1, экономика, анализ новостных лент. Представление знаний является одним из перспективных направлений развития сети Интернет (проект Semantic Web).
Анализ семантики ценностно-ориентированных текстов — это одна из областей, где методы представления знаний до сих пор не использовались.
1 В области медицины созданы большие стандартные, структурированные словари, например, такие как SNOMED (Price and Spackman 2000) и семантическая сеть Системы Унифицированного Медицинского Языка (the Unified Medical Language System) (Humphreys and Lindberg 1993)
Термин ценностно-ориентированные применяется в настоящей работе для обозначения текстов, описывающих явления, лежащие в области этики и морали. Это пословицы, басни, притчи, афоризмы. Семантическую основу ЦОТ составляет проблемная ситуация или комплекс проблемных ситуаций: реализация морального выбора, разрешение социального конфликта, предписание поведенческого сценария, этическая оценка качеств людей и событий.
Актуальность создания семантических моделей для- ЦОТ обусловлена тем, что-ЦОТ являются важным компонентом языка, как самостоятельно, так и входя в- состав других, более крупных произведений, где они часто занимают акцентные позиции: заголовки, эпиграфы, резюме (мораль) и т.п. В более широкой перспективе исследование структуры и семантической организации ЦОТ позволит глубже понять природу когнитивных процессов, лежащих в основе таких видов деятельности как вынесение этической оценки, установление причинно-следственных связей, определение связности текста на уровне сюжета и др.
Отсутствие практики применения методов представления знаний для анализа' семантики' ЦОТ связано с объективной сложностью выделения формальных объектов в данной предметной- области. Для решения поставленной задачи в рамках настоящего диссертационного исследования предлагается' адаптировать методы, разработанные в дисциплинах, для которых ЦОТ является традиционным объектом: филологии, когнитивной лингвистики.
В работе была осуществлена формализация структурного подхода, развившегося на базе классической филологии (О.М. Фрейденберг), структурной антропологии (К. Леви-Стросс, А. Дандис, Е.М. Мелетинский) и когнитивной лингвистики (Дж. Лакофф) для построения формальной семантической модели частного случая ЦОТ - пословицы.
Цели и задачи диссертационной работы
Целью диссертационной работы является построение специализированной базы знаний (описание объектов, отношений, ограничений на значения и правил вывода) для формального представления семантики ценностно-ориентированных текстов (пословиц) и ее программная реализация в информационной системе «МЕТАФОРА - тезаурус русских пословиц».
Для достижения заявленной цели были поставлены и решены следующие задачи:
1. Анализ научно-методических основ формального представления семантики ЦОТ: a. анализ существующих подходов к описанию семантики ЦОТ в дисциплинах, для которых ЦОТ является традиционным объектом исследования (фольклористике, лингвистической семантике, когнитивной лингвистике); b. анализ методов представления знаний в ИИ;
2. Разработка методологического подхода к формальному представлению семантики пословицы: a. разработка и обоснование общей структуры базы знаний для представления семантики ЦОТ; b. разработка формальной модели семантики пословицы, в том числе составление словарей элементов базы знаний, формулировка правил построения формального описания по тексту на ЕЯ;
3. Разработка методики интеллектуального анализа семантики пословиц с помощью базы знаний, включающая: a. формальное описание критериев семантического сходства пословиц; b. описание языка поисковых запросов по ключевым словам.
4. Разработка структуры базы данных и требований к информационному наполнению информационно-справочного Интернет-ресурса «МЕТАФОРА - тезаурус русских пословиц», реализующего формальную модель (включая аппарат интеллектуального анализа семантики пословицы).
Методы исследования
В диссертационной работе используются методы искусственного интеллекта (методы представления знаний), когнитивной лингвистики, структурного подхода в филологии (фольклористике).
Объект и предмет исследования
Объектом исследования являются русские пословицы. В качестве экспериментальной выборки использован словарь современных русских пословиц под ред. В.М. Мокиенко [92], содержащий 505 единиц. Выбор обусловлен тем, что словарь снабжен обширным справочным аппаратом, включающим толкования, культурологическую справку, примеры употреблений в художественной литературе, а также тем фактом, что при относительно сжатом объеме словарь охватывает большое тематическое многообразие пословиц.
Предметом исследования является семантика пословицы.
Результаты, выносимые на защиту
Получены лично автором и выносятся на защиту следующие научные результаты:
1. Методологический подход к проектированию базы знаний для представления семантики ЦОТ: a. общая структура базы знаний для данной предметной области (принципы выделения формальных объектов и отношений); b. формальная модель семантики частного случая ЦОТ — пословицы.
2. Методика интеллектуального анализа семантики пословицы с помощью базы знаний, включающая: a. формальные критерии семантического сходства пословичных высказываний; b. язык поисковых запросов.
3. Структура данных, аппарат интеллектуального анализа и требования к информационному наполнению информационно-справочного Интернет-ресурса «МЕТАФОРА — тезаурус русских пословиц».
Научная новизна
Научная новизна результатов диссертационной работы заключается в:
1. Разработке нового подхода к представлению знаний в ЦОТ, объединяющего методы структурной фольклористики, когнитивной лингвистики и искусственного интеллекта.
2. Построении новой формальной модели пословицы, позволяющей формально описывать критерии семантического сходства высказываний и осуществлять поиск по запросам, состоящим из ключевых слов.
3. Создании информационной системы, включающей уникальный интеллектуальный поисковый аппарат.
Теоретическая значимость и практическая ценность
Теоретическая значимость работы заключается в разработке методологического подхода к представлению знаний в ЦОТ, отражающего характерные особенности предметной области и, как следствие, позволяющего эффективно решать специфические задачи интеллектуального поиска и анализа.
Практическая ценность работы заключается разработке средств семантического анализа пословичных высказываний, которые могут быть использованы в электронных словарях и тезаурусах ЦОТ, системах машинного перевода, поисковых машинах, в программном обеспечении филологических, этнографических (в т.ч. кросскультурных) исследований, а также для решения других задач интеллектуального семантического анализа ЦОТ.
Апробация полученных результатов
Результаты диссертационной работы докладывались и обсуждались на конференциях: ХЬ Международной филологической конференции СПбГУ (2011), КИИ-2010, «История и математика-2007», «Рефлексивные процессы и управление-2007»; на семинарах ИСА (2010, 2009), ВИНИТИ (2009), «Искусственный интеллект» в Политехническом музее (2009), «Искусственный интеллект» ВМиК МГУ (2008), «Фольклор и постфольклор» Центра. Типологии и Семиотики Фольклора РГГУ (2007, 2010).
Публикации
Научные результаты были опубликованы в журналах, рекомендованных ВАК: «Научно-техническая информация» Сер.2 «Информационные процессы и системы», «Моделирование и анализ информационных систем» (ЯрГУ), Вестник РГГУ серия «Информатика, защита информации, математика» (в печати)', в сборниках трудов: Двенадцатой национальной конференции по искусственному интеллекту КИИ-2010, конференции «Математическая история-2008», конференции «Курдюмовские чтения-2007» а также в тезисах трех конференций.
Структура и объем работы
Диссертация состоит из введения, четырех глав, заключения, библиографического списка и двух приложений. Объем основного текста работы — 154 страницы. В тексте содержатся 47 рисунков и диаграмм, 20 таблиц, список литературы включает 111 наименований.
Заключение диссертация на тему "Разработка представления семантики ценностно-ориентированных текстов в базе знаний"
Выводы
Информационная система МЕТАФОРА представляет собой программную реализацию семантической модели пословицы.
Система включает модули создания и редактирования структурных описаний семантики пословиц, редактор словарей элементов модели и интеллектуальный поисковый аппарат, позволяющий осуществлять семантический поиск по различным критериям сходства и по ключевым словам. Система работает в многопользовательском режиме.
В главе приведены результаты верификации модели на экспериментальной выборке текстов (словарь пословиц под ред. Мокиенко, содержащий 505 единиц). Приведено обусловленное структурой модели разбиение множества текстов из выборки на кластеры, рассмотрен пример одного кластера. Даны количественные показатели результатов верификации: процентное соотношение объемов полученных кластеров между собой; а также количества высказываний, представимых в модели (ок. 90%), к общему числу текстов.
Опыт верификации модели в ИС МЕТАФОРА показал, что модель может быть успешно использована при проектировании базы знаний ИС, предназначенной для анализа семантики ЦОТ.
Структура базы знаний, реализация поискового аппарата и оригинальные (разработанные специально для модели) решения по интерфейсам могут быть использованы при расширении модели, ее адаптации для ЦОТ других жанров.
ЗАКЛЮЧЕНИЕ
Поставленная в диссертационном исследовании задача была успешно решена. Была разработана методика представления знаний для предметной области «ценностно-ориентированные тексты» и создана база знаний для представления семантики частного случая ЦОТ — пословицы. В процессе исследования были решены следующие частные задачи:
Проведен анализ предметной области (рассмотрены ключевые работы, выполненные в рамках дисциплин, для которых ЦОТ является традиционным объектом исследования: структурной фольклористики, когнитивной лингвистики), в процессе которого выявлены характерные особенности ЦОТ и определены критерии выделения формальных объектов и отношений (описана-структура предметной области).
Разработана структура базы знаний для- представления семантики пословиц (определены классы, экземпляры, отношения). Разработана модель пословичного высказывания. Создан рабочий словарь элементов* модели. Разработан графический язык записи формальных схем.
Наказе модели разработан* интеллектуальный поисковый аппарат: определены формальные критерии семантического1 сходства (подобие, антонимия/контрапозитивность, частичное сходство, противоречие); сформулированы принципы поиска по ключевым словам.
Модель верифицирована на экспериментальной выборке текстов (словарь современных русских пословиц под ред. В.М. Мокиенко, 505 единиц). Модель покрывает до 90% высказываний из выборки. Выявлена структура семантических кластеров, задаваемых моделью.
Формальная модель реализована (в соавторстве) в информационной системе МЕТАФОРА, представляющей собой клиент-серверное приложение (http://www.metaphora2.ru). Вклад автора заключался в разработке структуры базы знаний и интерфейсов системы. Система предоставляет средства для создания и редактирования семантических схем пословичных высказываний, администрирования словарей элементов, осуществления семантического поиска по различным критериям сходства и по ключевым словам.
Среди недостатков модели - существенный процент лишь частично представимых в модели текстов (до 20%) и совсем непредставимых (около 10%); не в полной мере проработанный аппарат поиска; зависимость качества формальных описаний от компетентности эксперта.
Основное направление дальнейших работ заключается в совершенствовании аппарата интеллектуального поиска и анализа: расширении списка ключевых слов, исследовании нюансов описания формальных семантических отношений (в особенности отношения противоречия). При расширении экспериментальной выборки словари элементов могут быть уточнены. Большой интерес с точки зрения перспектив использования модели представляет перенесение ее на ЦОТ других жанров (сказку, басню и др.).
Вклад диссертационного исследования в науку обусловлен тем, что впервые для ЦОТ была предложена и обоснована методика, базирующаяся на глубоком изучении внутренней логики предметной области, а потому позволяющая на новом уровне эффективности решать задачи интеллектуального поиска и анализа.
Библиография Малкова, Анастасия Сергеевна, диссертация по теме Теоретические основы информатики
1. Аверкин A.M., Блишун А.Ф. Гаврилова А.Т. и др. Приобретение и формализация знаний // Искусственный интеллект. Справочник. Кн. 2 Модели и методы. — М.: радио и связь, 1990.
2. Арутюнова Н.Д. Метафора и дискурс. // Теория метафоры. Вступительная статья. — М.: Прогресс, 1990.
3. Арутюнова Н.Д. Язык и мир человека. М., 1998.
4. Баевский B.C. Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы. — Языки славянской культуры, М., 2001.
5. Баранов А.Н. О типах сочетаемости метафорических моделей. // Вопросы языкознания, 2003, №2.
6. Баранов А.Н. Метафорические модели как дискурсивные практики // Известия АН. Сер. Литературы и языка, 2004. Т.65. №1.7., Барли Н. Структурный подход к пословице и максиме. // Паремиоло-гические исследования, п/р Г.Л.Пермякова. — М.: "Наука", 1984.
7. Барт Р. Лингвистика текста. // Новое в зарубежной лингвистике. Вып. VIII.' Лингвистика текста. — М.; Прогресс, 1978. С.442-449.
8. Белоногов Г.Г., Гиляровский Р.Г., Егоров B.C. Системы фразеологического машинного перевода RETRANS и ERTRANS в сети Интернет. // НТИ: Сер. 1. Организация и методика* организационной работы. 2000. №3. С. 10-11.
9. Белоногов Г.Г., Зеленков Ю.Г., Новоселов А.П. Системы фразеологического машинного перевода. Состояние и перспективы развития. // НТИ. Сер. 2. Информационные процессы и системы. 1998. №12. С. 16-23.
10. Богатырев П.Г. Якобсон P.O. Фольклор как особая форма творчества. //Богатырев П.Г. Вопросы теории народного искусства. — М., 1971.
11. Бремон К. Логика повествовательных возможностей. // Семиотика и искусствометрия. — М.: Мир, 1972. С. 108-135.
12. Бремон К. Структурное изучение повествовательных текстов после
13. B.Проппа. // Семиотика. — М: Радуга, 1983. С. 429-436.
14. Венскович М.С. Понятие ситуации и смысл высказывания. // Учен, зап. МГПИИЯ им. М. Тореза. Вып. 95. Вопросы романо-германской филологии. —М., 1976. С.27-41.
15. Виноград Т. Программа, понимающая естественный язык. — М.: Мир, 1976.
16. Гаазе-Рапопорт М.Г., Поспелов Д:А., Семенова Е.Т. Порождение структуры волшебных сказок. — М.: АН' СССР, Научный совет по комплексной проблеме "Кибернетика", 1980. — 20 с.
17. Гаазе-Рапопорт М.Г. Поиск вариантов в сочинении сказок. // Зарипов Р.Х. Машинный поиск вариантов при моделировании творческих процессов. — М.: "Наука", 1983.
18. Гаазе-Рапопорт MX., Поспелов Д.А., Семенова Е.Т. Новые сказки. // Новости искусственного интеллекта, 1992. №4.
19. Гаврилова Т.А. От поля знаний к базе знаний через формализацию // Представление знаний в экспертных системах. — Л.: ЛИИАН, 1989.1. C. 16-24.
20. Гаврилова Т.А. Червинская K.P. Извлечение и структурирование знаний для экспертных систем. — М.: Радио и связь, 1992.
21. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем // Учебник для вузов. — СПб.: Питер, 2000.
22. Гаврилова Т. А., Воинов А. В. Когнитивный подход к созданию онто-логий. // НТИ Сер. 2 Информационные процессы и системы. 2007. №3. С. 19-24.
23. Гиршман М. Ритм и целостность прозаического художественного произведения // НТИ Сер. 2 Информационные процессы и системы. 1982. №12. С. 1-5.
24. Горбачев С.Б., Клещев A.C., Черняховская М.Ю. Обзор языка представления знаний МЕДИФОР-2 // Теоретические основы компиляции.
25. Новосибирск, 1980. С. 78-90.
26. Голосовкер Я.Э. Логика мифа. — М.: Главная редакция восточной литературы издательства «Наука», 1987.
27. Греймас А. Ж. К теории интерпретации мифологического нарратива. // Зарубежные исследования по семиотике фольклора. — М.: 1985. С. 109-144.
28. Даль В. Пословицы русского народа. Т. I-II. — М.: 1984.
29. Дандес А. От этических единиц к эмическим в структурном изучении сказок. // Дандес А. Фольклор: семиотика и/или психоанализ. — М.: Восточная литература, 2003.
30. Дандес А. Структурная типология индейских сказок // Дандес А. Фольклор: семиотика и/или психоанализ. — М.: Восточная литература, 2003.
31. Дандес А. О структуре пословицы. // Паремиологический сборник. Пословица. Загадка, п/р Г.Л.Пермякова. — М.: "Наука", 1978.
32. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы: модели, инструменты, приложения. http://www.intuit.ru/department/expert/ontoth/.
33. Дымарский М.Я. Проблемы текстообразования и художественный текст. — М.: УРСС, 2001.
34. Жолковский А.К. К описанию выразительной структуры паремий. // Паремиологический сборник. Пословица. Загадка, п/р Г.Л.Пермякова.1. М.: "Наука", 1978.
35. Зарипов Р.Х. Машинный поиск вариантов при моделировании творческого процесса. — М.: Наука, 1983.
36. Зубов A.B. Вероятностно-алгоритмическая модель порождения текста , (семантико-синтаксический аспкт): Дис. докт. филол. наук. — М.,1985.
37. Зубов A.B. Теория и практика порождения текстов // Вестник МГЛУ. Сер. 1. Филология. 1996. № 1. С. 96-112.
38. Зубов A.B., Зубова И.И. Основы искусственного интеллекта для лингвистов: Учеб. пособие. — М: Университетская книга; Логос, 2007.
39. Зубова И.И. Формализация содержания текстов малого объема // От слова к тексту. Материалы Междунар. науч. конф. (Минск, 13-14 ноября 2000 г.). В 3 ч. 4.2. — Минск: МГЛУ, 2000. С. 157-163.
40. Зубова И.И. Формализация структуры и содержания французских паремий //Вестник МГЛУ. Сер. 1. Филология. 2001. № 9. С. 174-185.
41. Зубова И.И., Михаилян A.A. Три модели порождения текста загадки // Вестник МГЛУ. Сер. 1. Филология. 1999. № 5. С. 147-165.
42. Зубова И.И., Потеснова О.В. Моделирование процесса создания текста пословицы // Исследования молодых ученых. Сборник статей аспирантов. В 3 ч. Ч. 3. — Минск, 1999. С. 118-135.
43. Келемен Я. Текст и значение // Семиотика и художественное творчество.—М.: Наука, 1977. С. 104-124.
44. Клещев A.C. Представление знаний. Методология, формализмы, организация вычислений и программная поддержка // Прикладная информатика. Вып. 1. — М.: Финансы и статистика, 1983. С. 49-94.
45. Козеренко Е.Б. Концептуально-лингвистическое моделирование в интеллектуальных системах на основе расширенных семантических сетей: Автореферат диссертации на соискание ученой степени к. фил. наук:—М., 1995.
46. Константинова Н.С., Митрофанова O.A. Онтологии как системы хранения знаний, (http://www.ict.edu.ru/ft/005706/68352e2-st08.pdf)
47. Крикманн A.A. Опыт объяснения некоторых семантических механизмов пословицы. // Паремиологические исследования. п/р Г.Л.Пермякова. — М.: "Наука", 1984.
48. Крикманн A.A. Некоторые аспекты семантической неопределенно- ' сти пословицы. // Паремиологический сборник. Пословица. Загадка, п/р Г.Л.Пермякова. — М.: "Наука", 1978.
49. Кузина Л.Н. Автоматизированное формирование семантических моделей сложных объектов по текстовым источникам: Автореферат диссертации на соискание ученой степени, к. физ-мат наук: — М., 1996.
50. Лакофф Дж, Джонсон М. Метафоры, которыми мы живем. — М.: Едиториал УРСС, 2004. .
51. Леви-Брюль Л. Первобытное мышление. М.: Атеист, 1930. - 337 с.
52. Леви-Стросс К. Структура и форма. Размышления об одной работе Владимира Проппа // Семиотика. — М.: Радуга, 1983. С. 400-428.
53. Леви-СтросК. Мифологики. В 4-х томах. — М.: ИД «Флюид», 20062007.
54. Леви-Стросс К. Первобытное мышление. — М.: ТЕРРА — Книжный клуб; Республика, 1999.
55. Левин Ю.И. Логико-семиотический эксперимент в фольклоре // Семиотика и информатика / ВИНИТИ. М., 1981.- Вып. 16.- С. 145-162.
56. Левин Ю.И. Провербиальное пространство. // Паремиологические исследования, п/р Г.Л.Пермякова. — М.: "Наука", 1984.
57. Леонтьева H.H. К теории автоматического понимания естественных текстов. 4.2: Семантические словари: состав, структура, методика создания. — М.: Изд-во МГУ, 2001.
58. Лотман Ю.М. Структура художественного текста. — М.: Искусство, 1970.
59. Малкова A.C., Январев В.И. Формальная модель семантики художественного текста (на материале русских пословиц) // Моделирование и анализ информационных систем, 2007, Т. 14, №.4, С.43-53.
60. Маслова ВА. Введение в когнитивную лингвистику : учеб. пособие / В.А. Маслова. — М.: Флинта: Наука, 2007.
61. Маранда П., Кёнгас-Маранда Э. Структурные модели в фольклоре. Поиск вариантов в сочинении сказок. // Зарубежные исследования по семиотике фольклора. — М., 1985. С.194-260.
62. Мартемьянов Ю.С. Дорофеев Г.В., Опыт терминологии общелитературной лексики (о мире тщеславия по Ф. де Ларошфуко) // Вопросы кибернетики. Логика рассуждений и ее моделирование. — М.: 1983.
63. Мелетинский Е.М. От мифа к литературе. Курс лекций «Теория мифа и историческая поэтика». —М.: Российск. гос. гуманит. ун-т., 200Г.
64. Мелетинский Е.М. Поэтика мифа. — М.: Издательская фирма «Восточная литература» РАН, Школа «Языки русской культуры», 1995.
65. Мелетинский Е.М. Неклюдов С.Ю. Новик Е.С. Сегал Д.М. Проблемы структурного описания волшебной сказки. // Структура волшебной сказки. —М.: Российск. гос. гуманит. ун-т., 2001.
66. Мелетинский Е.М. Структурно-типологическое изучение сказки // Пропп В.Л. Морфология сказки. — М. Наука, 1969. С. 134-166.
67. Минский М. Фреймы для представления знаний. — М.: Энергия, 1979.
68. Минский М. Остроумие и логика когнитивного бессознательного // Новое в зарубежной лингвистике: Вып. XXIII: Когнитивные аспекты языка / Сост. и ред. В.В. Петров и В.И. Герасимов. — М.: Прогресс, 1988. С. 281-309.
69. Мифы народов мира: Энциклопедия. В 2-х т. — М.: Советская энциклопедия, 1980.
70. Молокова О.С. Методология анализа предметных знаний // Новости искусственного интеллекта. №3. С. 11-60.
71. Нариньяни A.C. Кентавр по имени ТЕОН: Тезаурус + Онтология. http://www.artint.ru/articles/narin/teon.htm
72. Неклюдов С.Ю. Почему сказки одинаковые? // Живая старина — М., 2004, №1(41). С.7-10.
73. Осипов Г.С. Информационные технологии, основанные на знаниях // Новости искусственного интеллекта. № 1. С 7-41.
74. Осипов Г.С. Построение моделей предметных областей. Неоднородные семантические сети // Известия АН СССР. Техническая кибернетика. 1990.- №5. - С.32-45
75. Осипов Г.С. Приобретение знаний интеллектуальными системами. — М.: Наука, 1997.
76. Павлович Н.В. Словарь поэтических образов. Т. 1,2. — М.: УРСС, 1999.
77. Пермяков Г.Л. От поговорки до сказки (Заметки по общей теории клише). — М.: Наука, Гл. редакция восточной литературы, 1970.
78. Пермяков Г.Л. Основы структурной паремиологии. — М.: Наука, Гл. редакция восточной литературы, 1988.
79. Пермяков Г.Л. Пословицы и поговорки народов Востока: Систематизированное собрание изречений двухсот народов. — М.: Лабиринт, 2001.
80. Пословицы и поговорки русского народа. Большой объяснительный словарь. / В.И.Зимин, A.C. Спирин — Изд. 3-е, стереотипное — Ростов на Дону: Феникс, Москва: Цитадель-трейд, 2006.
81. Поспелов Д.А. О «человеческих» рассуждениях в интеллектуальных системах // Логика рассуждений и ее моделирование. Научный совет по комплексной проблеме «Кибернетика» при Президиуме АН СССР.-М., 1983. С. 5-37.
82. Поспелов Д.А. Моделирование рассуждений. Опыт анализа мыслительных актов. — М.: Радио и связь, 1989.
83. Потебня A.A. Из лекций по теории словесности. Басня. Пословица. Поговорка. // A.A. Потебня. Теоретическая поэтика / Сост. А.Б. Муратов. — М.: Высшая школа, 1990.
84. Пропп В.Я. Морфология сказки. 2-е изд., — М., 1969.
85. Рафаева A.B., Рахимова Э.Г., Архипова A.C. Еще раз о структурно-семиотическом изучении сказки. // Структура волшебной сказки. — М.: Российск. гос. гуманит. ун-т., 2001.— С. 199-225.
86. Рикёр П. Живая метафора // Теория метафоры / Сост. Н.Д. Арутюнова. — М.: Прогресс, 1990. С. 435-455.
87. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. — М.: Наука, 1989.
88. Севбо И.П. Композиционные аспекты автоматизированной генерации текстов //НТИ. Сер. 2. Информационные процессы и системы. 199Г. № 10. С.26-32.
89. Скрэгг Г. Семантические сети как модели памяти // Новое в зарубежной лингвистике: Вып. XII: Прикладная лингвистика / Сост. В.А. Звегинцев, ред. Б.Ю. Городецкий. — М.: Прогресс, 1983. С. 228-271.
90. Словарь русских пословиц: ок. 1000 единиц / В.М. Мокиенко, Ю.А. Ермолаева, A.A. Зайнульдинов и др.; под ред. В.М. Мокиенко. — М.: Астрель: ACT, 2007.
91. Тодоров Ц. Грамматика > повествовательного текста // Новое в зарубежной лингвистике. Вып. VIII. Лингвистика текста. — М.: Прогресс, 1978. С.450-463.
92. Тузов В.А. Математическая модель языка. — СПб.: Изд-во СПбГУ, 1984.
93. Уэно X., Кояма Т., Окамото Т. и др. Представление и использование знаний. —М.: Мир, 1989.
94. Фрейденберг О.М. Поэтика сюжета и жанра / Ред. и коммент. Н.В.Брагинской. — М.: Лабиринт, 1997.
95. Фрейденберг О.М. Воспоминания, неоп., цит. по 96.
96. Цивьян Т.В. Мифологическое программирование повседневной жизни / Этнические стереотипы поведения. Л.: ЛО Наука, 1985. - С. 154-178.
97. Чарняк Ю. Умозаключения и знания. 1-П // Новое в зарубежной лингвистике: Вып. XII. — М.: Прогресс, 1983. — С. 171-207, 272-317.
98. Чейф У. Память и вербализация прошлого опыта // Новое в зарубежной лингвистике: Вып. XII. — М.: Прогресс, 1983. — С. 35-73.
99. Черкасский М.А. Опыт построения функциональной модели одной частной семиотической системы. // Паремиологический сборник. Пословица. Загадка, п/р Г.Л.Пермякова. — М.: "Наука", 1978.
100. Чистов К.В. Специфика фольклора в свете теории информации. // Типологические исследования по фольклору. Сборник статей памяти В .Я. Проппа (1895-1970). — М.: Прогресс, 1975.
101. Шенк Р. Обработка концептуальной информации. — М.: Энергия, 1980.
102. Шенк Р., ЛебовицМ., Бирнбаум Л. Интегральная понимающая система // Новое в зарубежной лингвистике: Вып. XII. — М.: Прогресс, 1983. — С. 401-449.
103. Шенк Р., Бирнбаум Л., Мей Дж. К интеграции семантики и прагматики // Новое в зарубежной лингвистике: Вып. XXIV. — М.: Прогресс, 1989. — С. 32-46.
104. Шехтман Н. А. Информационно-поисковые системы и базы знаний // НТИ. Сер. 2. Информационные процессы и системы. 2009. № 7. С.9-11.
105. Gruber Th. What is an Ontology// URL: http://www-ksl.stanford.edu/kst/what-is-an-ontology.html
106. Guarino N. Understanding, Building, and Using Ontologies // URL: http://ksi.cpsc.ucalgary.ca/KAW/ICAW96/guarino/guarino.html
107. Nirenburg, S., and Raskin V. Ontological Semantics. Cambridge, MA: MIT Press, 2004.
-
Похожие работы
- Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах
- Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа
- Система формирования концептуального представления предметной области на основе анализа проблемно-ориентированных естественно-языковых текстов
- Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы
- Модель представления смысла текстовой информации
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность