автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка и исследование методов и системы семантического анализа естественно-языковых текстов

кандидата технических наук
Мокроусов, Максим Николаевич
город
Ижевск
год
2010
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование методов и системы семантического анализа естественно-языковых текстов»

Автореферат диссертации по теме "Разработка и исследование методов и системы семантического анализа естественно-языковых текстов"

0046 УДК 004.822

[6657

На правах рукописи

<"! У

МОКРОУСОВ Максим Николаевич

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ И СИСТЕМЫ СЕМАНТИЧЕСКОГО АНАЛИЗА ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ

Специальность: 05.13.01 - Системный анализ, управление и обработка информации (в науке и технике)

Автореферат

диссертации на соискание ученой степени кандидата технических наук

- 9 ДЕК 2010

Ижевск 2010

004616657

Работа выполнена в ГОУ ВПО «Ижевский государственный технический университет» (ГОУ ВПО ИжГТУ).

Научный руководитель: Официальные оппоненты:

Ведущая организация:

доктор технических наук, профессор Кучуганов Валерий Никонорович

доктор физико-математических наук, профессор Бельтюков Анатолий Петрович, г. Ижевск

доктор технических наук, профессор Барков Игорь Александрович, г. Казань

Ульяновский государственный технический университет, г. Ульяновск

Защита состоится "16" декабря 2010 г. в 14.00 час. на заседании диссертационного совета Д 212.065.06 в Ижевском государственном техническом университете по адресу: 426069, г. Ижевск, ул.Студенческая, 7, корпус 5.

Отзыв на автореферат, заверенный гербовой печатью, просим выслать по указанному адресу.

С диссертацией можно ознакомиться в научной библиотеке университета. С авторефератом можно ознакомиться на официальном сайте ГОУ ВПО ИжГТУ -http://www.istu.ru

Автореферат разослан «11» ноября 2010 г.

Ученый секретарь диссертационного совета, кандидат технических наук, доцент

В.Н. Сяктерев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Ввиду большого роста объемов текстовой информации и сложной структурированности естественно-языковых (ЕЯ) текстов, анализ текстов представляет собой актуальную проблему, особенно Ъ последние 15-20 лет, когда наметилась тенденция к информатизации общества.

В основе задачи обработки ЕЯ-текстов лежат морфологический и морфемный анализ, синтаксический и семантический анализ, результатами которых являются модели текста, адекватно отражающие его словообразовательные, грамматические и смысловые конструкции.

Основные методы анализа текста достаточно подробно изложены в трудах Апресяна Ю.Д., Виноградова Д.В., Гладкого A.B., Клосса Б.М., Кожуно-вой О.С., Мельчука И.Д., Солтона Г., Н.С., Филмора Ч., Финна В.К., Шведовой Н.Ю., Дж.Дж.Катца, Дж.А.Фодора, Б. Патти, А. Вежбицкой и др. Ряд современных усовершенствованных методов представлены в статьях Ермакова А.Е., Леонтьевой H.H., Мозгового М.В., Плешко В.В., Сокирко А., Толпегина П.В., Тузова В.А. и др.

В настоящее время успешно решена задача морфологического анализа текстов, результаты которого применяются в поисковых Интернет-машинах, текстовых редакторах, подсистемах проверки орфографии и пр. Задачи синтаксического и, в особенности, семантического анализа не решены в полной мере. Синтаксический анализ (анализ грамматики) можно встретить в системах перевода, в подсистемах проверки грамматики. Несмотря на богатую теорию в области семантического анализа, применение находят лишь методы анализа основанные на статистических (факторных) характеристиках слов и словосочетаний анализируемого текста. Следует отметить, что подсистемы, реализующие указанные методы анализа текста, не предоставляют средств настройки процесса анализа, средств пополнения баз правил грамматики языка.

Семантические модели (СМ) текста, являющиеся результатом комплексного анализа, позволяют оценить корректность текста, в наглядной форме, визуально представить структуру сюжета, взаимосвязь объектов и процессов текста, их атрибуты. Последовательность моделей простых предложений текста и результирующая визуальная модель текста позволяют реализовать обратную связь "воздействие на модель - реакция в тексте", благодаря чему можно в интерактивном режиме отлаживать процессы анализа текстов и доказательства объективности (однозначности) истолкования текстов на естественных языках.

Применение семантических моделей актуально в автоматизированных обучающих системах, при решении задач извлечения знаний из текстов, информационного поиска, реферирования, контроля корректности словарей терминов и определений, автоматической генерации ассоциативных связей в гипертекстовых базах данных (ГБД) и пр.

Учитывая вышеизложенное, а также то, что проблема анализа ЕЯ-текста до настоящего времени не решена в полной мере, считаем, что совершенствование методов анализа ЕЯ-текста и повышение степени их достоверности является актуальной задачей.

Объектом исследования работы является математическое, информационное и программное обеспечение человеко-машинного общения на естественном языке.

Предметом исследования являются модели и методы синтаксического п семантического анализа естественно-языкового текста.

Цель работы - повышение достоверности семантического анализа естественно-языковых текстов за счет онтологических моделей знаний о грамматике естественного языка и о предметной области текста, а также путем совершенствования семантических моделей обрабатываемого текста.

Для достижения поставленной цели требуется решение следующих основных научных и практических задач:

1. Аналитический обзор существующих методов и систем анализа ЕЯ-текстов, методов и систем проектирования онтологии предметной области с целью выявления основных направлений снижения трудоемкости при проектировании алгоритмов анализа текстовой информации.

2. Разработка правил описания понятий с целью снижения трудоемкости описания предметов и процессов предметной области

3. Разработка методики построения онтологии предметной области текста, ориентированной на семантическое моделирование и позволяющей сократить многозначность слов и словосочетаний.

4. Разработка баз знаний синтаксического и семантического анализаторов ЕЯ-текста и принципов организации взаимосвязей между ними.

5. Разработка алгоритма синтеза семантической модели обрабатываемого текста.

6. Разработка способа и/или критериев оценки достоверности семантического анализа.

7. Разработка методов и инструментальных средств визуализации семантических моделей для оценки достоверности семантического анализа.

8. Разработка экспертной системы комплексного анализа текста.

9. Экспериментальное исследование предложенных методов и разработанных программных средств.

Методы исследования. Теоретические исследования выполнены с использованием методов системного анализа, теории множеств, математической логики, теории проектирования баз данных. При разработке программного обеспечения использовалась технология объектно-ориентированного программирования.

Достоверность и обоснованность полученных в работе результатов и выводов подтверждается корректностью разработанных математических моделей, положительными результатами проведенных экспериментальных исследований и опытом практической эксплуатации разработанных программных систем.

Научная новизна.

1. Предложена методика онтологического описания понятий предметной области, ориентированная на семантическое моделирование естественноязыковых текстов и отличающаяся использованием правил комплексного сло-

варного описания понятия, включая правила явного определения и правил классификации.

2. Предложены модели знаний синтаксического и семантического анализаторов ЕЯ-текста, включающие декларативные и императивные знания о грамматике естественного языка и онтологии предметной области и отличающиеся наличием обратных связей между ними.

3. Предложен алгоритм семантического анализа ЕЯ-текста, основывающийся на онтологии предметной области и результатах синтаксического анализа текста, отличающийся выявлением ролевых отношений субъектов текста и их ассоциативных связей с онтологией предметной области.

4. Предложен способ визуальной оценки достоверности семантического анализа ЕЯ-текста на основе семантических моделей текста, представленных в виде таблицы действий, граф-схемы действий и их участников и диаграммы процессов.

Практическая полезность.

1. Прикладные методы компьютерной лингвистики, отличающиеся применением семантических моделей:

- метод контроля знаний в автоматизированных системах обучения естественному языку;

- методика контроля корректности словарей терминов и определений в обучающих систем;

- метод автоматической генерации упражнений и вопросов по произвольному тексту.

2. Созданы программные продукты:

- система для составления онтологического описания предметной области «Онтологический толковый словарь»',

-экспертная система комплексного анализа текста «ЭСКАТ», использующая расширяемые экспертом справочники морфем и морфологических признаков, правила синтаксического анализа;

- интерактивная система обучения английскому языку «Language Tutor», отличающаяся наличием средств автоматического контроля знаний и автоматической генерации упражнений и вопросов, работа которых основана на использовании системы «ЭСКАТ»;

- интерактивная обучающая система по русскому языку «Интеллект»;

- система автоматизированного поиска объявлений о покупке, продаже бытовой техники на форумах «Интернет коммерция».

3. Базы данных и знаний по грамматике английского языка, базы учебных материалов и упражнений, онтологическое описание предметных областей «Инженерная графика», «Грамматика английского языка» и частичное онтологическое описание основных бытовых понятий.

4. Результаты диссертационного исследования использовались при разработке автоматизированной системы патентно-лицензионного поиска в рамках общей технологии взаимодействия центра автоматизированной обработки аналитической информации с патентно-лицензионными подразделениями предпри-

ятий (организаций) Удмуртской Республики, входящих национальную нанотех-нологическую сеть по Удмуртской Республике.

На защиту выносятся:

1. Методика проектирования онтологии предметной области, ориентированная на семантический анализ ЕЯ-текстов и позволяющая сократить описание фрагмента реального мира, путем применения общеизвестных семантических категорий, классифицированных и описанных по правилам явного определения.

2. Модель знаний синтаксического анализатора ЕЯ-текстов, позволяющая снизить трудоемкость при составлении формального описания грамматики языка, и модель знаний семантического анализатора ЕЯ-текстов, основанной на онтологическом подходе к организации знаний о предметной области.

3. Алгоритм семантического анализа ЕЯ-теста, основанный на онтологии предметной области и результатах синтаксического анализа.

4. Способ визуальной оценки достоверности семантического анализа ЕЯ-текста, основанный на формировании и выводе на экран графических семантических моделей.

5. Семантические модели ЕЯ-текста, отличающиеся тем, что введены дополнительные показатели по сравнению с классическими способами представления результатов семантического анализа.

6. Разработанные и программно реализованные: экспертная система комплексного анализа текста (ЭСКАТ), программа «Онтологический толковый словарь» (ОТС), автоматизированная система обучения английскому языку (Language Tutor), система автоматизированного поиска объявлений о покупке, продаже бытовой техники на форумах (Интернет коммерция).

7. Фрагменты баз данных и баз знаний по грамматике английского языка, учебным материалам и упражнениям, а также фрагменты онтологии некоторых предметных областей текстов.;

Реализация результатов работы. Результаты работы использованы на кафедре «Английский язык» ГОУ ВПО «ИжГТУ» для контроля знаний студентов по основным темам грамматики английского языка; на кафедре «Автоматизированные обработки информации и управления» ГОУ ВПО «ИжГТУ» в преподавании дисциплины «Инженерная графика», а также в преподавании дисциплины «Онтологии и инженерия знаний» для магистрантов направления «Информатика и вычислительная техника».

Апробация работы. Основные результаты диссертационной работы докладывались: .

- на Всероссийской научно-практической конференции (Пенза, 2006, 2009);

- на 7-й Международной научно-технической конференции "Интеллектуальные системы" (AIS'07) и "Интеллектуальные САПР" (CAD-2007) (Дивно-морское, 2007);

- на первом форуме молодых ученых в рамках Международного форума "Качество образования 2008" (Ижевск, 2008);

- на первой научно-технической конференция студентов, аспирантов, сотрудников и преподавателей "Информационные системы в промышленности и образований" (Ижевск, 2009);

- на VII Всероссийской научно-практической конференции (Томск, 2009).

Публикации. Результаты работы отражены в 11 публикациях, включая 2 в

изданиях, рекомендуемых ВАК. Получено 2 свидетельства об официальной регистрации программ для ЭВМ, а также 4 акта о внедрении (использовании) результатов диссертационной работы.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложений. Основной текст изложен на 163 машинописных страницах с иллюстрациями. Список литературы включает 73 наименования.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность работы, сформулированы цель работы и перечень решаемых задач. Кратко изложено содержание работы, сформулированы научная новизна и практическая полезность.

В первой главе рассматриваются базовые понятия компьютерной лингвистики (КЛ), основные этапы и методы анализа ЕЯ-текстов, сущность семантики языка и семантических методов анализа текстовой информации. Проводится анализ состояния и направлений развития семантических методов, дается оценка их применимости в задаче обработки ЕЯ-текстов.

Также в первой главе дается понятие онтологии и правил онтологического описания предметных областей, как основы хранения знаний, необходимых для создания корректных алгоритмов человеко-машинного общения. На основании выводов по проведенному анализу сформулирована цель и основные задачи исследования.

Наиболее известными и распространенными методами формальной семантики являются метод компонентного анализа (МКА) и метод семантических падежей (МСП). МКА, активно развивающийся за рубежом, основан на тезисе, что «смысл предложений есть сумма смыслов входящих в него слов». МСП, являющийся развитием МКА, предполагает, что необходимо указывать не только число аргументов данного предиката, но и их роли, т.е. семантическое содержание.

Семантические модели ЕЯ-текста, являющие результатом семантического анализа, в КЛ призваны однозначно определять написанные в тексте знаки, последовательности символов алфавита, принятых в ЕЯ.

Общая схема обработки текста инвариантна по отношению к ЕЯ.

Анализ текста заключается в последовательной обработке соответствующего уровня: уровня текста, предложений и слов. Семантический анализ является заключительным этапом автоматической обработки ЕЯ, после которого все объекты синтаксической модели разбиваются на предметы, процессы и их атрибуты (свойства). Семантическая модель текста есть надстройка над синтак-

сической моделью, где каждому слову соответствует объект, выявленный в процессе распознавания объектов из онтологии.

Под онтологией понимается формальное, явное описание понятий в рассматриваемой предметной области, свойств каждого понятия, ограничений, наложенных на свойства, и отношений между понятиями.

Семантическая модель представляется однозначной синтаксической моделью такой, что распознан каждый объект этой модели.

В сферу семантического анализа входит:

а) построение семантической интерпретации слов и конструкций;

б) установление "содержательных" семантических отношений между элементами текста, которые уже принципиально не ограничены размером одного слова.

Результирующее представление, в котором решены эти две задачи, является наиболее глубоким и законченным из тех, которые можно достичь только лингвистическими средствами, не прибегая к внешним источникам, и этим объясняется актуальность семантического анализа. Таким образом, создание полных систем автоматической обработки текста для естественных языков, использующих семантический анализ, является чрезвычайно актуальной задачей.

Вторая глава посвящена методике и средству построения онтологии предметной области текста, позволяющим снизить трудоемкость описания понятий предметной области, необходимого для однозначного толкования предметов и процессов текста. Главная цель разработки такой методики заключается в повышении наглядности описания понятийного аппарата на основе расширенного определения каждого термина и, как следствие, повышении степени применимости разработанного описания для решения задач автоматической обработки текста (АОТ).

Для обеспечения наиболее точного и полного описания предметов и процессов ПрО, предлагается использовать онтологическую модель знаний (онтологию).

Существующие на сегодняшний день системы составления онтологии (Ontolingua, Protégé, OntoEdit, OilEd) обладают существенным с точки зрения конечного пользователя недостатком: избыточная сложность при составлении онтологического описания. Для устранения указанного недостатка предлагается использовать онтологическое описание понятий по принципу расширенного словарного определения с использованием родовидовой классификации понятий.

Для хранения понятий используется родовидовая классификация, которая позволяет включать понятие в систему других, ранее определенных, и так же увидеть подклассы объектов, входящих в объем интересующего понятия. В качестве основания для классификации указываются существенные признаки понятия, т.е. те, которые качественно отличают его от остальных. Родовидовая классификации определяется следующим простым правилом: если некоторое понятие может выступать в определенной роли в некотором действии, то и все потомки данного понятия могут выступать в этой роли.

Для обеспечения целостности, объективности, заполненности онтологии предлагается придерживаться следующих правил описания понятий:

1. В онтологии хранятся не слова, а понятия. Понятию может соответствовать слово, словосочетание или группа слов, его обозначающее.

2. Классификация носит строго родовидовой характер и имеет четыре семантические категории: предмет, процесс, свойство, отношение. Между понятиями, находящимися в пределах одной категории, устанавливаются родовидовые отношения.

3. У категории нет предков: она является корнем родовидового дерева понятий.

4. Понятия для удобства объединяются в семантические группы по общим признакам.

5. Сумма семантических полей' всех потомков некоторого понятия дает семантическое поле самого понятия.

6. Обеспечение полноты классификации: деление уровня (категории) на виды (подвиды) означает, что включение других видов невозможно, т.е. сформированный вид полный по описанию входящих в него элементов.

7. Свойства, по которым объединяются понятия в семантические группы, характеризующие предка, характеризуют и потомка. В обратном порядке это правило не действует.

8. Понятия определяются через ближайший род и видовое отличие - признак, на основании которого из данного рода выделяется некоторый его вид.

9. Отношения устанавливают связи различных типов между свойствами, предметами, процессами.

Если при проектировании онтологии придерживаться указанных правил классификации понятий, то она будет отражать специфику предметной области и являться адекватной формой предоставления информации как в плане изучения новых терминов ПрО, так и для целей АОТ.

Для сокращения многозначности толкования понятий ПрО было предложено использовать основные правила явного описания, необходимые для составления непротиворечивых описаний терминов. Данные правила заимствованы из классической логики определения понятий.

В каждом определении выделяют определяемое (дефиниендум £>/У) и определяющее (дефиниенс О/п) понятия. По способу раскрытия признаков определения делятся на явные и неявные. Явным называется определение, когда между определяемым и определяющими понятиями устанавливается соотношение равенства. Наиболее распространенная форма такого определения выглядит следующим образом: А = В и С, где А - определяемое понятие, В ~ родовое понятие для А (В- предок А), С - отличительный признак.

Основные правила явного определения.

1 .Правило соразмерности, когда объемы и О/п совпадают.

1 Семантическое поле - термин, применяемый в лингвистике чаще всего для обозначения совокупности языковых единиц, объединенных каким-то общим семантическим признаком.

2.Правило запрета широкого определения (р/с1 < О/п): А = В, В - предок А. В таком определении Б/п указывает лишь йа родовое понятие, без указания отличительного признака (Лошадь —млекопитающее позвоночное животное).

3.Правило запрета узкого определения фfd > О/п): А — В и С, С и/или В -потомок А. В таком определении О/п указывает на понятие, являющееся потомком Б/с1 (,Преступник — человек, совершивший общественно-опасное деяние в виде кражи общественного имущества).

4.Правило запрета порочного круга (О/а? О Б/п): Если А1 ~ В/ и Си то (В1 = В2и А1) или (В1 = А/ и С2) или (С1 = В2и А[) или (С1 = А1 и СУ и т.д. Круг в определении возникает тогда, когда Б/<1 определяется через О/п, а О/п - через £>/й (Вращение — движение вокруг своей оси. Ось — прямая, вокруг которой происходит вращение).

5.Правило запрета тавтологии (О/й = В/</)\ А = В и А. В таком определении В/п содержит в себе И/с! (.Количество - характеристика предмета с его количественной стороны).

6.Правило запрета усилительного момента ф/<1 + й/с[): А = А. Такое определение аналогично тавтологии {Жизнь -есть жизнь).

7.Правило запрета отрицания (£>/£/ = £>>): (А-В и не С) или (А= не В и С) или (А= не В и не С). Ц/п по возможности не должен содержать отрицаний (Пальто - элемент верхней одежды, но не шуба).

8.Правило ясности (О/п Ф метафора и пр.): А= В и С, В,С - афоризмы, метафоры. О/п не должен содержать в себе метафор и образных выражений (Ученье - это свет).

9.Правило запрета неизвестного (О/п всегда определено): А=В и С, В,С -неизвестны (неопределенны). Всякое определяющее понятие должно быть известно, т.е. присутствовать в словаре, либо быть общеизвестным фактом (Суффикс - аффиксальная морфема).

Вышеуказанные правила описания понятий и правил явного определения позволят использовать разработанную онтологию в обучающем процессе, при семантическом анализе ЕЯ-текста, а также для контроля корректности терминов словарей в электронных обучающих системах.

Для реализации возможности составления предлагаемого онтологического описания понятий ПрО разработана технология, обеспечивающая проектирование онтологии с использованием расширенного описания понятий, - онтологический толковый словарь (ОТС). ОТС - это словарь, в котором каждое слово или устойчивое словосочетание имеет несколько определений (толкований) таких, что каждое ключевое блово определения содержит гиперссылку на определение в этом же словаре или на понятие в онтологической модели предметной области (ОМПрО).

ОТС = {П,}, г = 1.. N. где Я, -расширенное описание понятия предметной области, N - количество понятий в ОТС. Я,- = <Имя„ ТОЛКОВАНИЕ,, Источник,, ВАРИАНТ ИСПОЛЬЗОВАНИЯ, ФРАЗЕОЛОГИЗМ,■„ АТРИБУТ, ЭКЗЕМПЛЯРь СОСТАВъ ОСНОВА¡, ССЫЛКА,, МЕДИА, ПЕРЕВОД,>, где Имщ - название 1-го понятия; Толкование,• - толкование понятия; Источник - название источника толкования понятия; ВАРИАНТ ИСПОЛЬЗОВАНИЯ(- множест-

во вариантов использования определяемого понятия в тексте; ФРАЗЕОЛОГИЗМмножество идиоматических выражений, определяющих описываемое понятие; АТРИБУТ- множество атрибутов (свойств) понятия; ЭКЗЕМПЛЯР{ - список экземпляров понятия (по заданным атрибутам); СОСТАВ1 — множество ссылок на понятия, входящих в состав определяемого понятия; ОСНОВА/ - множество основ, соответствующих данному понятию; ССЫЛКА[ = {<ссылка, тип>} - множество гиперссылок определяемого понятия, с указанием типа ссылки: тип е {ссылка из толкования, ссылка из способа применения, синоним, ассоциация и т.п.}; МЕДИА, = {<тип медиа-файла, название, содержимое>} - множество медиа-объектов, дополнительно характеризующих понятие; ПЕРЕВОД, = {<язык перевода, написание>} - перевод понятия на другой язык. Таким образом, ОТС является средством формализованного онтологического описания ПрО, позволяющим снизить трудоемкость и ускорить процесс выполнения ручных операций описания ПрО, а также использовать разработанные онтологии для задач обучения, перевода и анализа текста.

Третья глава посвящена технологии комплексного анализа текста и визуализации результатов синтаксического анализа (СиА) и семантического анализа (СеА) в форме синтаксических и семантических моделей текста, отличающейся применением продукционных правил, близких по своей структуре и семантике к правилам грамматики ЕЯ.

На рисунке 1 представлена укрупненная схема обработки ЕЯ-текста, предлагаемая для использования в задаче анализа текста.

Уточняющие обратные связи '

'А_¿^"тии_

М1

I' т т

МА

СиА

ММ

I

СеА

СиМ

Онтология предметной области

СеМ

Модели^налиэатр£ов_

Онтология грамматики ЕЯ-языка

Условные обозначения МА - морфологический и морфемный анализатор ММ - морфологическая модель СиА - синтаксический анализатор СиМ - синтаксическая модель СеА - семантический анализатор СеМ - семантичекая модель

Рисунок I - Укрупненная схема обработка ЕЯ-текста

Моделями анализаторов будем называть результаты анализа, представленные в формализованном виде (структуры, графы, схемы). Моделями знаний анализаторов будем считать декларативные (признаки, классификации, состав) и императивные (правила и алгоритмы) знания, обеспечивающие выполнение соответствующего этапа анализа. Обратные связи призваны уточнить варианты разбора текста, возникающие на этапах морфологического и синтаксического анализа ЕЯ-текстов. Для проведения экспериментов был выбран классический английский язык.

Морфологический и морфемный анализ (МА) основывается на методе нечеткой морфологии, использующей справочники морфем, справочники морфологических признаков и правил сборки слова по шаблону: Щ = [<п>][<п>][<п>]<к>[<к>][<к>] [<с>][<с>][<с>][<о>][<о>][<о>], где п - приставка; к - корень; с - суффикс; о - окончание. Задача МА в настоя-

щее время решена достаточно успешно, поэтому в работе эта проблема не затрагивается.

Входными данными для синтаксического анализа (СиА) является последовательность слов с множеством установленных морфологических признаков (МП). С точки зрения СиА слова разных предложений не связаны друг с другом. В связи с этим фактом удобно избавиться от многовариантности МА, создав варианты предложений таким образом, что каждое слово варианта предложения разобрано однозначно.

В задачи СиА входит:

1) представление входной последовательности слов последовательностью простых предложений, т.е. сборка словосочетаний, простых и сложных предложений;

2) установление взаимосвязей слов и предложений, т.е. выделение подчиненных и сочиненных типов отношений;

3) установление атрибутов участников процесса и атрибутов самого процесса в предложении. Такие атрибуты будем называть синтаксическими. К их числу относятся: прилагательные, характеризующие существительные, наречия, характеризующие глаголы, собственные синтаксические атрибуты, введенные экспертом;

4) установление ролей каждого слова в соответствующем простом предложении. На этапе СиА выделяют следующие главные роли: действие (сказуемое) и актор (подлежащее) - главное действующее лицо. Остальные роли являются второстепенными: объект (дополнение) - объект действия, реципиент -приемник действия, инструмент - инструмент, коагент - второй агент, помогающий совершать действие, сцена (обстоятельство места) - место, где происходит действие, время - время действия (обстоятельство времени), атрибут (определение) - относительная или качественная характеристика предмета или процесса; вводное слово - особая роль, отведенная для слов, имеющих лишь функцию эмоциональной окраски предложения; слово-связка - определяющее связи между простыми предложениями.

Роли присваиваются словам или словосочетаниям в соответствии со степенью зависимости слов друг от друга в предложении. Количество выделяемых ролей больше, чем количество членов предложения, поскольку роли более функциональны. Они позволяют выделить группы слов, разграниченные по функциям более конкретно, чем в членах предложения. Определение функций слов при помощи ролей помогает облегчить в дальнейшем этап семантического анализа.

СиА проводится на основе продукционных правил, близких по структуре к правилам грамматики ЕЯ. Правило работает с цепочкой (последовательностью) слов. Каждое правило содержит в своем составе последовательность условий, каждое из которых служит для отбора одного или нескольких слов предложения. Условие правила позиционировано, если для него выбрано слово или группа слов из цепочки, удовлетворяющих содержанию условия. На рисунке 2 представлен способ представления правила в СиА.

Имя правила уникально. Приоритет правила - предпочтение выполнения правил. Центральным является элемент условия правила (графа 2). Правило синтаксического анализа отображает элемент синтаксической структуры языка, поэтому оно основывается на структуре языка низшего порядка - морфологической. В зависимости от того, какой выбран признак условия (графа 3) выбираются соответствующие значения признака (графа 4). Элементы в операции (графа 5) формируются из элементов условия. Они могут следовать в произвольном порядке, упоминаться в операции не более 1 раза и связаны друг с другом конъюнкцией. В зависимости от признака операции (графа 6) формируются соответствующие этому признаку значения (графа 7). Логическая операция (графа 1) призвана упростить обработку правил и сделать представление строк условия правила более читабельным. В графе1 возможны логические операции: конъюнкция, дизъюнкция и отрицание._

№ ПРАВИЛА / ИМЯ ПРАВИЛА / ГРУППА / ПРИОРИТЕТ

Условие Операция

Логическая операция Элемент Признак Значение Элемент Признак Значение

1 2 3 4 5 6 7

Рисунок 2 - Изображение правила СиА

На рисунке 3 показан пример синтаксического правила определения роли «Актор»._

№6 / АКТОР 1 Выделение ролей 17

Условие Операция

Элемент Признак Значение Элемент Признак Значение

1 2 3 4 5 6 7

1: Слово Слово Л 1: Слово Значение роли актор

V Часть речи местоимение

V Часть речи существительное

V Часть речи числительное

А Тип числительного количественное

V Часть речи имя собственное

V Часть речи герундий

А 2: Слово Часть речи действие

Рисунок 3 - Пример правила СиА

Правило на рисунке 3 следует читать следующим образом: Если первое слово является словом Ы или частью речи местоимением или существительным в общем падеже или количественным числительным или герундием, и второе слово является действием, то присвоить первому слову значение роли -актор.

Синтаксическая модель представляет собой граф, полученный объединением графов словосочетаний, простых предложений и сложного предложе-

ния. Схематично процесс прохождения этапов синтаксического анализа представлен на рисунке 4.

Правило с двумя подусловиями

Вариант предложения

Д

Слова и словосочетания

Д

Словосочетания и роли, атрибуты объектов и процессов

Л

Простые предложения

Л

Сложное предложения

Рисунок 4 - Диаграмма сборки предложения

На рисунке 5 показан пример синтаксического анализа предложения Не tried to say a word, but nobody listened to him.____

Не | tried J_ to 1 say a I word but nobody listened ( to him

Выделяются словосочетания

Слово- словосочетание 2 словосоче- слово- слово- словосочетание словосо-

сочета- тание 3 сочета- сочета- 6 четание 7

ние 1 ние 4 ние 5

Не tried to say a word but nobody listened to him

Определятся роли

Действие действие

Актор Действие объект слово-связка актор действие реципиент

Выделяем предложения

He tried to say a wore but nobody listened to him

Рисунок 5 - Пример применения диаграммы синтаксического анализа

Синтаксическая схема (СиС) представляется в виде графа, вершинами которого являются роли, объединенные в простые предложения, а ребрами - связи между простыми предложениями в составе сложного, а также связи между ролями, определяемые порядком ролей (рисунки 6,7).

Входными данными для семантического анализа (СеА) является преобразованный после СиА текст, в котором определены основные роли слов в предложениях и их атрибуты.

Укрупненный алгоритм СеА:

1. Построение множества вариантов синтаксического разбора предложения.

Условие правило позиционировано

для двух элементов □ □□□□□

Результат выполнения операций правила

2. Установление соответствий между местоимениями текста и его объектами. Поиск осуществляется по данным таблицы местоимений среди объектов текущего и предыдущих сложных предложений. У объектов текста проверяются такие морфологические признаки как: род, число и одушевленность, и если они совпадают с признаками рассматриваемого местоимения, то устанавливается соответствие между объектом и местоимением.____

т г У

I атрибуты I | атрибуты [ атрибуты | атрибуты I I атрибуты j

Слово • связка

Не

Кто?

tried to say p™2^awordy

but

Кто? «----- ( \

nobody listened to

k. J

КомуЪ

Рисунок 6 - Общий вид Си С предложения Рисунок 7 - Пример СиС

3. Установление соответствий между местоимениями текста и его объектами. Поиск осуществляется по данным таблицы местоимений среди объектов текущего и предыдущих сложных предложений. У объектов текста проверяются такие морфологические признаки как: род, число и одушевленность, и если они совпадают с признаками рассматриваемого местоимения, то устанавливается соответствие между объектом и местоимением.

4. Поиск в ОТС класса понятий, которому принадлежит каждый из участников действия.

5. Постановка вопросов к каждому из участников действия. Если имеется предлог - исходя из данных таблицы предлогов, если отсутствует - общий случай вопроса к ролевому участнику действия для конкретизации его роли и определения.

6. Сокращение вариантов разбора предложений по правилам (активизация уточняющих обратных связей):

a) если предлог времени (when?) согласован с понятием, не являющимся потомком понятия время, то вариант разбора неверный;

b) по атрибутам (анализ атрибутов участников и сравнение их с атрибутами понятия в ОТС);

c) по вариантам использования (анализ вариантов использования действия: сварить пищу, но нельзя сварить жилище (дом) или время).

7. Минимизация объектов:

a) по написанию:

если одно и то же слово в нескольких предложения обозначает одно понятие, и лишь в меньшем количестве предложений - другое, то первый вариант понятия приоритетнее второго;

b) по принадлежности к классу в ОТС:

если несколько разных по написанию слов обозначают одно и то же понятие (синонимы), то такое понятие приоритетнее других, обозначаемых

одним из рассматриваемых слов (легковой автомобиль и легковая машина);

с) по принадлежности к ветке понятий:

если понятия находятся на одной ветке и относительно друг друга являются либо предком-потомком, либо братьями, то такие понятия приоритетнее других.

8. Установление связей между участниками процесса на основании их ролей в процессах, описанных в тесте.

9. Установление связей между участниками разных предложений, исходя из написания слов, расположения относительно друг друга в тексте, принадлежности понятий к классам ОТС.

10. Построение семантической модели текста.

В общем случае семантическую модель (СеМ) можно представить следующим образом: SemModel = {G(Process, Process Participant, OED, Relationj} - полихроматический граф (множество структур), где Process -{proc:}, i=l..n -множество процессов, описанных в тексте; Process participant={proc_partj}, j-l..m — множество участников процессов; OED={oed/cj, к= ¡..I - множество понятий в ОТС; Relation={relationi), 1=1..р - множество отношений модели. Все участники процесса связаны между собой, и каждый участник процесса связан с понятием в онтологии предметной области.

Отношение relation может быть двух видов:

1) отношение между процессом и участниками процесса: IsDoerfproc„ proc_partj) - участник процесса procjpartj является участником действия ргос,;

2) отношение между процессом или участником процесса и понятием в ОТС: Entity(proCi | proc_partj, oedt) - процесс proct или участник процесса procjpartj описывается понятием в ОТС oedk.

Для оценки достоверности семантического анализа текста предлагается использовать способ, основанный на формировании и выводе на экран семантических моделей в виде: таблицы действий, граф-схемы действий и их участников; диаграммы процессов. Будем считать, что достоверность семантического анализа можно оценить релевантностью визуальной семантической модели, которая может быть подтверждена экспертами или пользователями путем просмотра результатов визуализации семантических моделей.

На рисунке 8 представлен пример табличной семантической модели, где каждая строка - простое предложение, а каждый столбец - роль слова или словосочетания. Ячейка таблицы является либо действием, либо участником действия. В ней содержится информация о процессе или объекте текста (морфологи-

JVs Актор (\vho?Avhat?) ДеКствне O6beicr(what?/who?) Cuena(where?)

1.1 Stuart found them under chairs

under radiators [hot]

1.2 pushed them

Рисунок 8 - Пример табличной СеМ

На рисунке 9 представлена СеМ предложения Stuart found the balls under chairs and hot radiators and pushed them в виде граф-схемы в сравнении (таблица 1) с общепринятым обозначением семантической сети (рисунок 10).

—у^ Stuart^) то? —Кго?-|

found 'W

^ Stuart

...........!

У

found under found under

.......•-( pushed^

Что?

| |-------- Что? • Где?

[ the balls ^

г

found

under chairs

Где? j • radiators |

соответствует-

..1.

свойство

.....ч

L_hIlJ

Рисунок 10 - Семантическая сеть

Рисунок 9 - Граф-схема СеМ Таблица 1 - Сравнение предлагаемой граф-схемы и классической семантической

Предлагаемая граф-схема СеМ Классическая семантическая сеть

Все действия и их участники отображаются по разному в зависимости от их роли в тексте. Большее количество типов вершин. Все слова отображаются одинаково.

Главные участники процесса - актор и действие - обозначаются символами, отличными от символов других участников. Нельзя выделить главных и второстепенных участников процесса.

Атрибуты обозначаются специальным символом неразрывно с предметом. Атрибуты понятий не имеют специальных обозначений.

Информативность схемы выше за счет связей предметов и процессов с понятиями в онтологии. Отсутствует связь предметов со словарем понятий.

Отношения обозначают вопросы от действия к участникам процесса, что обеспечивает возможность наглядной оценки адекватности модели. Отношения между участниками процесса обозначают действия.

Количество участников действия уменьшается за счет разрешение анафоры.

На рисунке И представлен пример СеМ в виде диаграммы процессов. Главным в данной модели является процесс. Процессы могут быть нескольких типов: Parallel (параллельные); Follow (последовательные); Simple (простые), Case (альтернативные); Time (временные); While (циклические с предусловием); Repeat (циклические с постусловием).

На схеме процессов можно увидеть параллельные, последовательные, циклические и альтернативные процессы, а также отметки времени, повышающие наглядность схемы, что способствует более качественному принятию решений пользователем, особенно, когда они стоят в терминах лингвистических переменных, т.е. написаны на естественном языке.

В четвертой главе описываются разработанные программные системы и эксперименты по применению семантических моделей при решении задач автоматической обработки текста в различных приложениях.

ago

W

The Littles HI

liked to play (II

ping-pong [2]

always

The players HI

had to stop (3)

• playing (1)

the balls {31

rolled (21

' under chairs [4] "under sofas [5]

• under radiators [6]

The players П1

berinto look for (41

the balls [3]

the Littles ill

named (51

mouse [7] u Stuart [7]

i

players Г11

played (11

34

always

The players [11

il—I F j-o-

had to stop (31

the balls f31

rolled (21

Stuart 171

found (61

- them [3]

— under chairs [4] under radiators [6]

Stuart f71

pushed(7)

- them [31 ^ might [8

Ti

in the even-

Mrs. Littles fill

liked to play(81

— the piano [9]

in dinning room [10]

son 1141

played (81

4? "go

sometimes

one of the keys (121

stuck (91

ft

One 1121

didn't work (101

Mrs. Little fill

said (111

"It's all because of the bad weather" (13) when

the key f 121

stuck(91

son П41

got (121

Рисунок 1 1

himself [14]

Диаграмма процессов

На рисунке 12 представлен интерфейс программы онтологический толковый словарь «ОТС», который используется при составлении онтологического описания понятий ПрО.

В ходе опытной эксплуатации программы выяснилось, что способ описания понятий в виде словарных статей не вызывает затруднений у составителя онтологии, что положительным образом сказывается на снижении трудоемкости и повышения скорости составления онтологий. Составление описания 100 понятий с установлением родовидовых отношений, установления гиперссылок, описания состава и пр. одним человеком в среднем составляет 20 часов.

litóggf*(К' - '1' ' ■ .">¡'7/ 1 №; _ ,t. _ i Файл Правка Вид Инструменты Сервис Окно Помощь

D G§ - »V X О ; : É3 ^ ■

❖ ❖ ❖ Ф •(3 ^ %! ' О

.......:;_.„: ..........'пмяим»

Т. (D 8J : о программе..,

Повелительное !— Сложность предложения Простое Сложное Полнота - Груша члена предложения Предмет

!•:; Грамматика - Морфология Морфема Честь речи

Существительное Артикль Прилагательное Числительное Наречие Местоимение Глагол • Междометие Предлог

'-• ¿^Толкование • ло«€ы 1**«ню»«

: Имя понятия [Индекс понятия-2,1.1.1.2.1] Существительное

ародавд**«-».! ¡Юллфай

часть ост, обладающая значением предметности.

Ссылки hj толкования

часть речи [/П(жд|1ет/Я>ь1к/Грамматика/М^фология/Часть речи]

I® Атрибуты | Й лчоеишицч« ; О Cof re

rnmmmm

Ní> Наменооанне J Тип ) Значение ¡Прототип :

1 Род ¡String /Сеойство/Морфол ¡4

2 Число ■String /Сеойство/Морфол

3 Падеж String /Сеойство/Морфол

4 Исчисляемость String /Сеойство/Морфол

Одушевленность String /Сеойство/Морфол

EN MySQL остановлен Язык ОТС: Русский 17.05.09 18:02:08

Рисунок 12 - Интерфейс ОТС

На рисунках 13-14 представлены фрагменты интерфейса разработанной экспертной системы комплексного анализа текстов «ЭСКА Т».

!»"Рабочие модели (результаты анализа) —"....................... ............ .................... ................. .................. ..................

| \ Морфологический анали».

^ Морфологический Варианты слова

i isa n,.,

Лрганак ¡Значение ; Признак ¡Знгненмв

Часть_реч» существительное

Род •женский 'од женский

!чкло I единственное

•Падеж 1 общий

Нарицательность:нарииательное

:.Исчисляемость ;исчисляемое

^Одушевленность ;неодушерленноо

Собирател ьность иесобирательное

а) результат MA

Рисунок 13 -

Синтаксический анализ ]В Информация о предложена»! ■• ■ Общая информация Схема предложения ¡Правила

. ty Mr. Little woíted in an office : HK wife took care of the hou. She was a Wnd woman and bl¡ ' v"' SIvb Kept a white cat , called .

>nee подробную информацию <

L Л-t'bg 22á büigísfe in ску

|Mi. Hile and lomily

есГ] [in Cky ~J INetvY

>" Использовать вариант разбора при дальнейшем ana е и схемах сборки предложений по:

б) результат СиА - синтаксическая схема предложения Фрагменты интерфейсов «ЭСКАТ»

На рисунке 14 представлена табличная семантическая модель в ЭСКАТ, в которой можно видеть разрешение проблемы омонимии: глагол to play, имеющий несколько значений, за счет использования его в тексте совместно с объектом ping-pong (разновидность спортивных настольных игр), в семантической модели имеет единственное толкование (выделено жирным). Это стало возможным благодаря анализу вариантов использования понятий, которые определены в онтологии предметной области. Так, одним из вариантов использования действия to play (играть в игру) является a game (игра), один из потомков которого -ping-pong (игра ->спортивная игра->спортивная настольная игра -> настольный теннис).

Обновить41 t^ печать... ¡

~Ак.Гор (who?/whst?) ' : ; N : ДейстеиГ

(wbat?/who?),:'j ' B¿QW(when?)'

^ X'Закрыть I

Сцена ми г а?) j

the balls The players The littles Stuart

The Utles Mrs. little

rolled

had to stop begin to look for

was named found

■ did work [not, properly]

playing thebaSs

Stuart them

them a piano

under chairs under radiators

under chairs under radiators [hot]

lr> the evening sometimes

i j-QftHcawia объект a

- норфолегич, признаки синтаксич. Признаки атрибуты • местоимения толкования вопросы ■ харатеристика действия

Толкования преднета/проиесса: play - Исполнять муьыквпьмое лроия^еденио на одной ■зыке, музыкальных инструментах и т.п.). Уметь пользоваться к. ориентироваться в какой-л. игре. Расположение в словаре: i Action/activity)social and cultural activity/reproduction and performance/artistic performance/to play

to play - Резвясь, забавляться, развлекаться. Проводить время в каком-л. занятии, доставляющем удовлетворение, служащей развлечением одним лишь участием в нем. Приводить что-л. в действие, делать иод в игре, ходить в игре чем-л. Заниматься какой-л деятельностью несерьезно.

Расположение о с поваре'. /AtUon/actMty/entprtalning activity/to play

Рисунок 14 - Табличная семантическая схема в «ЭСКЛТ»

Также, при выборе какого-либо объекта, например, the balls в предложении 1.2, цветом выделятся все объекты, имеющие тоже толкование, что и выбранный предмет (например, объект the balls в предложении 2.2, объект them в предложениях 4.1 и 4.2). Данный пример демонстрирует разрешение анафоры в тексте.

Разработанные в «ОТС» онтологии можно применять как в обучающем процессе при изучении новых терминов, так и в процессе анализа текста для установления однозначного толкования предметов и процессов текста. Система анализа текста «ЭСКЛТ» позволила применять результаты анализа в системе обучения английскому языку «Language Tutor» (таблица 2) и русскому языку («Интеллект») для генерации упражнений и вопросов по произвольному тексту на основе МА, СиА и СеА. Проверка заданий, сгенерированных по такому принципу, осуществляется также системой «ЭСКЛТ», что позволяет отказаться от хранения правильных ответов в БД электронного учебника.

В диссертации приведен результат использования обучающей системы «Интеллект», из которого видно, что после работы с обучающей системой количество верных ответов при выполнении заданий ЕГЭ в среднем по одному классу увеличилось на 32% (с 12 до 22 верных ответов из 31).

Таблица 2 - Функциональное сравнение лолз'лярных обучающих систем английскому языку. _____^_^_

Oxford Профессор English Tell Me Digital Pub- Language

Platinum Хиггинс Deluxe More lishing Tutor

I 2 3 4 5 6 7

Наличие теории Да Да Нет Нет Да

Упражнение по Нет Да Да Да Да Да

грамматике

Продолжение таблицы 2

1 2 3 4 5 6 7

Отработка произношения Да Да Да Да Да Нет

Мультимедийный интерфейс Нет Нет Нет Да Да Да

Диалог Да Да Да Да Да Да

Встроенный словарь Да Да Да Да Да Да

Видеосюжеты Да Нет Нет Да Her №т

Диктор-носитель языка Нет Да Да Да Да Нет

Подготовка к ЕГЭ Нет Нет Нет Нет Нет Да

Способ проверки знаний Согласно базе шаблонов Согласно базе шаблонов Согласно базе шаблонов Согласно базе шаблонов Согласно базе шаблонов Комплексный анализ текста

Результаты диссертационной работы были использованы в системе извлечения данных из текстовых форумов - Интернет коммерция. Для оценки качества распознавания информации о товаре была взята случайная выборка из 500 объявлений о покупке и продаже сотовых телефонов. На рисунке 15 показан график распознавания отдельных атрибутов, характеризующих предлагаемые сотовые телефоны, а также информация об авторе объявления.

Номер мобильного телефоне

f ' ' г 11'

i ; '' \ '

: -Н 1

щ !■■:■■■-........:..................- Жйч: ;, ,г

i А ; J

\ У' Г > ' : :f : ■ ■':

Ei Не определено S Определено но верно 8 Определено верно

Тип объявления

«а

0.00%

-

Рисунок 15 - График распознавания атрибутов товаров

Процент корректного распознавания атрибутов, при условии наличия в ОТС характеризующих их понятий, составил 80-! 00%.

В приложениях приведены: типичные синтаксические ошибки английского языка, фрагмент базы данных правил синтаксического анализа, руководства пользователя и эксперта по системам ESCAT, Language Tutor, акты внедрения (использования) результатов диссертационной работы.

ЗАКЛЮЧЕНИЕ

Основной результат работы заключается в совершенствовании технологии синтаксического и семантического анализа естественно-языкового текста. Полученные результаты относятся к направлению исследований «Визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации».

В работе получены следующие выводы и результаты:

1. Анализ существующих технологий семантического анализа ЕЯ-текстов позволил определить основные направления снижения трудоемкости проектирования алгоритмов анализа текстовой информации: сокращение объема описания грамматик ЕЯ и понятийного аппарата заданных предметных областей и совершенствование инструментальных средств создания правил для анализа ЕЯ-текста и онтологического описания понятий. Установлено, что излишняя сложность формализации терминов и правил грамматики языка приводит к возрастанию объемов его описания. Ограниченность расширяемости понятийного аппарата анализа ЕЯ-текста, обусловленная, как правило, сложностью его формализации, приводит к необходимости обращения к разработчикам таких методов с целью постоянной доработки системы.

2. Предложена методика онтологического описания понятий предметной области, основанная на использовании разработанных правилах классификации понятий и правилах явного определения. Методика предполагает общепринятое словарное описание понятий с добавлением дополнительных характеристик. Разработанные по предложенной методике онтологии предметной области применимы как для семантического анализа ЕЯ-текстов, так и для обмена знаниями о предметной области (между людьми и между программными системами).

3. Разработаны модели знаний синтаксического и семантического анализаторов ЕЯ-текста. Модели знаний синтаксического анализатора включает онтологию грамматики ЁЯ-текста, императивные знания которой представлены правилами продукционного типа, близкими по. структуре и семантическим категориям к правилам грамматики ЕЯ. Такой подход обеспечивает более емкое и в тоже время корректное описание грамматик экспертами-лингвистами, а также позволяет избавиться от необходимости обращения к разработчикам. Модель знаний семантического анализатора включает в себя онтологии предметной области и алгоритм семантического анализа. Наличие обратных связей между моделями знаний анализаторов позволяет уточнять варианты разбора более ранних этапов анализа ЕЯ-текста. ,

4. Предложен алгоритм семантического анализа ЕЯ-текста, основанный на онтологическом описании предметов и процессов предметной области текста, а также выделении ролевых отношений между участниками процесса и ассоциативных отношений с понятиями предметной области.

5. Предложен способ оценки достоверности семантического анализа ЕЯ-текста, основанный на формировании и выводе на экран семантических моделей в виде: таблицы действий; граф-схемы действий и их участников; диаграммы процессов. Предложено считать, что достоверность семантического анализа

можно оценивать релевантностью визуальной семантической модели, учитывая некоторые совокупности параметров модели. Релевантность модели обеспечивается большим количеством информативных критериев и подтверждается экспертами или пользователями путем просмотра результатов визуализации семантических моделей.

6. Разработаны методы и инструментальные средства визуализации семантических моделей текста. Представление результата семантического анализа одновременно в нескольких видах (таблица, схема, диаграмма) позволяет повысить информативность результатов анализа в целом, оценить корректность введенного текста, проследить явления анафоры в тексте, разрешить проблему омонимии, выявить процессы, их участников и обстоятельства действий.

7. Разработаны и программно реализованы экспериментальные системы, основанные на применении разработанных методов: экспертная система комплексного анализа английского текста «ЭСКАТ»; программа онтологического описания предметных областей «Онтологический толковый словарь»; интерактивные обучающие системы по английскому языку «Language Tutor» и по русскому языку «Интеллект». Все программные системы прошли опытную эксплуатацию в образовательном учреждении ГОУ ВПО «ИжГТУ» и некоторых школах г. Ижевска. Также результаты диссертационной работы использовались при разработке системы автоматизированного поиска объявлений о покупке/продаже бытовой техники на форумах «Интернет коммерция», и в задаче патентного поиска в рамках работ по формированию национальной нанотехно-логической сети Удмуртской республики.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ ИЗЛОЖЕНЫ В СЛЕДУЮЩИХ ПУБЛИКАЦИЯХ

1. Мокроусов, М.Н. Автоматизированная обучающая английскому языку система на основе комплексного анализа текста / М.Н. Мокроусов II Информационно-вычислительные технологии и их приложения: сборник статей V Международной научно-технической конференции; - Пенза: РИО ПГСХА, 2006. - С. 223-225.

2. Мокроусов, М.Н. Автоматизированная система обучения английскому языку на основе онтологического толкового словаря / В.Н. Кучуганов, М.Н. Мокроусов// Труды Междунар. научно-технич. конференций «Интеллектуальные системы» (AIS'07) и «Интеллектуальные САПР» (CAD-2007). - М.:Физматлит, 2007. - Т. 3. - С. 343-350.

3. Mokrousov, M.N. Knowledge Control on the Base of Semantic Models in English Teaching System / M.N. Mokrousov, Y.V. Amelina, // First Fomrn of Young Researchers. In the framework of International Forum "Education Quality - 2008" : proceedings (April 23,2008, Izhevsk, Russia). - Izhevsk : Publishing House of ISTU, 2008. - P. 34:40.

4. Мокроусов, M.H. Контроль знаний на основе семантических моделей в системе обучения английскому языку / М.Н Мокроусов // Вестник ИжГТУ. -Ижевск : Изд-во ИжГТУ, 2008. - Вып. 4(40). - С. 177-178.

5. Мокроусов, М.Н. Тренажер к ЕГЭ по русскому языку с возможностью морфологического и синтаксического анализа текста / М.Н. Мокроусов, В.Н. Кучуганов, Н.С. Афзалова, Л.В. Ахкямова, Л.Ф. Биктагирова // Информационные технологии в

промышленности и образовании : сборник трудов науч.-техн. конф. факультета "Информатика и вычислительная техника". - Ижевск: Изд-во ИжГТУ, 2009. - С. 129-132.

6. Мокроусов, М.Н. Применение информационных технологий при подготовке к ЕГЭ по английскому языку / М.Н. Мокроусов, Ю.В. Амелина // Современные технологии в российской системе образования: сборник статей VII Всероссийской научно-практич. конференции / МНИЦ ПГСХА. - Пенза: РИО ПГСХА, 2009. - С. 8-11.

7. Мокроусов, М.Н. Проектирование и контроль корректности словарей терминов и определений в электронных учебниках и автоматизированных обучающих системах / М.Н. Мокроусов // Молодежь и современные информационные технологии. Сборник трудов VII Всероссийской научно-практич. конф.- Томск: Изд-во СПБ Графике, 2009. - 4.1. - С.305-306.

8. Мокроусов, М.Н. Интеллектуальный поиск в задаче извлечения знаний из естественно-языковых текстов / М.Н. Мокроусов // Всероссийская конференция с элементами научной школы для молодежи «Проведение научных исследований в области обработки, хранения, передачи и защиты информации». В 4 т. Т. 2. - Ульяновск : УлГТУ, 2009.-С. 347-355.

9. Мокроусов, М.Н. Система централизованного поиска по объявлениям / М.Н. Мокроусов, A.R. Ковриго II Измерение, контроль и диагностика: Труды I Всероссийской научно-технической конференции студентов и аспирантов, посвященной 25-летию кафедры Приборы и методы контроля качества (Ижевск, 22-24 апреля, 2010 г.). -Ижевск, 2010. -С. 166-170.

10. Мокроусов, М.Н. Формализация данных с форумов на основе семантических моделей / А.Е. Ковриго, М.Н. Мокроусов // Молодежь и современные информационные технологии. Сборник трудов VIII Всероссийской научно-практич. конф.- Томск: Изд-во СПБ Графике, 2010. - С.243-244.

П. Мокроусов, М.Н. Распознавание изображений и семантический аналнз текстов в задачах, патентно-лицензионного поиска /A.B. Кучуганов, М.Н. Мокроусов II Интеллектуальные системы в производстве. 2010. Ижевск: Изд-во ИжГТУ, 2010. -№ 1. - С. 292-299.

12. Свидетельство о государственной регистрации программы № 2009614301, «Интерактивная обучающая система по русскому языку «Интеллект». Авторы: Ахкя-мова Л.В., Афзалова Н.С., Биктагирова Л.Ф., Кучуганов В.Н., Мокроусов М.Н. Заявка № 2009613189. Зарегистрировано в Реестре программ для ЭВМ 14 августа 2009 г.

13. Свидетельство о государственной регистрации программы № 2009615239, «Интерактивная обучающая система по английскому языку «Language Tutor». Авторы: Мокроусов М.Н., Амелина Ю.В., Кучуганов В.Н. Заявка №2009614014. Зарегистрировано в Реестре программ для ЭВМ 22 сентября 2009 г.

М.Н. Мокроусов

В редакции автора

Подписало в печать 10.11.10. Усл. печ. л. 1,4. Заказ №407. Тираж 100экз. Отпечатано в типографии Издательства ИжГТУ. 426069, Ижевск, Студенческая, 7

Оглавление автор диссертации — кандидата технических наук Мокроусов, Максим Николаевич

СПИСОК УСЛОВНЫХ ОБОЗНАЧЕНИЙ И СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

1 Аналитический обзор методов и систем, основанных на семантических подходах.

1.1 Аналитически обзор методов и систем анализа ЕЯ-текста.

1.1.1 Методы и системы морфологического анализа.

1.1.2 Синтаксический анализ.

1.1.3 Семантический анализ.

1.2. Применение онтологии в анализе естественно-языковых текстов и автоматизированном обучении.

1.2.1 Понятие онтологии.

1.2.2 Аналитический обзор существующих систем построения онтологий.

1.3 Выводы и постановка задачи исследования.

2 Методика построения онюлогии предметной области текста.

2.1 Построение онтологии предметной области текста, ориентированной на семантическое моделирование.

2.1.1 Принципы классификации понятий.

2.1.2 Правила классификации и описания понятий.

2.1.3 Правила толкования понятий, основанные на явном описании.

2.2 Онтологический толковый словарь как средство описания и хранения понятий предметной области.

2.3 Выводы по главе.

3 Семантический анализ ЕЯ-текста.

3.1 Синтаксический анализ текста.

3.1.1 Синтаксические модели текста.

3.1.2 Система продукционных синтаксических правил.

3.1.3 Контроль синтаксических ошибок.

3.2 Семантический анализ текста.

3.2.2 Алгоритм семантического анализа.

3.2.1 Семантические модели текста.

3.2.3 Сравнение предложенной модели с традиционной семантической сетью.

3.3. Выводы по главе.

4 Экспериментальные исследование разработанных методов.

4.1 «Онтологический толковый словарь» как средство описания понятий предметной области.

4.2 Экспертная система комплексного анализа текста «ЭСКАТ».

4.3 Автоматизированная обучающая система Language Tutor - «LT».

4.4 Интерактивная обучающая система по русскому языку «Интеллект».

4.5 Система извлечения данных из текстовых форумов «Интернет коммерция».

4.6 Подсистема семантического поиска в системе патентно-лицензионного поиска.

4.7 Выводы по главе.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Мокроусов, Максим Николаевич

Бурное развитие компьютерных технологий и средств вычислительной техники позволяют решать все более сложные задачи в различных сферах жизнедеятельности человека. Внимание исследователей все чаще привлекают трудно формализуемые задачи, одной из которых является задача человеко-машинного общения на естественном языке. Считается, что в основе этой задачи, так же как и остальных направлений компьютерной лингвистики, лежит идея автоматического перевода (АП). По мнению многих авторов, стремление качественно и быстро решить задачу перевода текста основывалось на двух принципиальных заблуждениях: во-первых, переоценивалась степень близости операций, по которым функционирует ЭВМ, и простейших функций интеллекта человека и, во-вторых, недооценивалась фундаментальная сложность естественного языка. Осознание этих заблуждений обусловило разочарование в идее быстрого решения задачи АП и поиск тех сфер применения таких систем, в пределах которых они имитируют поведение человека достаточно адекватно и дают удовлетворяющие его результаты.

Компьютерная лингвистика, оформившаяся как самостоятельное направление прикладной лингвистики в конце 60 гг. XX в., ориентирована на использование компьютерных инструментов для моделирования функционирования языка. Компьютерную лингвистику часто связывают с прикладным направлением «обработка естественного языка» (Natural Language Processing), развивавшимся в рамках дисциплины «искусственный интеллект», однако на практике под этой проблемой понимают разработку методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

В виду большого роста объемов текстовой информации и сложной структурированности естественно-языковых (ЕЯ) текстов, анализ текстов представляет собой очень актуальную проблему, особенно в последние годы, когда наметилась тенденция к информатизации общества.

Область применения систем анализа ЕЯ-текстов достаточно разнообразна. Среди них можно выделить следующие системы: поисковые системы, вопросно-ответные системы, системы автоматизированного машинного перевода, системы извлечения данных и знаний, обучающие системы с функцией контроля знаний и пр.

В основе задачи обработки ЕЯ-текстов лежат морфологический и морфемный анализ, синтаксический и семантический анализ, результатами которых являются модели текста, адекватно отражающие его словообразовательные, грамматические и смысловые конструкции.

Основные методы анализа текста достаточно подробно изложены в трудах Апресяна Ю.Д., Виноградова Д. В., Гладкого A.B., Клосса Б.М., Колсу-новой О.С., Мельчука И.Д., Солтона Г., Селезнева К., Супруна А.Е., Тодда А., Трубецкого Н.С., Филмора Ч., Финна В.К., Фоменко А.Т., Харина Н. П., Шведовой Н.Ю., Дж.Дж.Катц, Дж.А.Фодор, Б. Патти, А. Вежбацкой и др. Ряд современных усовергиенствованных методов представлены в статьях Ермакова А.Е., Леонтьевой H.H., Мозгового М.В., Плеилко В.В., Сокирко А., Толпе-гина П.В., Ту зова В. А. и др.

В настоящее время относительно успешно решена задача морфологического анализа текстов, результаты которого применяются в поисковых Интернет-машинах, текстовых редакторах, подсистемах проверки орфографии и пр. Задачи синтаксического и, в особенности, семантического анализа не решены в полной мере. Синтаксический анализ (анализ грамматики) можно встретить в системах перевода, в подсистемах проверки грамматики. Несмотря на богатую теорию в области семантического анализа, применение находят лишь методы анализа основанные на статистических (факторных) характеристиках слов и словосочетаний анализируемого текста. Следует отметить, что подсистемы, реализующие указанные методы анализа текста, не предоставляют средств настройки процесса анализа, средств пополнения баз правил граммау тики языка.

Семантические модели (СМ) текста, являющиеся результатом комплексного анализа, позволяют оценить корректность текста, в наглядной форме, визуально представить структуру сюжета, взаимосвязь объектов и процессов текста, их атрибуты. Последовательность моделей простых предложений текста и результирующая визуальная модель сюжета позволяют реализовать обратную связь "воздействие на модель — реакция в тексте", благодаря чему можно в интерактивном режиме отлаживать процессы анализа текстов и доказательства объективности (однозначности) истолкования текстов на естественных языках.

Построение семантических моделей невозможно без разработки методов, которые были бы по своей сути аналогичны методам, применяемые человеком при анализе информации различного рода, а также без создания искусственных хранилищ формализованных данных и знаний, которые можно было бы эффективно использовать в задаче автоматической обработки текстов. В настоящее время наиболее распространенным средством формализации знаний являются онтологии.

Применение семантических моделей актуально в автоматизированных обучающих системах, при решении задач извлечения знаний из текстов, информационного поиска, реферирования, контроля корректности словарей терминов и определений, автоматической генерации ассоциативных связей в гипертекстовых базах данных (ГБД) и пр.

Объектом исследования работы является математическое, информационное и программное обеспечение человеко-машинного общения на естественном языке.

Предметом исследования являются модели и методы синтаксического и семантического анализа естественно-языкового текста.

Основной целью данной работы является повышение достоверности семантического анализа естественно-языковых текстов за счет онтологических моделей знаний о грамматике естественного языка и о предметной области текста, а также путем совершенствования семантических моделей обрабатываемого текста.

Для достижения поставленной цели требуется решение следующих основных научных и практических задач:

Заключение диссертация на тему "Разработка и исследование методов и системы семантического анализа естественно-языковых текстов"

4.7 Выводы по главе

В данной главе описаны основные программные системы разработанные в рамках работы над диссертацией и использующие синтаксические и семантические подходы анализа текста.

Разработаны и программно реализованы следующие экспериментальные системы, основанные на применении разработанных методов:

- «ОТС» — средство формализованного онтологического описания ПрО, позволяющее снизить трудоемкость и ускорить процесс выполнения ручных операций описания ПрО, а также использовать разработанные онтологии для задач обучения, перевода и анализа текста

- система комплексного анализа английского текста - «ЭСКАТ» — анализирующая текст морфологически, синтаксически, семантически и строящая синтаксические и семантические модели текста;

- программа онтологического описания предметных областей - «Онтологический толковый словарь» — основанная на принципах явного определения понятий;

- интерактивная обучающая система по английскому языку «Language Tutor» и интерактивная обучающая система по русскому языку «Интеллект», особенностью которых является применение возможностей системы «ЭСКАТ» для автоматической генерации упражнений и вопросов по произвольному тексту с целью облегчения труда учителя и более качественного контроля знаний обучающихся. Все программные системы прошли опытную эксплуатацию в образовательном учреждении ГОУ ВПО «ИжГТУ», где были отмечены явные преимущества систем, связанные со снижением трудоемкости при выполнении рутинных операций, что подтверждает теоретические положения работы.

Так же результаты диссертационной работы использовались при разработке системы автоматизированного поиска объявлений о покупке, продаже бытовой техники на форумах - Интернет коммерция, и в задаче патентного поиска в рамках работ по формированию национальной нанотехнологической сети Удмуртской республики.

Акты внедрения (использования) результатов диссертационной работы приведены в Приложении Д.

ЗАКЛЮЧЕНИЕ

Подводя итог проделанной работе, необходимо затронуть ситуацию, сложившуюся в настоящее время в области автоматической обработки тестов в частности в проблеме семантического анализа текстов. Основываясь на определении семантики в лингвистике, как о науке об обозначении и понимании последовательностей символов, исследователи и практики не всегда результаты своих работ сводят к определению смысловых значений тех или иных текстовых конструкций. Автору приходилось встречать результаты семантического анализа оформленного в виде частотных (факторных) характеристик слов текста, оформленных в виде таблиц. Очень часто встречаются методы синтаксического и семантического анализа, алгоритмы работы и результаты которых оформлены с использованием специально введенных текстовых обозначений, являющихся сокращением от полного названия того или иного признака или действия над элементами языка. По мнению автора, наиболее удобной формой проектирования алгоритмов анализа текста является представление элементов лингвистики терминами, которые в своих исследованиях используют «классические» лингвисты. С использованием таких обозначений привлечь к проблеме анализа текстовой информации профессиональных лингвистов является более выполнимой задачей, нежели сейчас, когда большинство специалистов, занимающихся анализом текста, являются представителями математических и аналитических специальностей. Представление же результатов анализа текста в виде схем, графиков, диаграмм, таблиц позволит упростить понимание текста, позволяют оценить корректность текста, в наглядной форме, визуально представить структуру сюжета, взаимосвязь объектов и процессов текста, их атрибуты

Еще одной проблемой в задаче анализа текстовой информации является построение формализованного описания предметов и явлений реального мира, удобного для использования в задачах компьютерной лингвистики. В работе было принято решение упростить избыточную сложность при составлении формального описания предметов и процессов за счет использования методов и средства онтологическое описание понятий по принципу расширенного словарного определения.

В данном диссертационном исследовании сделана попытка повысить достоверность результатов синтаксического и семантического анализа естественно-языковых текстов с помощью онтологических моделей знаний о грамматике естественного языка и о предметной области текста.

Основной результат работы заключается в совершенствовании технологии синтаксического и семантического анализа естественно-языкового текста, а также упрощения составления формального описания понятий предметной области. Полученные результаты относятся к направлению исследований «Визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации».

В работе также получены следующие выводы и результаты:

1. Анализ существующих технологий семантического анализа ЕЯ-текстов позволил определить основные направления снижения трудоемкости проектирования алгоритмов анализа текстовой информации: сокращение объема описания грамматик ЕЯ и понятийного аппарата заданных предметных областей и совершенствование инструментальных средств создания правил для анализа ЕЯ-текста и онтологического описания понятий. Установлено, что излишняя сложность формализации терминов и правил грамматики языка приводит к возрастанию объемов его описания. Ограниченность расширяемости понятийного аппарата анализа ЕЯ-текста, обусловленная, как правило, сложностью его формализации, приводит к необходимости обращения к разработчикам таких методов с целью постоянной доработки системы.

2. Предложена методика онтологического описания понятий предметной области, основанная на использовании разработанных правилах классификации понятий и правилах явного определения. Методика предполагает общепринятое словарное описание понятий с добавлением дополнительных характеристик.

Разработанные по предложенной методике онтологии предметной области применимы как для семантического анализа ЕЯ-текстов, так и для обмена знаниями о предметной области (между людьми и между программными системами).

3. Разработаны модели знаний синтаксического и семантического анализаторов ЕЯ-текста. Модели знаний синтаксического анализатора включает онтологию грамматики ЕЯ-текста, императивные знания которой представлены правилами продукционного типа, близкими по структуре и семантическим категориям к правилам грамматики ЕЯ. Такой подход обеспечивает более емкое и в тоже время корректное описание грамматик экспертами-лингвистами, а также позволяет избавиться от необходимости обращения к разработчикам. Модель знаний семантического анализатора включает в себя онтологии предметной области и алгоритм семантического анализа. Наличие обратных связей между моделями знаний анализаторов позволяет уточнять варианты разбора более ранних этапов анализа ЕЯ-текста.

4. Предложен алгоритм семантического анализа ЕЯ-текста, основанный на онтологическом описании предметов и процессов предметной области текста, а также выделении ролевых отношений между участниками процесса и ассоциативных отношений с понятиями предметной области.

5. Предложен способ оценки достоверности семантического анализа ЕЯ-текста, основанный на формировании и выводе на экран семантических моделей в виде: таблицы действий; граф-схемы действий и их участников; диаграммы процессов. Предложено считать, что достоверность семантического анализа можно оценивать релевантностью визуальной семантической модели, учитывая некоторые совокупности параметров модели. Релевантность модели обеспечивается большим количеством информативных критериев и подтверждается экспертами или пользователями путем просмотра результатов визуализации семантических моделей.

6. Разработаны методы и инструментальные средства визуализации семантических моделей текста. Представление результата семантического анализа одновременно в нескольких видах (таблица, схема, диаграмма) позволяет повысить информативность результатов анализа в целом, оценить корректность введенного текста, проследить явления анафоры в тексте, разрешить проблему омонимии, выявить процессы, их участников и обстоятельства действий.

7. Разработаны и программно реализованы экспериментальные системы, основанные на применении разработанных методов: экспертная система комплексного анализа английского текста «ЭСКАТ»; программа онтологического описания предметных областей «Онтологический толковый словарь»; интерактивные обучающие системы по английскому языку «Language Tutor» и по русскому языку «Интеллект». Все программные системы прошли опытную эксплуатацию в образовательном учреждении ГОУ ВПО «ИжГТУ» и некоторых школах г. Ижевска. Также результаты диссертационной работы использовались при разработке системы автоматизированного поиска объявлений о покупке/продаже бытовой техники на форумах «Интернет коммерция», и в задаче патентного поиска в рамках работ по формированию национальной нанотехно-логической сети Удмуртской республики.

Две разработанные программы имеют свидетельства о государственной регистрации: Интерактивная обучающая система по русскому языку «Интеллект» (per. № 2009614301) и Интерактивная обучающая система по английскому языку «Language Tutor» (per. № 2009615239).

Библиография Мокроусов, Максим Николаевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. П ерспективы развития вычислительной техники: В 11 кн. справочное по-соб. Кн.2. Интеллектуализация ЭВМ / Под ред. Ю.М.Смирнова. Е.С. Кузин, А.И. Ройтман, И.Б. Фоминых, Г.К.Хахалин.- М.: Высшая школа, 1989. — С.93-132.

2. Селезнев, К. Обработка текстов на естественном языке Электронный ресурс. // Открытые системы [Сайт]. (Дата публикации: 18.12.2003). URL : http://www.relex.ru/rus/company/publications/open-sys-2004-01 .php (Дата обращения: 25.09.2010).

3. Зализняк А. А. Грамматический словарь русского языка. Словоизменение. М., 1977; 3-е изд. М., 1987.

4. Ашманов, И. С., Иванов, А. А. Продвижение сайта в поисковых системах / И. С. Ашманов, А. А. Иванов. М. : "Вильяме", 2008. - 302 с.

5. Тихонов, A.H. Словообразовательный словарь русского языка в двух томах: Ок 145000 слов. М. "Русский язык" 1985. - 1 том 854 е., 2 том 885 с.

6. Шахиди, А. Деревья решений — общие принципы работы Электронный ресурс. // Base Group [Сайт]. URL : www.basegroup.ru/library/ analysis/tree/description/ (Дата обращения: 25.09.2010).

7. Muggleton, S. Н. (1991) Inductive logic programming. New Generation Computing, v8. P. 295-318.

8. Manning, C., Schutze, H. Foundations of Statistical Language processing. -Cambridge: MIT Press, 1999. 620 p.

9. Ю.Библиотека морфологического анализа Электронный ре суре. // RCO [Сайт]. [2007]. URL : http://www.rco.ru/product.asp (Дата обращения: 25.09.2010).

10. Система автоматической обработки текстов «АОТ» Электронный ресурс. // АОТ [Сайт]. [2003]. URL : http://www.aot.ru (Дата обращения: 25.09.2010).

11. Морфологическая библиотека для разработчиков Электронный ресурс. // Компания Информатик [Сайт]. [1989]. URL : http://www.informatic.ru/ catalogue/developers/ Щата обращения: 25.09.2010)

12. Арутюнова Н. Д. Синтаксис // Лингвистический энциклопедический словарь / Под ред. В. Н. Ярцевой. — М.: Советская энциклопедия, 1990.

13. Синтаксис Электронный ресурс. // Онлайн Энциклопедия «Кругосвет» [Сайт]. [2001]. URL : http://www.krugosvet.ru/enc/gumanitarnye nauki /lingvistika/SINTAKSIS.html (Дата обращения: 25.09.2010)

14. Карпова, Г. Д. Компьютерный синтаксический анализ: описание моделей и направлений разработок / Г. Д. Карпова, Ю. К. Пирогова, Т. Ю. Кобзаре-ва, Е. В. Микаэлян // Итоги науки и техники. Серия: Вычислительные науки. Т.6.-М.: ВИНИТИ, 1991.

15. Entry Natural Language. Understanding // Encyclopaedia of Artificial Intelligence. pp. 660-677.

16. Минский, M. Фреймы для представления знаний / М. Минский. М. : Энергия, 1979.-368 с.

17. Филлмор, Ч. Дело о падеже / Ч. Филлмор // Новое в зарубежной лингвистике. Вып. X. М. : Лингвистическая семантика, Прогресс, 1981.

18. Гаврилов, А.В. Гибридные интеллектуальные системы / А.В. Гаврилов. -Новосибирск : НГТУ, 2003.

19. Сокирко, А.В. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ): Дис. . канд. техн. наук. / А.В. Сокир-ко.-М., 2001.-100 с.

20. Леонтьева, Н.Н. Строение семантического компонента в информационной модели автоматического понимания текста / Н.Н. Леонтьева. М., 1990.

21. Леонтьева, H.H. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация / H.H. Леонтьева. -МГПИИЯ им. М. Тореза. Сборник научных трудов, Вып. 271. М.,1986.

22. Леонтьева, H.H. "Политекст": информационный анализ политических текстов / H.H. Леонтьева // НТИ. Сер 2. 1995.- N 4. - С. 20-24.

23. СопЕхТ — система автоматизированного извлечения знаний из текстов на естественном языке Электронный русерс. // NooLab лаборатория информационных технологий [Сайт]. URL : http://www.noolab.ru/proiects/ conext.asp (Дата обращения: 25.09.2010).

24. Елашкин, В. Н. Концептуальное описание модели нейронной сети / В.Н. Елашкин // Труды ВЦ СО РАН. Информатика. Новосибирск, 1994. - С. 122137.

25. Модель в лингвистике // Лингвистический энциклопедический словарь. -М. : Советская энциклопедия, 1990. С.304

26. Хомский, Н. Три модели описания языка / Н. Хомский // Кибернетический сборник, 1961. Вып.2. С. 81-92.

27. Шенк, Р. Обработка концептуальной информации / Р.Шенк. М. : Энергия, 1980.31 .Мельчук, И.А. Опыт теории лингвистических моделей "смысл-текст" / И.А. Мельчук. М. : Наука, 1982.

28. Гинзбург, P.C. Значение слова и методика компонентного анализа / P.C. Гинзбург // Иностр. яз. в школе, 1978. № 5. - С. 25.

29. Гулыга, Е.В. О компонентном анализе значимых единиц языка / Е.В. Гулыга, Е.И. Шендельс // Принципы и методы семантических исследований. -М., 1976.-С. 291-314.

30. Искусственный интеллект в 3-х кн. Кн.1. Системы общения и экспертные системы: Справочник. / Под ред. Д.А.Поспелова. - М.: Наука, 1990.

31. TextAnalyst 2.0. Персональная система автоматического анализа текста Электронный ресурс. // Microsystems, Ltd [Сайт]. [2001]. URL : http:// www.analyst.ru/index.php?lang=eno:&dir=content/products/&id=ta (Дата обращения: 25.09.2010).

32. Карташева, Е. Интеллектуальные поисковые системы Excalibur Электронный русерс. // Открытые системы [Сайт]. (Дата публикации: 17.06.1997) // URL : http://ww.osp.ru/nets/1997/ 06/98.htm (Дата обращения: 25.09.2010)

33. Онтология Электронный русерс. // KM.RU Универсальная энциклопедия [Сайт]. [1999]. URL : www.mega.km.ru/bes 2004/Encyclop.asp?Topic= top-icomu56 (Дата обращения: 25.09.2010).

34. Цофнас, А.Ю. Структурная и натуральная онтология / А.Ю. Цофнас // Вестник Одесского национального университета. 2007. - Т. 12. - Вып. 13. — С. 21-31.

35. Добров, Б.В. Онтологии и тезаурусы: модели, инструменты, приложения / Б.В. Добров, В.В. Иванов, Н.В. Лукашевич, В.Д. Соловьев // БИНОМ. Лаборатория знаний, Интернет-университет информационных технологий -ИНТУИТ.ру, 2009.

36. Куайн, У. В. Онтологическая относительность / Сокр. пер. А. А. Печен-кина // Современная философия науки. М., 1996. - С.40-61.

37. Сорина, Г.В. Критическое мышление: история и современный статус / Г.В. Сорина // Вестник Московского университета. 2003. - Серия 7. - №6. -С. 97-110.

38. Гартман, II. Старая и новая онтология / Н. Гартман // Историко-философский ежегодник. М. : «Наука», 1988. - С.320-324

39. Хайдеггер Мартин Электронный русерс. // Большая энциклопедия Кирилла и Мефодия [Сайт]. [1998] URL : www.megabook.ru/Article.asp?AID= 683720 (Дата обращения: 25.09.2010).

40. Майкевич, Н.В. От информационного пространства к пространству знаний. Онтологии в Интернет / Н.В. Майкевич //Труды конференции КИИ'98, Пу-щино, Россия, 1998. -С.152-158.

41. Gruber, Т. Principles for the Design of Ontologies Used for Knowledge Sharing / Thomas Gruber, R. Towards // International Workshop on Formal Ontology, March, Padova, Italy, 1993.

42. Takeda, H. Collaborative development and Use of Ontologies for Design / H. Takeda, M. Takaai, T. Nishida // Proceedings of the Tenth International IFIP WG 5.2/5.3 Conference PROLAMAT 98, September 9-11,12, Trento, Italy, 1998.

43. Россеева, О.И. Организация эффективного поиска на основе онтологий / О.И. Россеева , Ю.А. Загорулько // Труды международного семинара Диа-лог'2001 по компьютерной лингвистике и ее приложениям. Аксаково, 2001. -Т.2.-С. 333-342.

44. Ushold, М. Ontologies: Principles, Methods and Applications. / Mike Ushold, Michael Gruninger // Knowledge Engineering Review, Volume 11, Number 2, 1996.

45. Noy, N. Ontology Development 101: A Guide to Creating Your First Ontology/ N. Noy, D. McGuinness // Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report SMI-2001-0880, 2001, March.

46. Аблов, Н. Н. Классификация книг: ее история и методы в связи с классификацией наук вообще / Н. Н. Аблов. Иваново-Вознесенск, 1921. - С. 8.

47. Морковкин, В. В. Идеографические словари / В. В. Морковкин. М. : Изд-во МГУ, 1970. 72. с

48. Ступин, Л.П. Словари современного английского языка / Л.П. Ступин. -Л., 1973.

49. Burchanov, I. On the Ideographic Description of Stylistically and Pragmatically Relevant Aspects of Lexical Meanings /1. Burchanov. Stylistika, 1996.

50. Караулов, Ю.Н. Индивидуальный ассоциативный словарь / Ю.Н. Караулов, М.М. Коробова // В Я. 1993. №5. - С. 5-15.

51. Кучуганов, В.Н. Система визуального проектирования баз знаний / В.Н. Кучуганов, И.Н. Габдрахманов // Информ. технологии в инновационных проектах: Труды III междунар. науч.-техн. конф. Ижевск, 2001. — С. 140-143.

52. Кучуганов, В.Н. Визуальное моделирование текстов / В.Н. Кучуганов // Труды Междунар. научно-технич. конференций "Интеллектуальные системы" (AIS'05)" и "Интеллектуальные САПР" (CAD-2005). М. : ФИЗМАТ-ЛИТ, 2005.-Т. 4.-С. 104-114.

53. Аверкин, А.Н. Толковый словарь по искусственному интеллекту / А.Н. Аверкин, М.Г. Гаазе-Рапопорт, Д.А. Поспелов. — М. : Радио и связь, 1992. — 256с.

54. Арнольд, И. В. Лексико-семантическое поле в языке и тематическая сетка текста / И. В. Арнольд // Текст как объект комплексного анализа в ВУЗе. Л.,1984.-С. 3-11.

55. Апресян, Ю.Д. Избранные труды. Лексическая семантика. Синонимические средства языка / Ю.Д. Апресян. Т. 1. М.: Языки рус. культуры, 1995. -472 с

56. Щур, Г.С. Теории поля в лингвистике / Г.С. Щур. — Либроком, 2009. — 264 с.

57. Дефиниция / Новейший философский словарь. Сост. A.A. Грицанов, 1998.

58. Ивин, A.A. Логика / A.A. Ивин // Учебное пособие. Издание 2-е. М. : Знание, 1998.-С. 76-79.

59. Грэм, Р. Конкретная математика. Основание информатики / Р. Грэм, Д. Кнут, О. Паташник. -М. : Мир, 1998. 703 с.

60. Таксономия или как разделить одну кучу на более мелкие Электронный ресурс. // Город Льгов [Сайт]. (Дата публикации: 07.05.2007). URL : http://www.gorodlgov.ru/?q=node/21 (Дата обращения: 25.09.2010).

61. Таксономия (теория классификации) Электронный ресурс. // Культура в Вологодской области [Сайт]. URL : http://www.cultinfo.ru/fulltext/l/001/ 008/108/590.htm (Дата обращения: 25.09.2010).

62. Маслова, Н.В. Практическая грамматика английского языка. 5-11 кл. / Н.В. Маслова. -М. : Дрофа, 1997. 168 е.: ил.

63. Семантическая сеть. Электронный ресурс. // Словари и энциклопедии на Академике [Сайт] URL : http://dic.academic.ru/diс.nsf/ruwiki/33681#cite note-0 (Дата обращения: 25.09.2010).