автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Автоматизированное формирование базы знаний для задачи анализа мнений

кандидата физико-математических наук
Четвёркин, Илья Игоревич
город
Москва
год
2013
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Автоматизированное формирование базы знаний для задачи анализа мнений»

Автореферат диссертации по теме "Автоматизированное формирование базы знаний для задачи анализа мнений"

Московский государственный университет имени М.В.Ломоносова

На правах рукописи

Четвёркин Илья Игоревич

Автоматизированное формирование базы знаний для задачи анализа мнений

Специальность 05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

10 ; "Т

Автореферат

диссертации на соискание учёной степени кандидата физико-математических наук

Москва —2013

005534775

Работа выполнена на кафедре алгоритмических языков факультета вычислительной математики и кибернетики Московского государственного университета имени М.В.Ломоносова.

Научный руководитель: доктор физико-математических наук, профессор,

зав. каф. алгоритмических языков ВМиК МГУ имени Ломоносова, Мальковский Михаил Георгиевич

Официальные оппоненты: доктор технических наук, профессор,

директор НИИ «Прикладная семиотика» Академии наук Республики Татарстан, зав. каф. информационных систем КФУ, Сулейманов Джавдет Шевкетович

кандидат физико-математических наук, доцент кафедры математических методов прогнозирования ВМиК МГУ имени Ломоносова, Майсурадзе Арчил Ивериевич

Ведущая организация: Институт системного анализа РАН

Защита состоится 1 ноября 2013 г. в 11 часов на заседании диссертационного совета Д.501.001.44 при Московском государственном университете имени М.В.Ломоносова, по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет вычислительной математики и кибернетики, аудитория 685. Желающие присутствовать на заседании диссертационного совета должны сообщить об этом за 2 дня до указанной даты по тел. (495) 939-30-10 (для оформления заявки на пропуск).

С диссертацией можно ознакомиться в Фундаментальной библиотеке МГУ имени М.В.Ломоносова. С текстом автореферата можно ознакомиться на официальном сайте ВМК МГУ имени М.В. Ломоносова http://www.cmc.msu.ru в разделе «Наука» - «Работа диссертационных советов» - «Д 501.001.44».

Автореферат разослан <Д^> сентября 2013 года.

Ученый секретарь

диссертационного совета Д 501.001.44 к.т.н., в.н.с.

Костенко В.А.

Общая характеристика работы

Актуальность темы. С развитием сети Интернет неуклонно растет объем хранимой неструктурированной информации, представленной текстами на естественных языках. Условно такую информацию можно разделить на два типа: «фактическая информация» и «субъективные мнения пользователей». За прошедшее десятилетие наиболее активному исследованию подвергались алгоритмы и программные системы связанные с обработкой фактической информации (например, поисковые машины).

С появлением Веб 2.0 и построенных на его основе социальных сетей, платформ для блогов и микроблогов, объём информации второго типа стал существенно увеличиваться. «Блогосфера» стала наиболее динамичной частью всемирной паутины, которая развивается, реагируя на события в реальной жизни. Вследствие этого растет научный и практический интерес к задачам обработки субъективной информации.

В рамках решения таких задач важными понятиями являются субъективность и тональность текста. Субъективность текста определяется наличием в нём точки зрения автора и выражением его мнения, а не констатацией фактов. Тональность — это эмоциональное отношение автора высказывания к некоторому объекту (объекту реального мира, событию, процессу, или их свойствам/атрибутам).

Для решения задачи анализа мнений необходимо обладать большим количеством вспомогательных знаний об объектах и их атрибутах, оценочных словах и выражениях, а также владельцах мнений - в виде специализированной базы знаний. Одним из наиболее важных видов знаний являются словари оценочных слов и проставленные оценки тональности для каждого слова. Однако построение универсального словаря оценочных слов является невыполнимой задачей, так как оценочность суждения во многих случаях зависит от предметной области.

Каждая предметная область может иметь свойственную только ей оценочную лексику, либо значения оценочных слов могут меняться в разных областях. Например, «нужно увидеть» является сильным оценочным выражением в предметной области о фильмах, но нейтральным в общественно-политической области. На практике это означает, что необходимо повторять трудоёмкую процедуру по составлению словарей оценочных слов для каждой предметной области, чтобы качество обработки субъективной информации оставалось на приемлемом уровне.

Таким образом, актуальной является проблема автоматического извлечения словарей оценочных слов из коллекций текстов для различных предметных

областей. Такие словари могут быть полезны при адаптации алгоритмов анализа мнений к конкретной области, а также для улучшения качества работы в различных задачах, например в поиске оценочной информации. Кроме того, извлечение оценочных слов непосредственно из текстовых коллекций позволяет найти сленг и другие несловарные слова, которые могут быть важными факторами при обработке мнений.

Цель диссертационной работы. Целью диссертационной работы является разработка методов и программных средств построения базы знаний для задачи анализа мнений. Разрабатываемые программные средства должны удовлетворять следующим требованиям: высокая точность извлеченных словарей оценочных слов; применимость к различным предметным областям; возможность комбинации словарей из различных предметных областей; определение тональности извлеченных оценочных слов.

Для достижения этой цели были решены следующие задачи:

1. Исследование и разработка модели извлечения оценочных слов для заданной предметной области и перенос обученной модели извлечения оценочных слов на другие предметные области без дополнительной разметки;

2. Разработка методов автоматического определения тональности извлеченных слов;

3. Построение обобщенного словаря оценочных слов, не зависящего от предметной области, на основе извлеченных знаний;

4. Разработка программного модуля извлечения оценочных слов для заданной предметной области и комбинации знаний из разных предметных областей.

Основные положения, выносимые на защиту:

1. Предложен новый метод автоматического извлечения оценочной лексики заданной предметной области, основанный на использовании нескольких текстовых коллекций и совокупности признаков. Показана переносимость предложенной модели извлечения оценочных слов на разные предметные области;

2. Предложен и реализован новый метод автоматического определения тональности извлеченных оценочных слов. Метод основан на применении марковских случайных полей;

3. На основе предложенного метода извлечения оценочной лексики был создан список оценочных слов, независящих от предметной области. Данный

словарь был опубликован и является первым общедоступным словарем оценочной лексики для русского языка. Показана полезность данного ресурса в нескольких задачах анализа тональности текстов;

Научная новизна: Новизна настоящей диссертационной работы заключается в том, что предложен новый метод построения базы знаний для задачи анализа мнений на основе ряда текстовых коллекций и комбинации статистических признаков. Применимость метода обоснована теоретически, на основе анализа полезности ряда признаков для классификации оценочных слов, а также численно, для чего были проведены эксперименты с использованием извлеченных знаний. Разработанный метод может применяться в различных предметных областях для извлечения знаний и построения автоматических алгоритмов анализа мнений на их основе.

Практическая значимость. На основе предложенного метода спроектирована и реализована программная система для извлечения оценочных слов в заданной предметной области. Разработанная система также имеет возможность комбинирования списков оценочных слов для формирования общих, независящих от предметной области словарей. Такой словарь был создан для мета-области товаров и общедоступен для исследовательских целей1. Таким образом, разработанная система может быть использована для создания баз знаний оценочных выражений в различных предметных областях без какого-либо дополнительного участия человека.

Результаты научных исследований, представленных в диссертации, частично использовались в рамках гранта РФФИ № 11-07-00588-а под руководством Лукашевич Н.В.

Апробация работы. Основные результаты работы докладывались на следующих конференциях и семинарах:

• На международной конференции «Диалог» (2010г.);

• На международной конференции «Ломоносов» (2010г.);

в На 12-й национальной конференция по искусственному интеллекту с международным участием (2010г.)

• На международной конференции «Диалог» (2011г.);

• На семинаре по поиску концептов в неструктурированной информации (СБ1Л)), проходящему совместно с конференцией ЯЗЕБОгС (2011г.);

• На семинаре по поиску информации и извлечению знаний (ГЕКА), проходящему совместно с конференцией БАМЬР (2011г.);

'http://www.cir.ru/SentiLexicon/ProductSentiRus.txt

• На международной конференции «Диалог» (2012г.);

• На летней школе по информационному поиску RUSSIR (2012г.);

• На международной конференции COLING (2012г.);

• На международной конференции «Ломоносов» (2013г.);

• На международной конференции «Диалог» (2013г.);

Кроме того, результаты обсуждались на семинаре лаборатории анализа информационных ресурсов НИВЦ МГУ, на семинаре в НИУ ВШЭ и на регулярном семинаре ACM SIGMOD в Москве.

Личный вклад заключается в выполнении основного объема теоретических и экспериментальных исследований, изложенных в диссертационной работе, включая разработку теоретических моделей, методик экспериментальных исследований, проведение исследований, анализ и оформление результатов в виде публикаций и научных докладов.

Результаты, связанные с извлечением оценочных слов, частично использовались в рамках гранта РФФИ № 11-07-00588-а под руководством Лукашевич Н.В.

Публикации. По теме диссертации опубликовано 18 работ, основные результаты изложены в 10 печатных работах, в том числе в 2 статьях в журналах из списка ВАК [1,2], 1 статье, входящей в базу SCOPUS [3], и в 7 других изданиях [4-10].

Объем и структура работы. Диссертация состоит из введения, четырёх глав, заключения и двух приложений. Полный объем диссертации составляет 131 страницу с 8 рисунками и 17 таблицами, объем приложений - 15 страниц. Список литературы содержит 103 наименования.

Содержание работы

Во введении обоснована актуальность диссертационной работы, сформулирована цель и аргументирована научная новизна исследований, показана их практическая значимость, представлены выносимые на защиту научные положения.

Первая глава посвящена описанию основных задач, связанных с обработкой субъективных мнений пользователей, и в частности одной из наиболее важных и востребованных задач — классификации текстов по тональности. Также в данной гааве проводится обзор основных методов классификации текстов по тональности на базе методов машинного обучения и инженерии знаний с

использованием словарей оценочных слов. Особое внимание уделяется задаче формирования словарей оценочных слов и проблемам переносимости алгоритмов на различные предметные области. Целью данной главы является анализ достоинств и недостатков существующих подходов к классификации текстов по тональности и обоснование важности учёта оценочных слов, характерных для заданной предметной области.

При решении задачи анализа мнений можно выделить несколько ключевых этапов анализа:

1. Определение субъективности/объективности текста;

2. Классификация заданного текста, предложения или словосочетания по тональности;

3. Выявление ключевых объектов, по которым высказано мнение, и построение автоматических аннотаций/рефератов отзывов;

Наиболее распространённой и востребованной на практике является вторая задача, поскольку существует большое количество порталов в Интернете, которые нацелены на сбор именно мнений и отзывов пользователей, заведомо содержащих какую-либо оценку.

Каждый субъективный фрагмент текста характеризуется объектом высказывания, субъектом высказывания и оценкой тональности. Под субъектом высказывания понимается автор текста (человек или организация), под объектом высказывания — некоторый объект реального мира, либо его части или свойства.

Определим тональность некоторого фрагмента текста по отношению к объекту, его частям или свойствам, как функцию от слов, входящих в данный фрагмент. Пусть фрагмент текста представлен последовательностью слов -шг^.^гив, тогда тональность данного фрагмента определяется функцией 1,...,г0а) —> {0,4-1,-1}, где 0 обозначает нейтральную тональность, +1 положительную, а —1 отрицательную. Можно рассматривать различные более сложные отображения, например с учётом смешанной тональности (частично положительной, частично отрицательной), или принимать во внимание силу высказываний (сильно положительно, слабо отрицательно).

Таким образом, при моделировании функции тональности, оценочные слова играют ключевую роль. На текущий момент существуют два основных подхода к построению решающей функции, приближающей целевую функцию Р, задающую тональность фрагмента текста:

• Построение решающей функции на основе методов машинного обучения;

• Построение агрегирующей функции для оценочных слов и выражений, входящих в текст.

К достоинствам алгоритмов с использованием методов машинного обучения можно отнести высокое качество работы. Недостатками данного подхода являются: необходимость создания обучающей выборки, которая зачастую требует большого количества ручной разметки; падение качества классификации при переносе на другие предметные области; сложности при интерпретации результатов классификации. Результаты оптимизации весов признаков не всегда понятны человеку.

Достоинствами методов на основе словарей оценочных слов и правил являются: легкость интерпретирования результатов работы; хорошая переносимость на другие предметные области.

К недостаткам данного подхода можно отнести: необходимость в формировании словарей оценочных слов для заданной предметной области; более низкое качество классификации, чем при использовании методов машинного обучения.

Каждый из вышеперечисленных подходов может быть использован в зависимости от наличия размеченной коллекции или словарей оценочных слов в заданной предметной области, но как показывают результаты тестирования [10], наилучшие результаты получаются при комбинировании этих двух подходов.

Таким образом, для качественного решения задачи классификации текстов по тональности, актуальным является автоматическое формирование словарей оценочных слов для заданной предметной области. Такие словари могут быть использованы в системах, основанных на правилах, либо для формирования признакового описания объектов при использовании алгоритмов машинного обучения.

Во второй главе вводится формальная модель «мнения» пользователя и описываются основные типы знаний, необходимые для решения задачи анализа мнений. Одним из ключевых видов знаний являются оценочные слова и выражения, с помощью которых выражается отношение автора к объекту. Для автоматического построения словарей оценочных слов предлагается новый метод, основанный на использовании нескольких текстовых коллекций и набора статистических признаков. Для наиболее значимого признака «Странность» предлагается теоретическая модель, объясняющая зависимость качества признака от коллекций, с помощью которых он вычисляется. Словари оценочных слов, извлеченные с использованием разработанного алгоритма, применяются в задаче классификации отзывов по тональности.

Основной вид информации в рамках исследования — субъективные мнения пользователей о тех или иных объектах и их атрибутах. Мнение об атрибуте

8

/ — это общая эмоция, суждение или оценка по поводу f, высказанная владельцем мнения. У каждого мнения может присутствовать тональность или эмоциональная окраска: положительная, отрицательная, смешанная или нейтральная. Наиболее простым случаем является положительная тональность, например «Я в диком восторге!!!!» или отрицательная тональность «Это какой-то ужас».

На основе введенных понятий можно определить формальную модель объекта и на основании этой модели — формальную модель мнения.

Формальная модель объекта: каждый объект о представляется в виде конечного набора атрибутов F = {/i,.-.,/n}. который включает в себя и сам объект в виде специального атрибута. Каждый атрибут е F может быть выражен с помощью одной фразы из конечного набора W; = {ша,..., Wim}, которые являются синонимами данного атрибута.

Формальная модель мнения: В общем виде некоторый документ d содержит мнения о наборе объектов o\,...,oq от набора владельцев мнений hi,...,hg. Мнение по каждому объекту oj выражено в отношении подмножества его атрибутов Fj. Мнение — это пятёрка (oj, fjk>00ijkiihnti)) гДе °j это некоторый объект, fjk это атрибут объекта Oj, ooijki это тональность мнения по отношению к атрибуту fjk, Ы это владелец мнения, а ti это время в которое было высказано мнение. Для каждого атрибута fjk владелец мнения выбирает соответствующее слово или фразу из набора Wjk и выражает мнение с помощью оценочных слов и выражений из некоторого набора Wßp, которые зависят от предметной области D и, зачастую, от контекста. Здесь под оценочными словами и выражениями понимаются все слова и словосочетания, которые выражают оценку напрямую, либо неявно, с использованием скрытого смысла, иронии или сарказма,

Таким образом, можно выделить три основных типа знаний необходимых для эффективного решения задачи анализа мнений:

• Объекты и их атрибуты;

• Оценочные слова и выражения;

• Владельцы мнений

В рамках текущей работы основное внимание будет уделяться второму типу знаний — оценочным словам и выражениям.

Оценочные слова обладают рядом особенностей: концентрация оценочных слов в отзывах пользователей существенно выше, чем, например, в новостных текстах; каждое оценочное слово обладает некоторой тональностью и за счёт этого чаще употребляется в текстах с определённой эмоциональной окраской; оценочные слова чаще являются прилагательными или наречиями, реже

9

существительными или глаголами. На основании данных наблюдений предлагается и исследуется модель оценочных слов для их качественного извлечения.

Модель извлечения оценочных слов базируется на нескольких текстовых коллекциях: коллекции отзывов пользователей с оценками, коллекции описаний объектов и общей новостной коллекции. Чтобы построить модель, которая качественно отличает оценочные слова от неоценочных, для каждой леммы (слово в начальной форме) из корпуса мнений, вычисляется набор статистических и лингвистических признаков:

• Частотные характеристики: частота слова во всей коллекции и подоку-ментная частота; частота слов с большой буквы; частота слов после операторов; признак «Странность»; признак ТБШР;

в Характеристики на основе оценки пользователя: отклонение от средней оценки; дисперсия оценки слова; вероятность встретить заданное слово с каждой из оценок;

• Лингвистические признаки: набор признаков учитывающих морфологию и неоднозначность словоупотреблений.

Странность. Для вычисления признака «Странность» необходимо два корпуса, один — с высокой концентрацией оценочных слов, другой — контрастный (с низкой концентрацией). Идея в том, что слова, которые несут оценки, будут «странными» в контексте контрастного корпуса. Сама характеристика вычисляется так:

где Рв{ги) — вероятность появления слова в исследуемой коллекции; Рд^) — вероятность появления слова в контрастной коллекции.

1ТП)Р является известным в информационном поиске методом взвешивания слов. В данной работе использовался следующий вариант подсчета ТРГОР:

где /(и>) — частота леммы и> в коллекции, с$(ги) — количество документов в коллекции (описаний или новостей), где встречалась лемма ю, 0 = 0.4, |с| — количество документов в коллекции.

ИгеМпезз(т) = * ^ РдЬ")

7Т/£>Г(ш) = /3 + (1 - 0) • ¿/(ш) •

(1)

Характеристики на основе оценок текстов. Пусть С — {1...10} будет множество возможных оценок авторов в коллекции отзывов. Тогда имеют место следующие определения.

Условная вероятность каждой категории в зависимости от слова:

Р(сН = _ /(W' C) . EcecfiV'*)

Условная вероятность для каждого слова в зависимости от категории:

Условное математическое ожидание для каждой категории в зависимости от слова:

(ЧбС

Математическое ожидание каждой категории в коллекции отзывов:

а еС

С использованием данных определений, вычисляется набор характеристик.

Отклонение от средней оценки.

Dev(w) = \E(c\w) - Е{с)\

Данный признак позволяет выделять слова, которые употребляются в широком спектре оценочных категорий. Как следствие, вероятность принадлежности таких слов к оценочным ниже, чем у слов с более детерминированным поведением.

Дисперсия оценки слова. Еще одной важной характеристикой является дисперсия оценки слова. Если у оценки слова маленькая дисперсия, это значит, что данное слово употребляется в отзывах с близкими оценками. Такие слова более вероятно являются оценочными.

Var(w) = Е(с2\w) - E(c\w)2

Вероятность встретить заданное слово с каждой из категорий. Чтобы формализовать информацию о встречаемости слов в различных категориях, вводится логарифм нормированной условной вероятности для каждого слова, в зависимости от категории.

P(w\c)

Lhc(w) — log

Нормировка необходима для сравнения значений данной функции у различных слов.

Лингвистические признаки.

— Четыре бинарных признака частей речи (существительное, глагол, прилагательное и наречие);

— Два бинарных признака, отражающие неоднозначность употребления леммы в разных частях речи (т.е. лемма может быть разными частями речи, в зависимости от контекста) и нахождение данной леммы в словаре морфологического анализатора;

— Нахождение в слове заранее заданного списка приставок. Эта характеристика является важным индикатором слов, начинающихся с отрицания (например, несмешной)-,

На основе разработанного набора признаков предлагается формальное представление слов в коллекции текстов из некоторой предметной области. Для проверки качества определения оценочных слов на основе предложенной модели, проводятся эксперименты в предметной области о фильмах (объем коллекции 28773 отзыва с общедоступного интернет ресурса).

Для каждого слова в коллекции отзывов строится его признаковое представление и решается задача классификации на два класса: оценочные слова и неоценочные. Для настройки алгоритмов обучения с учителем необходимо сформировать размеченное множество слов. Чтобы его получить, все слова из коллекции отзывов о фильмах с частотой выше трёх (18362 слова) были размечены вручную. Слово считалось оценочным, если можно было представить какой-либо оценочный контекст с его участием в предметной области о фильмах. Каждое слово было размечено двумя экспертами. В результате данной процедуры было получено множество из 4079 оценочных слов.

Наилучший результат показала комбинация трёх различных алгоритмов классификации: Logistic Regression, LogitBoost и Random Forest. Для всех экспериментов применялась кросс-валидация на 10 частей. Выбор алгоритмов был обусловлен предварительными экспериментами и высоким результирующим качеством предложенных методов [9].

Данные алгоритмы применялись для формирования списков слов, упорядоченных по вероятности принадлежности каждого слова к классу оценочных. Для оценки качества извлеченных оценочных слов использовалась мера качества Precision@n. Эта мера хорошо подходит для оценки качества комбинаций списков, а также может быть использована с различными порогами. Для сравнения качества работы алгоритмов в различных предметных областях был выбран

12

Фильмы Книги Игры Цифровые камеры Мобильные телефоны

81.5% 86.0% 72.2 % 65.8% 73.2%

Таблица 1: Результаты классификации в различных предметных областях

порог п = 1000. Этот порог не слишком велик для ручной разметки и достаточен для демонстрации качества работы модели. Результаты классификации в различных предметных областях можно найти в Таблице 1. Необходимо заметить, что модель обучалась в предметной области о фильмах и применялась без какой-либо дополнительной разметки в других областях.

Далее в работе исследуется вклад в качество классификации всех наиболее значимых групп признаков. В результате удаётся найти небольшую группу признаков (9 признаков), которая позволяет получить результат, сопоставимый по качеству с результатом исходного алгоритма. Стоит отметить, что все корпуса данных оказались задействованы в отобранном множестве признаков.

После проведения экспериментов по классификации слов и вычисления качественных оценок для каждого признака, было проведено теоретическое исследование признака «Странность», как одного из самых значимых признаков. В результате была установлена связь между параметрами распределения слов в коллекциях и мерой взаимной информации между признаком и меткой класса (оценочное или неоценочное) для каждого слова.

Данное исследование строилось на предположении, что распределение слов в коллекции текстов подчиняется закону Ципфа-Мандельброта. В этом случае можно найти аналитическое представление для плотности распределения признака «Странность» г:

где а3, В„ параметры специальной коллекции, а ад,Вд параметры общей коллекции.

На основании распределения признака «Странность» можно вычислять взаимную информацию между данным признаком и классом слова. Взаимная информация может быть записана в терминах дивергенции Кульбака-Лейблера в следующем виде:

I(Z,T) = p(t = 1 )DKL(p(z 11 = l)||p(z)) +p(t = 0)DKL{p(z 1t = 0)||p(z))

В работе рассматривается первый член суммы, так как обе дивергенции имеют схожий вид.

Было найдено аналитическое представление для дивергенции Dkl(p{z | t = l)||p(z)j в предположении, что распределение p(z \ t = 1 ),z € R+ подчиняется тем же законам, что и p(z),z 6 только с другими значениями параметров аа\, Bs\.

Если Bs > Вsi тогда:

1 - аэ1 2 -ces-ag _ (ая - asi)(l - ад) °92 -ал-ад 1-аа (2 - asi - ад)(1 - ал) /Д,\1-«. (1 - gsi)(2 - ад - а,) ^ (В, А^Л

+ l0g fe; ~ (l-o,)(2-«.i-ae) l1 " VIT i i

Если В5 < Ssi тогда:

1 — ал 2-а„-ад (а8 - аз1)(1 - ag) 2 - asi - 1 - а» (2 - aai - afl)(l - aai)

+ 1°gfe "(l-a^-^-a^^-UJ )

В случае = Д, выражение существенно упрощается:

1 - ал 2 - а, - ад as- a,i 1 - ад

loa------ - --ñ-

2-ал-ад 1 - аЛ 1 - ал 2 - asJ - ад

и можно доказать следующую теорему:

Теорема 1. Функция Dkl (p(z 11 = является монотонно убывающей

от параметра asi.

Доказанная теорема позволяет сравнивать между собой коллекции данных и давать оценку качества работы признака «Странность» с каждой из них.

В конце главы описывается исследование задачи классификации отзывов по тональности в различных предметных областях. Для формирования признакового представления текста используются различные наборы признаков, включающие в себя оценочные слова, слова-операторы, знаки препинания. В результате проведённых экспериментов можно сделать вывод, что извлеченные оценочные слова позволяют улучшить качество классификации текстов по тональности.

Третья глава посвящена исследованию методов формирования обобщенного списка оценочной лексики в области товаров. В результате исследования была предложена формула, поощряющая нахождение оценочного слова в начале наибольшего количества извлеченных списков оценочной лексики в разных предметных областях. Чтобы оценить полезность построенного ресурса, в работе приводятся результаты широкомасштабных экспериментов с его использованием.

Для поиска наилучшего способа комбинирования весов слов в различных областях были проведены эксперименты с тремя вариантами вычисления итогового веса, которые основаны на наиболее распространённых и простых функциях среднего или максимума:

• Взвешенное среднее по всем областям;

• Максимальный вес слова из всех областей, умноженный на долю областей в которых данное слово встречается;

• Произведение максимального веса из всех областей на среднюю позицию данного слова во всех областях.

По результатам исследования, наилучший результат был получен с помощью последнего варианта. Формула веса слова в результирующем списке:

где £) — это множество, состоящее из пяти предметных областей, й — это список оценочных слов в заданной предметной области, а это общее количество в слов в данном списке. Функции ргоЬ,1(1и) и роз^(ги) возвращают значение вероятности и позицию заданного слова и/ в списке й.

Сформированный список был оценен двумя экспертами. Качество результирующего ресурса составило 91.4% согласно мере Ргеызюп@1000. Согласие ответов экспертов составляло 84% (к = 0.63).

Для проверки полезности полученного обобщенного списка оценочных слов в мета-области товаров, он был протестирован в двух задачах:

• Задаче переноса системы анализа тональности с одной области на другую;

• Задаче извлечения мнений пользователей по запросу (эксперименты проводились в рамках Российского семинара по методом оценки информционно-го поиска РОМИП 2012).

В задаче переноса классификатора, алгоритмы на основе наборов признаков, состоящих из извлеченных оценочных слов для каждой предметной области или обобщенного списка оценочных слов, показывают существенный прирост в качестве классификации. Средний прирост качества при использовании обобщенного списка слов составил 1.76%, что доказывает полезность построенного ресурса для решения реальных задач.

В задаче поиска оценочных текстов по коллекции блогов с использованием построенного списка, были получены лучшие результаты по всем официальным мерам РОМИП 2012.

Таблицы, отражающие результаты экспериментов по каждой из задач, приведены в тексте третьей главы.

В четвертой главе описан новый метод определения тональности оценочных слов для заданной предметной области. Ключевые требования к данному методу были следующие:

• Использование оценочных слов, извлеченных методом, предложенным в главе 2;

• Независимость от предметной области и внешних лингвистических ресурсов;

• Использование только информации о словах из коллекции текстов, без дополнительной ручной разметки.

Исходя из данных требований, необходимо было составить признаковое описание, максимально использующее информацию, содержащуюся в коллекции. Основные источники информации о тональности оценочных слов были следующие:

• Средняя оценка слов в коллекции;

• Информация о совместной встречаемости оценочных слов;

• Учет отрицания, встречающегося рядом с оценочным словом.

В качестве алгоритма классификации предпочтительно было использовать алгоритмы обучения, где не требуется дополнительная ручная разметка, так как данная процедура требует существенных трудозатрат.

Наиболее естественным подходом к данной задаче является представление множества оценочных слов и связей между ними в виде структурированного набора, состоящего из нефиксированного заранее числа «элементарных» объектов, которые в свою очередь кодируются конечномерными векторами. То есть решается задача классификации взаимосвязанного массива данных.

Таким образом, для оценочных слов в заданной предметной области, строится неориентированный граф, где каждая вершина представляет случайную величину, обозначающую тональность некоторого слова из вышеупомянутого списка. Также высказывается предположение, что тональность оценочного слова зависит только от слов, встречающихся с ними в непосредственной близости. То есть тональность слова является локальной характеристикой, или формально, выполняется локальное марковское свойство для вершин в графе. Тоща построенный граф представляет собой марковскую сеть, в которой заданы

попарные и унарные потенциальные функции. Реализуемая модель схожа по построению с моделью Изинга, математической моделью статистической физики, предназначенной для описания намагничивания материала.

Адаптация модели Изинга. Пусть задан набор из N слов, каждое из которых имеет свою тональность (равную +1 или -1). По аналогии с моделью Изинга и её энергетической функцией системы, в данном случае полная энергия может быть представлена в следующем виде:

Е(х, 5, Н) = - ЭцХхХу - /ьж,

I] 1

Где XI задаёт тональность слова г, яу - попарный потенциал взаимодействия между двумя словами, унарный потенциал каждого слова (априорная тональность). Вероятность принять то или иное состояние для системы задается распределением Больцмана (частный случай распределения Гиббса):

Р(ж|5'я) = Щн)ехр(-/3'Е(х'я))

где коэффициент /3 пропорционален обратной температуре в модели Изинга, а в данном случае является параметром модели. В традиционной модели Изинга от температуры зависит фазовое состояние системы:

• При высокой температуре частицы имеют случайные спины (парамагнетики)

в При низкой температуре большинство спинов направлены в одну сторону (ферромагнетики)

• Также известно, что при некоторой промежуточной температуре ферромагнетики становятся парамагнетиками. Этот процесс называется фазовым переходом.

Непосредственно перед фазовым переходом спины всех частиц локально согласованы. Именно это состояние сети представляет наибольший интерес, так как есть основания полагать, что тональности оценочных слов локально согласованы. Для поиска данного состояния были проведены эксперименты при различных значениях /3.

Для задания унарных потенциалов были использованы оценки, поставленные авторами отзывов. Для каждого оценочного слова его унарный потенциал вычислялся по формуле:

К = Я(сИ - Е(с)

р BP MF Gibbs

0.1 83.2% 82.8% 82.1%

0.2 83.3% 83.6% 83.1%

0.3 83.3% 83.6% 83.6%

0.4 83.8% 85.2% 83.7%

0.5 83.6% 84.5% 82.0%

0.6 85.0% 83.1% 79.4%

0.7 84.4% 82.8% 78.2%

0.8 82.8% 82.6% 77.5%

0.9 80.9% 82.5% 77.1%

1.0 80.8% 81.8% 75.5%

Таблица 2: Зависимость качества классификации от параметра /3

Исходя из эмпирических данных, для всех попарных связей, вес вычислялся по следующей формуле:

4 3 V \d(wi,wj)+ 4 ))

где f(wi, Wj) частота совместной встречаемости слов Wi,Wj, d(wi, Wj) — среднее расстояние между словами W{, wj.

Для поиска наиболее вероятного, согласованного состояния поля использовались три алгоритма:

• Алгоритм распространения доверия (BP);

• Метод самосогласованного поля (MF);

• Сэмплирование Гиббса (Gibbs).

Задача состояла в поиске состояния сети, при котором тональности всех слов являются локально согласованными. В связи с этим эксперименты были проведены при различных значениях /?, результаты которых можно найти в таблице 2.

В результате работы алгоритмов было найдено согласованное состояние сети, в котором наилучшее качество классификации (мера качества — правильность) составило 85.0% для алгоритма BP, 85.2% для метода MF и 83.7% для Gibbs. В качестве базового алгоритма (baseline) было взято отклонение от средней оценки, такое же, как и вес h, в графе. Если отклонение от средней оценки было больше 0, то слово считалось положительным, иначе отрицательным. Качество разделения слов на два класса с учетом данного правила составило 82.2%.

Как и описывалось в модели Изинга, при возрастании значения параметра, тональности слов начинают принимать случайные значения (фазовый переход). В процессе перехода от низкого значения к высокому удалось найти состояние, когда тональности слов локально согласованы и при этом качество классификации достигает наивысшего значения 85.2%.

В заключении приведены основные результаты работы, которые состоят в следующем:

1. Предложен новый метод автоматического извлечения оценочной лексики заданной предметной области, основанный на использовании нескольких текстовых коллекций и совокупности признаков. Показана переносимость предложенной модели на разные предметные области;

2. Предложен и реализован новый метод автоматического определения тональности извлеченных оценочных слов. Метод основан на применении марковских случайных полей;

3. На основе предложенного метода извлечения оценочной лексики создан словарь оценочных слов, независящих от предметной области, который опубликован и является первым общедоступным словарем оценочной лексики для русского языка. Показана полезность данного ресурса в нескольких задачах анализа тональности текстов.

Основные публикации автора по теме диссертации

1. Лукашевич Н.В., Четверкин И.И. Извлечение и использование оценочных слов в задаче классификации отзывов на три класса И Вычислительные методы и программирование. 2011. Т. 12. С. 73-81.

2. Лукашевич Н.В., Четверкин И.И. Построение модели для извлечения оценочной лексики в различных предметных областях // Моделирование и анализ информационных систем. 2013. Т. 20, № 2. С. 70-79.

3. Chetviorkin I., Loukachevitch N. Extraction of Russian Sentiment Lexicon for Product Meta-Domain // COLING 2012: Technical Papers. 2012. P. 593-610.

4. Четверкин И. И. Метод извлеченя оценочных слов из текстов // Международная молодежная научная олимпиада «Ломоносов-2010». 2010. С. 99-100.

5. Chetviorkin I. Testing the sentiment classification approach in various domains — ROMIP 2011 // International Conference on Computational Linguistics Dialog. 2012. Vol. 2. P. 15-26.

6. Четвёркин И. И. Кластеризация оценочных слов по тональности на основе марковских случайных полей // Международная молодежная научная олимпиада «Ломоносов-2013». 2013. С. 62-63.

7. Четвёркин И. И. Кластеризация оценочных слов по тональности на основе марковских случайных полей // Новые информационные технологии в автоматизированных системах. 2013. С. 245-252.

8. Четвёркин И. И. Анализ и применение признаков оценочных слов для формирования словаря оценочной лексики // Сборник статей молодых ученых факультета ВМК МГУ. 2013. Т. 10. С. 279-295.

9. Четверкин И.И., Лукашевич Н.В. Автоматическое извлечение оценочных слов для конкретной предметной области // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». 2010. С. 565-571.

10. Chetviorkin I., Braslavskiy P., Loukachevich N. Sentiment Analysis Track at ROMIP 2011 // International Conference on Computational Linguistics Dialog. 2012. Vol. 2. P. 1-14.

+

Напечатано с готового оригинал-макета

Подписано в печать 25.09.2013 г. Формат 60x90 1/16. Усл.печл. 1,0. Тираж 80 экз. Заказ 294.

Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 527 к. Тел. 8(495)939-3890/91. Тел./факс 8(495)939-3891.

Текст работы Четвёркин, Илья Игоревич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Московский Государственный Университет имени М.В. Ломоносова

На правах рукописи

04201362039 Четвёркин Илья Игоревич

Автоматизированное формирование базы знаний для задачи

анализа мнений

Специальность 05.13.11 — «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»

Диссертация на соискание учёной степени кандидата физико-математических наук

Научный руководитель: профессор, доктор физ.-мат. наук Мальковский М.Г.

Москва-2013

Содержание

Введение 6

1 Анализ предметной области 12

1.1 Задача анализа мнений..............................................12

1.1.1 Обнаружение субъективности в текстах и идентификация мнений ..................................................14

1.1.2 Задача определения тональности фрагмента текста ... 15

1.1.3 Автоматическое аннотирование субъективных текстов . 17

1.2 Подходы к классификации текстов по тональности..............18

1.2.1 Критерии оценки качества алгоритмов классификации текстов по тональности......................................20

1.2.2 Классификация на основе методов машинного обучения 22

1.2.2.1 Алгоритмы классификации......................23

1.2.2.2 Признаковое описание объектов и веса признаков ..............................................28

1.2.2.3 Подходы с использованием алгоритмов машинного обучения................................30

1.2.3 Классификация по тональности на основе словарей и

правил........................................................32

1.2.3.1 Методы построения словарей оценочной лексики ................................................32

1.2.3.2 Подходы с использованием словарей оценочных слов ..........................................36

1.2.4 Классификация текстов по тональности на русском языке 37

1.2.5 Адаптация алгоритмов к различным предметным областям............................................................39

1.3 Выводы к первой главе..............................................40

2 Модель оценочных слов для построения словаря в заданной предметной области 42

2.1 Модель мнения пользователя........................................42

2.2 Модель извлечения оценочных слов для заданной предметной области................................................................45

2.2.1 Описание текстовых коллекций............................45

2.2.2 Признаки оценочных слов..................................46

2.2.2.1 Частотные признаки..............................47

2.2.2.2 Признаки на основе оценок пользователей . . 48

2.2.2.3 Лингвистические признаки......................49

2.2.3 Алгоритмы и оценки качества..............................50

2.2.4 Исследование качества признаковых наборов............52

2.2.5 Теоретическое исследование признака «Странность» . . 55

2.2.5.1 Распределения слов в коллекциях текстов ... 56

2.2.5.2 Распределение случайной величины признака

и его некоторые особенности....................60

2.2.5.3 Взаимная информация между признаком и ; классом слова......................................61

2.2.6 Использование извлеченных оценочных слов в задаче

классификации ..............................................65

2.2.6.1 Коллекции для тестирования качества классификации отзывов..................................66

2.2.6.2 Пространство признаков для классификации отзывов............................................66

2.2.6.3 Эксперименты по классификации отзывов с учётом тональности..............................69

2.2.6.4 Оценка отзывов экспертами......................73

2.3 Перенос модели оценочных слов на различные предметные области ..................................................................75

2.3.1 Описание результатов переноса модели ..................75

2.3.2 Использование извлеченных словарей в задачах классификации на РОМИП 2011 ..................................77

2.3.2.1 Коллекции и предобработка данных............77

2.3.2.2 Наборы признаков на основе оценочных слов 79

2.3.2.3 Результаты экспериментов по классификации отзывов в различных областях..................81

2.3.3 Применение модели к другим языкам ....................8Г

2.3.4 Система извлечения оценочных слов БотЕх ............84

2.4 Выводы ко второй главе..............................................85

3 Создание обобщенного списка оценочных слов 87

3.1 Методика формирования обобщенного списка....................88

3.2 Перенос классификатора тональности на различные области . . 91

3.2.1 Меры качества в задаче переноса классификатора . ... 93

3.2.2 Основные результаты переноса классификатора..........94

3.3 Поиск и извлечение отзывов из коллекции блогов................95

3.4 Выводы к третьей главе..............................................99

4 Классификация оценочных слов по тональности 100

4.1 Задача классификации слов по тональности......................100

4.2 Марковские сети и модель Изинга..................................103

4.3 Алгоритм распространения доверия................................106

4.4 Построение и инициализация модели..............................109

4.5 Эксперименты и оценка качества..................................111

4.6 Выводы к четвертой главе ..........................................114

Заключение 115

Список рисунков 116

Список таблиц 118

Литература 119

А Список общезначимых оценочных слов 132

В Список оценочных слов в предметной области о фильмах с разметкой по тональности 140

Введение

С развитием сети Интернет неуклонно растет объем хранимой неструктурированной информации, представленной текстами на естественных языках. Условно такую информацию можно разделить на два типа: «фактическая информация» и «субъективные мнения пользователей». За прошедшее десятилетие наиболее активному исследованию подвергались алгоритмы и программные системы связанные с обработкой фактической информации [1] (например поисковые машины).

С появлением Веб 2.0 и построенных на его основе социальных сетей, платформ для блогов и микроблогов, объём информации второго типа стал существенно увеличиваться. «Блогосфера» стала наиболее динамичной частью всемирной паутины, которая развивается, реагируя на события в реальной жизни. Вследствие этого растет научный и практический интерес к задачам обработки субъективной информации.

Для решения таких задач важным является определение субъективности и тональности текста. Субъективность текста определяется наличием в нём точки зрения автора и выражением его мнения, а не констатацией фактов [2]. Тональность — это эмоциональное отношение автора высказывания к некоторому объекту [2] (объекту реального мира, событию, процессу, или их свойствам/атрибутам) .

Для примера рассмотрим текст о фильме: Хороший, трешовый фильм, с отличным чувством юмора. Для любителей Гая Ритчи самое то, вот только картинка нищенская, но ничего страшного. Это даже колорит какой-то при-

дает. Данный текст является субъективным отзывом и имеет положительную тональность по отношению к фильму. Для того, чтобы правильно оценить тональность данного текста необходимо знать, что слова хороший, трешовый, отличный, колорит являются оценочными с положительной тональностью, а слово нищенский является отрицательным оценочным словом.

На данном примере можно увидеть, что для решения задачи анализа мнений необходимо обладать большим количеством вспомогательных знаний об объектах и их атрибутах, оценочных словах и выражениях, а также владельцах мнений — в виде специализированной базы знаний. Одним из наиболее важных видов знаний являются словари оценочных слов и проставленные оценки тональности для каждого слова. Однако построение универсального словаря оценочных слов является невыполнимой задачей, так как оценочность суждения во многих случаях зависит от предметной области. Предметная область — это часть реального мира, рассматриваемая в пределах данного контекста. Под контекстом здесь может пониматься, например, область исследования или область, которая является объектом некоторой деятельности.

Каждая предметная область может иметь свойственную только ей оценочную лексику, либо значения оценочных слов могут меняться в разных областях [3]. Например, «нужно увидеть» является сильным оценочным выра-г жением в предметной области о фильмах, но нейтральным в общественно-политической области [4].

Вследствие описанных особенностей оценочных слов в задачах анализа субъективной информации, вручную сформированные ресурсы могут использоваться для первичной обработки, с их последующим пополнением и обогащением. Такие ресурсы обладают высокой точностью и очень низкой полнотой, так как не включают в себя слова характерные для заданной предметной области, слэнг и другие несловарные слова. Низкая полнота в свою очередь ведет к невозможности учета отсутствующих слов при анализе текстов и падению качества работы алгоритмов.

Альтернативным вариантом конструирования словарей оценочной лексики является автоматическое извлечение оценочных слов из коллекций текстов или других ресурсов, находящихся в свободном доступе. Такие подходы позволяют извлекать оценочные слова характерные для заданной предметной области, которые часто употребляются людьми для выражения своего отношения к тому или иному объекту.

Таким образом, актуальной является проблема автоматического извлечения словарей оценочных слов для различных предметных областей. Такие словари могут быть полезны при адаптации алгоритмов анализа мнений, а также улучшают качество работы в различных задачах, например в поиске оценочной информации [5], или в классификации выражений по тональности [6]. Кроме того, извлечение оценочных слов непосредственно из текстовых коллекций позволяет найти сленг и другие несловарные слова, которые могут быть важными факторами при обработке мнений [7].

Цель диссертационной работы

Целью диссертационной работы является разработка методов и программных средств построения базы знаний для задачи анализа мнений. Разрабатываемые программные средства должны удовлетворять следующим требованиям: высокая точность извлеченных словарей оценочных слов; применимость к различным предметным областям; возможность комбинации словарей из различных предметных областей; определение тональности извлеченных оценочных слов.

Для достижения этой цели были решены следующие задачи:

1. Исследование и разработка модели извлечения оценочных слов для заданной предметной области и перенос обученной модели извлечения оценочных слов на другие предметные области без дополнительной разметки;

2. Разработка методов автоматического определения тональности извлеченных слов;

3. Построение обобщенного словаря оценочных слов, не зависящего от предметной области, на основе извлеченных знаний;

4. Разработка программного модуля извлечения оценочных слов для заданной предметной области и комбинации знаний из разных предметных областей.

Основные положения, выносимые на защиту:

1. Предложен новый метод автоматического извлечения оценочной лексики заданной предметной области, основанный на использовании нескольких текстовых коллекций и совокупности признаков. Показана переносимость предложенной модели извлечения оценочных слов на разные предметные области;

2. Предложен и реализован новый метод автоматического определения тональности извлеченных оценочных слов. Метод основан на применении марковских случайных полей;

3. На основе предложенного метода извлечения оценочной лексики был создан словарь оценочных слов, независящих от предметной области. Данный словарь был опубликован и является первым общедоступным словарем оценочной лексики для русского языка. Показана полезность данного ресурса в нескольких задачах анализа тональности текстов.

Научная новизна

Новизна настоящей диссертационной работы заключается в том, что предложен новый метод построения базы знаний для задачи анализа мнений на основе ряда текстовых коллекций и комбинации статистических признаков.

Применимость метода обоснована теоретически, на основе анализа полезности ряда признаков для классификации оценочных слов, а также численно, для чего были проведены эксперименты с использованием извлеченных знаний. Разработанный метод может применяться в различных предметных областях для извлечения знаний и построения автоматических алгоритмов анализа мнений на их основе.

Практическая значимость

На основе предложенного метода, спроектирована и реализована программная система для извлечения оценочных слов в заданной предметной области. Разработанная система также имеет возможность комбинирования списков оценочных слов, для формирования общих, независящих от предметной области словарей. Такой словарь был создан для мета-области товаров и общедоступен для исследовательских целей1. Таким образом, разработанная система может быть использована для создания баз знаний оценочных выражений в различных предметных областях без какого-либо дополнительного участия человека.

Результаты научных исследований, представленных в диссертации, частично использовались в рамках гранта РФФИ № 11-07-00588-а под руководством Лукашевич Н.В.

Апробация работы. Основные результаты работы докладывались на следующих конференциях и семинарах:

• На международной конференции «Диалог» (2010г.);

• На международной конференции «Ломоносов» (2010г.); ч

• На 12-й национальной конференция по искусственному интеллекту с международным участием (КИИ, 2010г.)

• На международной конференции «Диалог» (2011г.);

1 http://www.cir.ru/SentiLexicon/ProductSentiRus.txt

• На семинаре по поиску концептов в неструктурированной информации (CDUD), проходящему совместно с конференцией RSFDGrC (2011г.);

• На семинаре по поиску информации и извлечению знаний (IEKA), проходящему совместно с конференцией RANLP (2011г.);

• На международной конференции «Диалог» (2012г.);

• На летней школе по информационному поиску RUSSIR (2012г.);

• На международной конференции COLING (2012г.);

• На международной конференции «Ломоносов» (2013г.);

• На международной конференции «Диалог» (2013г.);

Кроме того результаты обсуждались на семинаре лаборатории анализа информационных ресурсов НИВЦ МГУ, на семинаре в НИУ ВШЭ и на регулярном семинаре ACM SIGMOD в Москве.

Публикации. Основные результаты по теме диссертации изложены в 18 печатных работах, в том числе в 2-х статьях в журналах из списка ВАК [8,9], 1 статье, входящей в базу SCOPUS [10], 2 — в тезисах докладов [11,12], и в 13 других изданиях [13-25].

Объем и структура работы. Диссертация состоит из введения, четырёх глав, заключения и двух приложений. Полный объем диссертации составляет 131 страницу с 8 рисунками и 17 таблицами, объем приложений — 15 страниц. Список литературы содержит 103 наименования.

Глава 1

Анализ предметной области

Данная глава посвящена описанию основных задач, связанных с обработкой субъективных мнений пользователей, и в частности одной из наиболее важных и востребованных задач — классификации текстов по тональности. Также в данной главе проводится обзор основных методов классификации текстов по тональности на базе методов машинного обучения и инженерии знаний с использованием словарей оценочных слов. Особое внимание уделяется задаче формирования словарей оценочных слов и проблемам переносимости алгоритмов на различные предметные области. Целью данной главы является анализ достоинств и недостатков существующих подходов к классификации текстов по тональности и обоснование важности учёта оценочных слов, характерных для заданной предметной области.

1.1 Задача анализа мнений

Задача анализа мнений пользователей заключается в поиске, извлечении и обработке субъективной информации в текстах на естественном языке [26]. При решении данной задачи можно выделить несколько ключевых этапов анализа:

1. Определение субъективности/объективности текста;

2. Классификация заданного текста, предложения или словосочетания по тональности;

3. Выявление ключевых объектов, по которым высказано мнение, и построение автоматических аннотаций отзывов;

Кроме вышеперечисленных ключевых задач есть ряд вспомогательных, не менее важных задач, например: классификация текстового фрагмента по эмоциям (радость, злость и т.п.), определение сарказма, иронии и другие. Наиболее распространённой и востребованной задачей на практике является определение тональности по отношению к объекту в целом, где в качестве фрагмента текста выступает некоторый завершенный текст (документ).

Активные исследования в области анализа субъективной информации начались с начала 2000-х годов [27-29]. Интерес к данной задаче возник вследствие нескольких факторов:

• Развитие методов машинного обучения и их применения в задачах обработки текстов на естественном языке и в информационном поиске;

• Доступностью коллекций размеченных данных, для алгоритмов машинного обучения, вследствие распространения Интернета и развития веб-площадок, где пользователи могут оставлять собственные мнения;

• Коммерческий интерес к сложным задачам интеллектуального анализа субъективных мнений.

На сегодняшний день существует несколько международных форумов в области информационного поиска, в рамках которых также проходит оценка эффективности подходов к автоматическому анализу тональности - американский TREC (совместный проект NIST (National Institute of Standards and Technology, США) и DARPA (Defense Advanced Research Projects Agency, США), который стартовал в 1992 году) и японский NTCIR (японский семинар

с интернациональными участниками по многоязычному поиску, в основном для японского/китайского и английского языков)

В России публик�