автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Модель оперативной аналитической обработки текстовых комментариев к законопроектам
Автореферат диссертации по теме "Модель оперативной аналитической обработки текстовых комментариев к законопроектам"
На правах рукописи
Толкунов Александр Александрович
МОДЕЛЬ ОПЕРАТИВНОЙ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ КОММЕНТАРИЕВ К ЗАКОНОПРОЕКТАМ
Специальность 05.13.17 - Теоретические основы информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
1 5 т 2014
Орёл-2014
005548310
Работа выполнена в Академии ФСО России.
Научный руководитель: Кукушкин Александр Антонович,
кандидат технических наук, доцент
Официальные оппоненты: Хорошилов Александр Алексеевич,
доктор технических наук,
Федеральное государственное бюджетное учреждение науки Институт проблем информатики Российской академии наук, г. Москва, ведущий научный сотрудник
Золотарёв Олег Васильевич,
кандидат технических наук, доцент, Негосударственное образовательное учреждение высшего профессионального образования "Российский новый университет", г. Москва, доцент
Ведущая организация: Федеральное государственное бюджетное учреж-
дение науки Институт системного анализа Российской академии наук, г. Москва
Защита состоится "4" июня 2014 года в 16 часов 00 минут на заседании диссертационного совета Д 002.073.01 на базе Федерального государственного бюджетного учреждения науки Институт проблем информатики Российской академии наук (ИЛИ РАН) по адресу: 119333, г. Москва, ул. Вавилова, д. 44, корп. 2.
С диссертацией можно ознакомиться в библиотеке и на сайте ИПИ РАН, www.ipiran.ru.
Автореферат разослан апреля 2014 г.
Ученый секретарь
диссертационного совета Д 002.073.01 доктор технических наук, профессор
С.Н. Гринченко
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. В настоящее время в соответствии с Постановлением Правительства РФ от 25.08.2012 № 851 разрабатываемые законопроекты должны проходить процедуру общественного обсуждения на интернет-портале regulation.gov.ru. Результатом такой процедуры является массив комментариев, содержащих предложения интернет-пользователей по корректировке законопроекта. Комментарии подлежат экспертной обработке с целью изучения и обобщения поступивших предложений. Трудоемкость данной процедуры на практике оказывается значительной, поскольку число комментариев для законопроектов, вызвавших наибольшее обсуждение, может достигать 10-20 тысяч. В этих условиях возникает потребность в разработке моделей обработки комментариев, направленных на эффективное ознакомление с поступившими предложениями.
Одним из основных понятий при исследовании процедур анализа комментариев является понятие "мнение". Исследованию способов обработки мнений посвящено научное направление Opinion Mining (англ.: анализ мнений), входящее в состав Text Mining (англ.: глубинный анализ текстов). Анализ работ Б. Пэнга, Л. Ли, М. Геймона, Дж. Каре-нини, М. Девалли, П. Резника, М. Ху, Т. Пинча, Т. Муллена и др., посвященных данному направлению исследований, показал, что в основном авторы понимают анализ мнений как задачу классификации по тональности и поиска ключевых слов, в то же время вопросы, касающиеся эффективного ознакомления с мнениями, направленными на улучшение объекта обсуждения, остаются недостаточно исследованными.
Одним из подходов к моделированию процедур обработки мнений может стать подход, учитывающий многомерность представления мнения. Для обработки многомерных данных одним из наиболее эффективных методов обработки является оперативная аналитическая обработка данных, предложенная Э. Ф. Коддом. Модификации данного метода обработки для текстов описаны в трудах Дж. Мозе, С. Кейта, X. Ло, С. Лин, Дж. Хана, Д. Жана, Й. Ю, Б. Джанета, А. Инокучи, К. Такеда и др. Однако анализ данных работ показывает, что предлагаемые модели не универсальны, авторы вводят иерархии категорий, актуальные в конкретной задаче, а вновь вводимые операции погружения ограничивают лишь списками ключевых слов.
В данной ситуации возникли условия для постановки и решения научной задачи по разработке модели эффективной обработки комментариев с использованием оперативной аналитической обработки текстов. Разработанная модель обработки комментариев обеспечивает поддержку рекурсивной процедуры понимания комментариев экспертом за счет последовательного перехода между классами комментариев с погружением и ознакомлением с предложениями по корректировке законопроекта по дедуктивной схеме: интенсивность мнений в классе комментариев - ознакомление с типичными комментариями - ознакомление с полезными комментариями - ознакомление со всеми комментариями.
Объект исследования: процесс аналитической обработки комментариев интернет-пользователей в ходе общественного обсуждения законопроектов.
Предмет исследования: модели оперативной аналитической обработки текстов и алгоритмы погружения в текстовые данные в ходе обработки результатов общественного обсуждения законопроектов.
Целью исследования является повышение темпа изучения совокупности высказываний в ходе обработки результатов общественного обсуждения законопроектов.
Методы исследований базируются на использовании аппарата математической статистики, теории оптимизации, моделей представления знаний, моделей семантической фильтрации текстов, методов классификации, кластеризации и реферирования текстов.
Научная новизна работы обусловлена следующим:
1. Для решения задачи построения модели гиперкуба использованы зависимости между атрибутами комментариев.
2. Для решения задачи выделения типичных комментариев в ячейках гиперкуба применены кластеризация на основе матриц подобия и принцип наибольшего содержательного подобия со сводным рефератом кластера.
3. Решение задачи отбора полезных комментариев в ячейках гиперкуба осуществлено на основе максимизации функционала обобщенной полезности комментария, сформированного с учетом выявленной аналитической зависимости свертки атрибутов конструктивных предложений, составляющих комментарий, и предпочтений пользователей от ранга комментария.
Теоретическая ценность диссертации заключается в разработке решений, направленных на развитие моделей представления и обработки знаний в форме гиперкуба для обработки текстовой информации на основе операций определения типичных и полезных текстов.
Практическая значимость исследования определяется возможностью повышения оперативности анализа мнений интернет-пользователей по обсуждаемым вопросам на основе технической реализации и применения разработанных модели и алгоритмов в деятельности информационно-аналитических и ситуационных центров государственных органов.
Реализация результатов исследования осуществлена в практику деятельности ведомственных аналитических подразделений и в учебный процесс Академии ФСО России, что подтверждается соответствующими актами.
Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 - Теоретические основы информатики (технические науки) по следующим областям исследований:
п. 1. Исследование, в том числе с помощью средств вычислительной техники, информационных процессов, информационных потребностей коллективных и индивидуальных пользователей;
п. 2. Исследование информационных структур, разработка и анализ моделей информационных процессов и структур;
п. 5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.
Научные результаты, выносимые на защиту:
1. Модель оперативной аналитической обработки комментариев, отличающаяся от известных способом формирования гиперкуба на основе многомерного представления мнения, а также набором операций погружения в текстовые данные, учитывающих неравномерность распределения высказываний в комментариях интернет-пользователей.
2. Комплекс алгоритмов, включающий алгоритм формирования выборки типичных комментариев, учитывающий содержательное подобие комментариев и сходство с типичным представителем мнения для приоритетного отбора комментариев, и алгоритм формирования выборки полезных комментариев, учитывающий атрибуты конструктивных предложений и предпочтения интернет-пользователей для приоритетного отбора комментариев.
3. Научно-технические предложения по построению и применению системы оперативной аналитической обработки комментариев, позволяющие производить их обработку с учетом неравномерного распределения высказываний и сходства с типичным представителем мнения при заданном бюджете времени.
Достоверность выводов и рекомендаций обусловлена корректностью применения методов математической статистики, теории оптимизации, методов обработки текстов, воспроизводимостью и проверяемостью теоретических и экспериментальных результатов, согласованностью с практикой, внутренней непротиворечивостью, практической реализацией полученных результатов при разработке автоматизированных способов анализа комментариев.
Личный вклад соискателя. Все изложенные в диссертации результаты исследования получены соискателем лично с учетом замечаний и рекомендаций научного руководителя.
Апробация результатов диссертационного исследования.
Результаты исследования обсуждались на Международной молодежной научно-практической конференции "ИНФСЖОМ-2013" (г. Ростов-на-Дону, Северо-Кавказский филиал Московского технического университета связи и информатики, 2013), VIII Всероссийской межведомственной научной конференции "Актуальные проблемы развития технологических систем государственной охраны, специальной связи и специального информационного обеспечения" (г. Орёл, Академия ФСО России, 2013), V Межвузовской научно-практической конференции "Проблемы и перспективы совершенствования охраны Государственной границы" (г. Калининград, Калининградский пограничный институт ФСБ России, 2012), VII Научно-практической конференции "Проблемы развития технологических систем государственной охраны, специальной связи и специального информационного обеспечения" (г. Орёл, Академия ФСО России, 2011).
Публикации. По теме диссертации опубликовано 8 печатных работ, из них 3 -в журналах из Перечня ВАК Минобрнауки РФ, получено 2 свидетельства о регистрации программ для ЭВМ в Роспатенте.
Объем и структура работы. Диссертация состоит из введения, четырех разделов, заключения и приложений. Работа изложена на 207 страницах машинного текста, включая 79 рисунков, 69 таблиц, список использованных источников из 117 наименований и 4 приложения на 40 страницах.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность исследования, его научная новизна. Определены объект, предмет, цель исследования. Перечислены научные результаты, выносимые на защиту, приведены сведения о публикациях, апробациях и реализации результатов.
В первом разделе проведен анализ процесса обработки комментариев, произведен анализ решений, позволяющих повысить эффективность указанного процесса с учетом многомерности мнений, и произведена постановка задачи.
Показано, что обработка комментариев осуществляется комиссией экспертов и связана со значительными трудозатратами по изучению и обобщению содержащихся в них высказываний. Выявлено, что в процессе анализа комментариев и формирования аналитического обзора важную роль играют классификация комментариев, анализ интенсивности мнений по классам, установление типичных мнений и подкрепление их полезными комментариями.
Анализ источников, характеризующих понятие "мнение", позволил задать его теоретико-множественное представление в виде кортежа:
М =(у/,РУ,0,{А^,0,С,8,Т,а,Е,и), (1)
где V/- текст высказывания; ^ - факт, относительно которого высказывают мнение; V -оценка факта; О- отношение к факту; {Д }- автор(ы) мнения; £)- степень доверия мнению (обоснованность мнения); С - цель высказывания мнения; 5 - оценка стиля высказывания; Г-время; (?- аспект факта, по которому высказывают мнение; Е- интенсивность проявления мнения; С/ - оценка полезности мнения.
Установлено, что для обработки текстов, допускающих многомерное представление, предложено использовать модели оперативной аналитической обработки текстов. Выявлено, что существующие модели указанного типа не универсальны и не применимы для эффективного решения задачи обработки комментариев.
В целях формального описания решаемой задачи массив комментариев представлен как двудольный граф С = где множества
комментариев СОМ и высказываний SENT поделены на множество классов П- \Jcvv
V=1
"v
ив каждом классе щ, существуют: БЕЫТ, = - множество высказываний;
щ=\
£
СОМу = Осоту,Л - множество комментариев; Ц, } - множество весов коммен-
Л=1
тариев, определяемых количеством голосов респондентов, отданных за комментарии;
■ , где у/у ] : 5£ЛТ„ СОМу - множество функции синтеза комментариев
Л=1
респондентами (рисунок 1).
SENT ~ СОМ
Рисунок 1 - Граф результата обсуждения законопроекта
Требуется: для графа G предложить модель обработки элементов множеств {COMv} при заданном директивном времени обработки Td на основе определения подмножеств \comv jv }q{COMv}> обеспечивающую выполнение требования, представленного выражением: _
At ~ At О <t<Td,
|SHV7{ }|
где R! \ = -—:--^-i- - полнота присутствия высказываний в отобранных ком-
1?om*.hl \SENTV\
ментариях множества *fomvjy\ в сравнении с комментариями множества COMv,
\SENT{ComA
R{com } = —i—-р—1 - полнота присутствия высказывании в последовательно взятых
IkJ.C'iY 1 у I
за бюджет времени Td комментариях исходного множества COMv, t - время.
Учитывая многомерность теоретико-множественного представления мнений, обработку комментариев предложено осуществлять с применением оперативной аналитической обработки текстов на основе гиперкубовой модели вида he: aj x -xas —» ar, s, r e [l, z], s^r, дополненной операциями детализации fjes '■ COM —> TCS и fucs : COM UCS для обеспечения качественного погружения в массив текстовых ком-
w I I
ментариев, где множество TCS = (JrCSv , TCSV = \comvjv j, TCS с СОМ , представляет
v=l
собой выборку типичных комментариев, формируемую в результате решения задачи:
|rCS| -> min;
W £v
Е I>v,;v ->тах; v=lyv=l
(3)
Td = const,
где gv =|ГС5У| - мощность множества TCSV, yvjn^ = d(sentvnh/) - количество комментариев, содержащих высказывание sentv mv, определяемое степенью соответствующей вершины графа G, характеризующее типичность высказывания sentvnLr, а множество
w I I
UCS = (J UCSV , UCSV = )comv j j, UCS с COM , представляет собой выборку полезных
V—1
комментариев, формируемую в результате решения задачи:
]UCS\ min;
(4)
S 2>vJv ->max;
V=l/V=l
Td = const,
где hv = \UCSV\ - мощность множества UCSV, uvj = f(pVJv Jv,jv) - свертка показателей pv j и lvj , характеризующая полезность комментария comv ^ , pv,jv =^(comv,jv) _ K0~ личество высказываний в комментарии comv j , определяемое степенью соответствующей вершины графа G . Данная технология представлена на рисунке 2.
Рисунок 2 - Технология оперативной аналитической обработки комментариев
Во втором разделе приведено описание модели оперативной аналитической обработки комментариев и алгоритмов формирования выборок типичных и полезных комментариев.
Построение гиперкубовой модели осуществляется на основе упорядоченного множества атрибутов А:
A = {ai,a2,a-},a^,a5,a6,a1\, (5)
где а, - глава законопроекта; а2 - статья законопроекта, к которой относится комментарий; а3 - идентификатор комментария; ал - функциональный стиль комментария; а5 -оценочная тональность комментария; а6 - эмоциональная тональность комментария; а7 -
количество комментариев.
На данном множестве экспертным способом устанавливаются функциональные зависимости: .
dep = {ax ->а2,а2 а4'а3 ~^а5'а3 а6'а2а4а5а6 ~>а71- (6)
Полученные зависимости позволяют сформировать измерения {Д}:
Д2=К}; (в)
D3={a5}; (9)
D,={a6}. (Ю)
В итоге гиперкубовая модель представляется выражением:
hc:\al {а2 (а3 }}}х {а4 }х {а5 }х {а6 } а7. (И)
Решение задачи (3) предлагается осуществлять методом кластеризации комментариев в классах на основе матриц различия, сформированных с использованием матриц подобия с выбором в полученных кластерах типичного комментария.
Для определения квот в классах используется отношение выделенного директивного времени к максимальному:
QV=QV (12)
иv vmax ТИ
1 "max _
Полученные квоты определяют число кластеров i = l,Qv , на которое производится разбиение множества комментариев класса COM v:
cluster: COMv -> {C0Mv. }, (13)
где cluster - операция кластеризации, осуществляемая на основе матрицы различия, полученной из матрицы подобия комментариев класса.
В каждом кластере COMv. производится операция сводного реферирования
svrefer:
VCOMv. svrefer: COMv. -> refv., (14)
где refv. - сводный реферат комментариев кластера COMv. , причем режим реферирования должен обеспечивать наилучшее среднее подобие в кластере комментариев. Определение типичного комментария в каждом кластере COMv. производится посредством операции typcom нахождения комментария comVjk , обладающего наилучшим подобием dist с полученным сводным рефератом кластера refv. :
X/COMv. typcom: COMv. -> comVjk \k = argmind/si(eomVft ,refv.). (15)
Ознакомление эксперта с выборкой типичных комментариев в классе v осуществляется в пределах квоты Qv в порядке включения комментариев в выборку с увеличением бюджета времени и ростом числа кластеров COMv..
Решение задачи (4) осуществляется путем нахождения максимума функционала обобщенной полезности /(g) с использованием метода множителей Лагранжа при условии Td = const:
Q = argmax f(Q), (16)
Td=const
где Q - вектор квот для классов комментариев, оказывающих значимое влияние на обобщенный показатель полезности uvj :
1" , (17)
"max 'max
"vjy ~~аР
Pv-h , „ lvJ, --+ at ■ —
P jji»V 'n
где ар, щ - коэффициенты значимости, подбираемые с учетом распределений показателей свертки. Поскольку кривая, характеризующая убывание обобщенного показателя в классах, со средней достоверностью 0,9 аппроксимируется логарифмической функцией вида (йу) = АУ-ВУ- 1п(б,Л, функционал /(© принимает вид:
/(б) =1/(6»);
V=1
Дй,)= \Av-Bv-\n(Qv)dQv-Q,
(18) (19)
ле>= I[«2v-K+Bv)-Bv-evin(ev)]- (20)
V = 1
Задание директивного времени Td осуществляется при условии:
0<7У<7Утах, (21)
причем общее уравнение бюджетного ограничения по времени примет вид:
W
Td=%LvT\Qv, (22)
V=1
где Ц, - среднее количество слов в комментарии, Т1 - среднее время чтения одного слова, <2V - число комментариев выборки класса V, соответственно:
Td„
(23)
(24)
V У=1
В реальных условиях естественное ограничение накладывается и на количество комментариев в выборках классов :
1 < < (2У . В итоге задача (16) сводится к системе:
XV
А1-В1 1п(а) = А2-В2 1п(62).
£гГ1 Ь2-Т\
Аг-В2-Ыйг) = А3-Д3-1"(бз).
¿з-Т1
(25)
Aw_i -Ди,_1 •ln(g№_1) = AW-BW -ln(gw), Lw_vTl LwTl
1<е„<е„тах,
решение которой осуществляется численными методами с использованием математических пакетов прикладных программ.
Ознакомление эксперта с выборкой полезных комментариев в классе V осуществляется в пределах квоты <2У в порядке убывания обобщенного показателя полезности
комментария к„^ .
Операции погружения на основе предложенной модели осуществляются с использованием алгоритмов формирования выборок типичных и полезных комментариев.
Алгоритм формирования выборки типичных комментариев (решения задачи (3)) представлен на рисунке 3. Сущность данного алгоритма заключается в разбиении, в соответствии с заданным бюджетом времени, исходного множества комментариев в классах (ячейках гиперкуба) на кластеры на основе матриц подобия и определении множества комментариев, по одному в каждом кластере, обладающих наилучшим сходством с типичными представителями кластеров комментариев, в качестве которых выступают сводные рефераты кластеров.
^ Начало
Задать директивное ереия Ш модель подобия, метод реферирования
Определить мощность выборки д^)
Сформировать матрицу подобия расширенного кластера /
31
I Построить матрицу подобия М и сформировать матрицу различий
Отранжировать комментарии в расширенном кластере / по подобию \ __сводному реферату геК,__|
Э I .
Присвоить наиболее близкому по подобию комментарию статус _втипичный комментарий» и включить его в выборку_|
Провести кластеризацию комментариев на О* кластеров
: I Сформировать сводный реферат ге/у_1 комментариев кластера
! ] добавить полученный реферат в массив комментариев кластера
Представить выборку типичных комментариев для изучения эксперту I
( Конец ^
Рисунок 3 - Алгоритм формирования выборки типичных комментариев
В ходе экспериментов установлено, что сводные рефераты обладают наилучшим средним подобием в классе комментариев (таблица 1). Указанное свойство было положено в основу процедуры определения типичных комментариев.
Таблица 1 - Свойство наилучшего среднего подобия сводных рефератов комментариев различных классов на примере законопроекта "Об образовании" (модель подобия -
Текст (класс "34-ГП-Н-Ми") Ср. коэф. подобия Текст (класс "11-ОД-Н-Ми") Ср. коэф. подобия Текст (класс "1-ОД-Н-Ми") Ср. коэф. подобия
е<1и 34-3.txt 0,626469 еЛ1 ll-4.txt 0,163084 е&1 l-3.txt 0,324475
ес1и 34-4.txt 0,62749 еёи ll-l.txt 0,163153 ес1и l-l.txt 0,326142
ес!и 34-l.txt 0,629656 еёи 1 l-2.txt 0,163153 еёи l-2.txt 0,3335
4166 0,986917 2343 0,226228 7732 0,600645
520 1,071068 2823 0,289161 5520 0,658391
458 1,078332 2346 0,306828 6276 0,667973
На шаге 1 алгоритма задается бюджет времени 7У с учетом ограничения 0 < И < гатах, производится выбор модели подобия и метода реферирования..
На шаге 2, исходя из заданного бюджета времени и мощности класса 2У = |С0Му|, определяется мощность выборки типичных комментариев.
На шаге 3 для выбранного класса комментариев строится матрица подобия Му, на основе которой, в зависимости от используемой модели подобия, формируется матрица различий (таблица 2).
Таблица 2 - Фрагмент матрицы различий (модель подобия - марковская, класс
"7-42-Н-В-Ми" законопроекта "О полиции")
Ид. ком. 19074 359 1658 1779 2715 2839 3875 ...
19074 0 2,7175 3,0272 3,0839 3,1179 2,5739 4,2059
359 2,6959 0 0,9163 1,0651 0,3536 0,156 0,8233
1658 2,9231 0,9522 0 1,1987 1,3682 0,1889 2,7109
1779 2,8662 1,0529 1,206 0 0,2912 0,926 2,8638
2715 3,0401 0,3536 1,384 0,2912 0 1,1362 3,1515
2839 2,6374 0,156 0,1889 0,901 1,1147 0 0,4452
3875 4,1056 0,8233 2,5657 2,6757 2,8837 0,4452 0
...
На шаге 4 к полученной матрице различий применяется метод иерархического объединения для кластеризации комментариев на требуемое количество кластеров ¡2„ в соответствии с заданным бюджетом времени И (рисунок 4).
Tree Diagram for variables
Complete Linkage C*ssimilarities from matnx
Идентификатор комментария
Рисунок 4 - Результат кластеризации комментариев (метод кластеризации - иерархическое объединение, класс "7-42-Н-В-Ми" законопроекта "О полиции")
На шаге 6 в полученных кластерах строятся сводные рефераты комментариев и включаются в массив соответствующего кластера.
На шаге 7 формируются матрицы подобия в расширенных полученными сводными рефератами кластерах.
На шаге 8 определяются комментарии, обладающие наилучшим сходством со сводным рефератом своего кластера (таблица 3).
Таблица 3 - Выбор типичного комментария в 15 кластере (модель подобия - марковская, класс "7-42-Н-В-Ми" законопроекта "О полиции") ___
Текст 5639.txt 13331.txt 14937.txt 16281.txt 19074.txt alll5ref3.txt
alI15ref3.txt 0,2838 0,0591 2,7037 0,0834 3,1937 0
13331.txt 0,2624 0 0,6804 0,3556 0,8036 0,0591
16281.txt 0,2474 0,3556 0,674 0 0,8227 0,0834
5639.txt 0 0,2624 0,6736 0,2474 0,8242 0,2838
14937.txt 0,6736 0,6804 0 0,674 0,8996 2,5486
Шаги 6-10 повторяются для каждого кластера, полученного на шаге 4. На шаге 12 совокупность отобранных в каждом из кластеров комментариев составляет выборку типичных комментариев указанного экспертом класса, которые подлежат изучению в порядке включения в выборку при увеличении числа кластеров (таблица 4).
Таблица 4 - Формирование выборки типичных комментариев при увеличении числа кластеров (модель подобия - марковская, класс "7-42-Н-В-Ми" законопроекта "О полиции")_
Номер кяастер»
ЗБ9| 10327 1778 5639 5927 1 6 16327 16281 15430 1
Алгоритм формирования выборки полезных комментариев (решения задачи (4)) представлен на рисунке 5. Сущность данного алгоритма заключается в определении обобщенного показателя полезности комментариев, выявлении значимых атрибутов комментариев, установлении параметров аналитических функций предельной полезности комментариев в классах, образованных значимыми атрибутами, определении стоимостных параметров, задании бюджета времени и решении оптимизационной задачи с использованием метода множителей Лагранжа.
Применение метода множителей Лагранжа обусловлено возможностью построения аналитических выражений для убывающих функций предельной полезности комментариев в каждом классе, наличием временной стоимости обработки комментариев, связанной с темпом чтения и длиной комментария, и возможностью сформировать уравнение бюджетного ограничения (в данной задаче стоимость измеряется в единицах времени).
^ Начало ^
н-=Е=-1 м | В классе V провести аппроксимацию отранжированных значений иу аналитической функцией, выражающей зависимость полезности от ранга
Для комментария сот, массива определить значение обобщённого | ппкаяятйпя полезности и/ I 9 -1
--1--- «И |
' - ¡->к______—---- 1 Задать общий бюджет времени 1 о, определить игюимиинные 1 параметры Ц и Т1, определить ограничения <3„ т»,
I Выявить с использованием дисперсионного анализа атрибуты {а^. I I 12--1 ___ПаЭлаыуа-П ! оказывающие значимое влияние на полезность комментариев [ | Рассчитать с использованием метода множителеи лагранжа |
—-1 1 г» 1 ----, | и каждом классе V массива —----с---—--( 7 )| присвоить старшим <?„ текстам статус < Включен в выборку»
В классе я, сформированном комбинацией уровней значимых атрибутов отранжировать комментарии в порядке убывания полезности иV -1--- Представить выборку полезных комментариев для изучения эксперту 1
0 Скжц)
Рисунок 5 - Алгоритм формирования выборки полезных комментариев
На шаге 2 для определения обобщенного показателя полезности применяется аддитивная свертка числа голосов, отданных за комментарий, и числа конструктивных предложений, с учетом распределений данных параметров, фрагмент расчета представлен в таблице 5.
Таблица 5 - Результаты расчета обобщенного показателя полезности комментариев к законопроекту "О полиции" ___
Идентификатор комментария Голосов ("лайков") Конструктивных предложений Голосов нормнр. Предложений нормир. Свертка
11099 1 3 0,00108 0,157895 0,013468
11100 1 1 0,00108 0,052632 0,005152
11101 0 4 0 0,210526 0,016632
11102 0 0 0 0 0
11103 0 1 0 0,052632 0,004158
На шаге 5 атрибуты, оказывающие значимое влияние на обобщенный показатель полезности, определяются с использованием дисперсионного анализа (таблица 6).
Таблица 6 - Результаты дисперсионного анализа для комментариев
к законопроекту "О полиции"
Эффект Степ, свободы МЯ Р
Статья 0,064 56 0,001 2,75 0,000*
Стиль 0,15 4 0,037 89,6 0,000*
Тон(эмоц) 0,001 2 0 0,77 0,462
Тон(оцен) 0,003 1 0,003 6,56 0,010*
Шаги 7 и 8 необходимы для получения аналитических выражений функций предельной полезности. На шаге 7 в классах СОМу, сформированных комбинацией выявленных на шаге 5 значимых атрибутов {«5}, производится ранжирование комментариев {соту j | по убыванию обобщенного показателя полезности иу ^ , полученного для каждого комментария на шаге 2.
и достоверностью аппроксимации
На шаге 8 полученные кривые аппроксимируются логарифмической функцией gv(Qv ) (рисунок 6). Результатом шага 8 для всех классов является совокупность параметров всех функций предельной полезности.
На шаге 11 определяются стоимостные параметры и ограничения, характеризующие массив комментариев: максимальное число комментариев 2„_тах в классах, сформированных комбинацией значимых атрибутов {а5 }; средняя длина комментария в классе (слов); задается бюджет времени Т<1. Результаты выполнения шагов 8 и 11 представлены в таблице 7.
Таблица 7 - Фрагмент таблицы с параметрами функций предельной полезности и ограничениями для классов комментариев СОМу к законопроекту "О полиции"
132
133
134
135
Статья
18 19
20
21
Стиль
газет.-публ.
газет.-публ.
газет.-публ.
газет.-публ.
Тон.(оцен-)
минорная
минорная
минорная минорная
0,0303
0,0176
0,0221
0,023
Ву (-ВуЛпО)
0,009
0,005
0,006
0,008
Достов. аппр.
0,9234
0,9626
0,9284
0,9344
<2,_„
28
36
25
20
71,32
49,94
49,08
60,7
Совокупность параметров, полученных в результате выполнения шагов 8 и 11, используется на шаге 12 в решении системы (26), здесь представлен фрагмент системы уравнений при 7У = 0,5-7Утах с неизвестными параметрами выборки полезных комментариев к законопроекту "О полиции":
472
0,5-348800= 0,3 &,;
У = 1
0,076 - 0,013 ■ 1п(б1) _ 0,042 - 0,007 • 1п(62).
97,77 -0,3 ~ 73,45-0,3
0,042 - 0,007 - 1п(62) 0.051 ~ °'009" '"(6з).
73,45-0,3 ~ 84,82-0,3 ' (26)
0,003 - 0,004 - 1п(647!) 0,001 - 0,001 - 1п(6472), 10-0,3 ~ 15-0,3
1 < Й! < 496;
.12 <2472 *1.
На шаге 13 полученные на шаге 12 квоты применяются к полученным на шаге 7 ранжировкам, вошедшие в квоту комментарии выбираемого аналитиком класса составляют выборку полезных комментариев.
Ознакомление с выборкой полезных комментариев класса СОМу производится
в пределах квоты в порядке убывания обобщенного показателя полезности .
В третьем разделе произведено оценивание адекватности модели и эффективности разработанных алгоритмов. Для этого были исследованы статьи законопроектов "О полиции" и "Об образовании". В ходе исследования было установлено, что статьи законопро-
ектов содержат различное количество пунктов и подпунктов, что обуславливает большее либо меньшее разнообразие высказываний. При этом распределение статей по количеству объектов комментирования подчинено экспоненциальному закону.
Для экспериментов были отобраны классы комментариев к статьям, содержащим наибольшее, наименьшее и среднее количество объектов комментирования, т.е. по три класса для двух законопроектов. В указанных классах был произведен экспертный анализ комментариев, выделены высказывания (таблица 8) и составлены распределения высказываний по комментариям классов (таблица 9).
Таблица 8 - Фрагмент таблицы с высказываниями класса "34-Науч.-Низ.-Минор." к законопроекту "О полиции"_
ту Содержание высказывания ^ , у= "б-34-Н-Н-Ми"
1 Исключить привлечение к оперативно-розыскной деятельности сотрудников внутренней службы, юстиции и стажеров.
2 Конкретизировать требования (статус, права и обязанности, уровень образования, степень подготовки, экипировка и пр.) к привлекаемым к охране общественного порядка и пр. задачам иных сотрудников органов внутренних дел (ОВД) и стажеров
3 Включить в перечень оснований привлечения сотрудников ОВД объявление режима ЧС, природные и техногенные катастрофы, ликвидацию последствий стихийных действий, проведение контртеррористических операций, проведение массовых мероприятий.
4 Уточнить категории сотрудников ОВД, на которые распространяется действие статьи
5 Предоставить гражданину право удостовериться, что привлеченный сотрудник уполномочен совершать в отношении него действия
Таблица 9 - Пример распределения высказываний в классе
Ид. комм. Ид. высказывания
1 2 3 4 5 6 7 8
2393 + +
2505 + +
5601 +
6205 + +
6239 + +
14322 +
15793 +
15907 + +
17329 +
Оценивание адекватности модели проводилось путем сравнения типичных высказываний, выделенных и включенных в обзор экспертами, с высказываниями, полученными с использованием модели.
Для оценки адекватности использовалось выражение:
(27)
К
где ку - мощность класса комментариев а>г; qv - мощность подмножества класса комментариев o)v (выборки заданного типа, подмножества исходного массива), обеспечи-
вающая охват всех типичных высказываний в классе, что позволило оценить адекватность модели на основе оценки обобщающей способности формируемых выборок исследуемых классов.
В ходе оценивания установлено, что модель обеспечивает выделение высказываний, совпадающих по смыслу с высказываниями, приведенньми в обзоре в качестве типичных, при этом выделение типичных высказываний с использованием модели осуществляется в среднем на 20% быстрее по сравнению с выделением этих же высказываний путем последовательного чтения (рисунок 7).
5 2
5 1
-ВТК
--ВПК
• - мк
0 4 8 12 16 20 24 28 32 36 40 44 48 Б2 56 Комментариев
Рисунок 7 - Пример выделения типичных высказываний с использованием выборок типичных и полезных комментариев для класса "3-12" к законопроекту "О полиции"
Для оценивания эффективности алгоритмов были определены множества комментариев, предоставляемые для изучения в соответствии с выделенным бюджетом времени с шагом да = 0,05 ■ 7Утах . Полученные множества пошагово сравнивались с множествами не отранжированных по типичности и полезности комментариев при одинаковом бюджете времени по четырем видам полноты (таблица 10).
Таблица 10 - Виды полноты отбора высказываний
По учету веса высказываний
Без учета веса высказываний
С учетом веса высказываний
По идентификации повторов
высказывании
Без идентификации повторов высказываний
Ю
Я2
С идентификацией повторов высказываний
ЯЗ
Я4
В ходе экспериментов было установлено, что средний прирост полноты зависит от способа ее расчета, в зависимости от учета веса высказываний и идентификации повторов высказываний. Оцениваемый алгоритм формирования выборки типичных комментариев показал наилучшие результаты при оценке по среднему приросту полноты вида Я4 (рисунок 8), а алгоритм формирования выборки полезных комментариев - при оценке по среднему приросту полноты вида Я1 при Дг = 0,05 ■ 7Утах (рисунок 9).
20%
15%
10%
5%
-5%
-З-12-Од-В-Ми ■ 7-42-Н-В-Ми
■ б-34-Н-Н-Ми
тадс)т
35% 30% 25% 20% 2 15% 10% 5% 0% -5%
-4-34-ГП-Н-Ми
• 1-11-ОД-Н-Ми
■ 1-1-ОД-Н-Ми
]Л1П1Л1Л1Л1Л1ЛЛЛ1Л
- ^___кЛ.....О----Г-.—СО СП -
а б
Рисунок 8 - Абсолютный выигрыш в среднем приросте полноты вида Я4 при Дг = 0,05 • Т(1т% для выборки типичных комментариев к трем классам с различным числом объектов комментирования законопроекта: а - "О полиции" б - "Об образовании"
12%
10%
8%
¿6% -л £
=> 4% 2% 0% -2%
-З-12-Од-В-Ми
• 7-42-Н-В-Ми
^тгэттптгай"
- *Н {N1 С~1 ьл ю г*. оо т ^ ^ о с с> о" о
тала„
10%
Тс1/Тс)тах
а б
Рисунок 9 - Абсолютный выигрыш в среднем приросте полноты вида Ю при Дг = 0,05 • Тс/^ для выборки полезных комментариев к трем классам с различным числом объектов комментирования законопроекта: а - "О полиции" б - "Об образовании"
Эксперименты показали, что для различных законопроектов и статей с различным количеством объектов комментирования предложенные алгоритмы позволяют обеспечить опережающий темп изучения совокупности высказываний экспертом, как правило, лишь в первую половину от максимального бюджета времени, что связано с тем, что значительная часть комментариев содержит по одному уникальному высказыванию.
В четвертом разделе описаны структура и методика применения системы оперативной аналитической обработки комментариев. Структура системы представлена на рисунке 10. В состав системы входят следующие подсистемы:
- подсистема идентификации комментариев;
- подсистема классификации комментариев;
- блок стандартного ОЬАР-анализа;
- подсистема формирования выборки типичных комментариев;
- подсистема формирования выборки полезных комментариев.
Сводный файл с комментариями
Выбираемый Выборка комментариев класс для анализа
COMÍ
Блок выделения комментария
[сот. Л
Блок выделения автора комментария
Блок выделения главы/статьи комментария
Блок выделения даты/времени комментария
Блок выделения количества голосов ("лайков"), отданных за комментарий Подсистема идентификации комментариев
А,
К}
Блок классификации по функциональным стилям
Блок классификации по оценочной тональности
Блок классификации по эмоциональной тональности
Подсистема классификации комментариев
Блок {СОА, кластеризации
{сомД
Блок построения сводного текста
Ж1
Блок оценки подобия 2
ТЫГГ Блок
реферирования
Блок определения обобщенного показателя полезности
Подсистема формирования выборки типичных комментариев
Блок
»
[ранжирования
±{с.ом}'
Блок идентификации определения^ *- ^ функций
Блок
Блок ранжирования
(Cí'i
Подсистема формирования выборки полезных комментариев
'предельной полезности
Рисунок 10 - Структура системы оперативной аналитической обработки комментариев
Рассмотрим назначение и функции блоков данных подсистем.
Подсистема идентификации комментариев предназначена для разделения сводного файла с комментариями на отдельные файлы комментариев и выявления содержащихся в сводном файле характеристик комментариев ("служебной" информации).
В блоке выделения комментария методом лексического анализа осуществляется поиск начала и окончания комментария, отделяется "служебная" информация, производится присвоение комментарию идентификатора и сохранение комментария в отдельный файл.
В блоке выделения автора комментария методом лексического анализа выделяются сведения об авторе (или авторах) комментария и заносятся в таблицу параметров.
В блоке выделения главы/статьи комментария методом лексического анализа выделяются сведения о главе и статье комментария и заносятся в таблицу параметров.
В блоке выделения даты/времени комментария методом лексического анализа выделяются сведения о дате и времени комментария и заносятся в таблицу параметров.
В блоке выделения количества голосов, отданных за комментарий, методом лексического анализа выделяются сведения о количестве голосов в поддержку комментария и заносятся в таблицу параметров.
Подсистема классификации комментариев предназначена для определения оценочных характеристик комментариев с целью разбиения исходного множества комментариев на классы и последующего анализа высказываний в комментариях с одинаковыми значениями классификационных признаков.
В блоках классификации по функциональным стилям, оценочной и эмоциональной тональностям с использованием словарных и статистических методов обработки текстов производится определение функционального стиля, оценочной и эмоциональной тональностей комментария.
Блок стандартного 01АР-анализа предназначен для оперативной аналитической обработки комментариев с использованием сведений об их разбиении и распределении по классам с целью установления очередности обработки в зависимости от интенсивности мнений и предпочтений эксперта.
Подсистема формирования выборки типичных комментариев предназначена для детализации выбираемого класса комментариев на основе решения системы (3) и учитывает неравномерность распределения высказываний в комментариях посредством определения содержательного подобия комментариев и сходства с типичным представителем мнения.
В блоке определения квот с учетом бюджета времени определяется мощность выборки.
В блоке оценки подобия 1 с использованием выбираемой модели подобия строится матрица подобия комментариев класса, на основании которой формируется матрица различий.
В блоке кластеризации полученная матрица различий применяется для кластеризации комментариев на число кластеров, соответствующее мощности выборки.
В блоке построения сводного текста производится объединение комментариев кластера в один файл.
В блоке реферирования с использованием выбранного метода реферирования производится построение сводного реферата. Режим реферирования должен обеспечивать наилучшее среднее подобие полученного сводного реферата на множестве текстов, для которых он строится.
В блоке оценки подобия 2 с использованием модели подобия, аналогичной модели в блоке оценки подобия 1, определяется комментарий кластера, обладающий наилучшим подобием с полученным сводным рефератом кластера.
В блоке ранжирования определяется порядок ознакомления с комментариями выборки методом установления последовательности включения комментариев в выборку с ростом бюджета времени.
Подсистема формирования выборки полезных комментариев предназначена для детализации выбираемого класса комментариев на основе решения системы (4) и учитывает неравномерность распределения высказываний в комментариях посредством определения атрибутов конструктивных предложений и голосов интернет-пользователей.
В блоке атрибутивного анализа методом лексического анализа с применением словарей синонимичных атрибутов трех типов (атрибуты конструктивных предложений
по добавлению, изменению, удалению фрагментов статей законопроекта) производится выявление и подсчет содержащихся в комментарии конструктивных предложений.
В блоке определения обобщенного показателя полезности производится расчет данного показателя посредством свертки нормированных значений числа конструктивных предложений в комментарии и числа голосов, отданных за комментарий, с учетом распределений данных параметров.
В блоке выявления значимых факторов методом дисперсионного анализа выявляются классификационные признаки, оказывающие значимое влияние на значение обобщенного показателя полезности.
В блоке ранжирования для каждой комбинации значимых классификационных признаков производится сортировка комментариев по убыванию значения обобщенного
показателя полезности.
В блоке идентификации функций предельной полезности производится аппроксимация полученных в блоке ранжирования рядов значений аналитическими (логарифмическими) функциями и фиксация параметров данных функций.
В блоке определения квот с учетом общего бюджета времени, темпа чтения, а также функций предельной полезности, средней длины комментария и ограничения на максимальную мощность выборки для каждой комбинации значимых классов, методом множителей Лагранжа определяется мощность выборки для каждой такой комбинации. Ознакомление с комментариями выбираемой комбинации классов производится в пределах данной выборки в последовательности, установленной в блоке ранжирования.
Аналитическую обработку комментариев с использованием предложенной системы рекомендуется проводить путем применения следующей методики (рисунок 11).
Рисунок 11 - Методика оперативной аналитической обработки комментариев
На шаге 1 задается директивное время на изучение комментариев, оно не должно превышать время, требующееся для изучения всех комментариев.
На шаге 2 производится распределение заданного директивного времени между типичными и полезными комментариями путем задания коэффициента к.
На шаге 3 проводится расчет бюджета времени для изучения типичных и полезных комментариев на основе заданных директивного времени и коэффициента к.
На шаге 4 производится классификация комментариев по стилям, эмоциональной и оценочной тональности, статьям законопроекта.
На шаге б выбирается ячейка гиперкуба, т.е. интересующая эксперта комбинация классов.
На шаге 8 принимается решение о проведении детализации с использованием выборки типичных комментариев.
На шаге 9 производится формирование выборки типичных комментариев, алгоритм выполняется каждый раз для выбранной комбинации классов.
На шаге 10 проводится изучение выборки типичных комментариев.
На шаге 11 принимается решение о проведении детализации с использованием выборки полезных комментариев.
На шаге 12 производится формирование выборки полезных комментариев, алгоритм выполняется при первой детализации для всех комбинаций классов, при последующих детализациях производится обращение к результатам работы алгоритма для требуемой комбинации классов.
На шаге 13 проводится изучение выборки полезных комментариев.
Иллюстрация применения методики в ходе аналитической обработки комментариев класса "1-11-Од-Н-Ми" (глава 1, статья 11, стиль - официально-деловой, эмоциональная тональность - низкая, оценочная тональность - минорная) к законопроекту "Об образовании" представлена на рисунке 12. В указанном примере детализация проведена при 7У = 0,35 • 7Утах, к = 0,75. При данных параметрах эксперту предоставляются для изучения три типичных комментария (идентификаторы обведены темными овалами) и двенадцать полезных комментариев (идентификаторы обведены светлыми овалами). В данном классе комментариев выявлено три обобщенных мнения, представленных типичными комментариями и подкрепленных одним или несколькими полезными комментариями.
4,0 3,5 ~
3,0
2,5 2,0 1,5 1,0
т
В заключении сформулированы выводы по результатам проведенного исследо-
Основные результаты и выводы работы:
1. Проведен анализ процесса обработки комментариев, полученных в ходе общественного обсуждения законопроектов. Установлено противоречие между потребностью в эффективных моделях обработки комментариев и отсутствием качественной модели обработки комментариев. Представлен вариант разрешения противоречия.
2. Разработана модель оперативной аналитической обработки комментариев, отличающаяся от известных способом формирования гиперкуба на основе многомерного представления мнения, а также набором операций погружения в текстовые данные, учитывающих неравномерность распределения высказываний в комментариях интернет-пользователей .
3. Синтезирован алгоритм формирования выборки типичных комментариев, учитывающий содержательное подобие комментариев и сходство с типичным представителем мнения для приоритетного отбора комментариев.
4. Синтезирован алгоритм формирования выборки полезных комментариев, учитывающий атрибуты конструктивных предложений и предпочтения интернет-пользователей для приоритетного отбора комментариев.
5. Предложены структура и методика применения системы оперативной аналитической обработки комментариев, позволяющие производить их обработку с учетом неравномерного распределения высказываний и сходства с типичным представителем мнения при заданном бюджете времени.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи в журналах из Перечня ВАК
1. Толкунов, А. А. Модель оперативной аналитической обработки комментариев с операциями детализации на основе выявления типичных и полезных текстов / А. А. Толкунов // Научное обозрение. - 2013. - № 9. - С. 368-371.
2. Толкунов, А. А. Алгоритмы формирования выборок типичных и полезных комментариев в ходе обработки результатов общественного обсуждения законопроектов / А. А. Толкунов // Информационные системы и технологии. - 2014. - № 1(81). - С. 47-58.
3. Толкунов, А. А. Математические основы и программная архитектура системы оперативной аналитической обработки комментариев к обсуждаемым законопроектам /
A. А. Толкунов // Системы управления и информационные технологии. - 2013. -№3.1(53).-С. 173-177.
Статьи в научных журналах и сборниках трудов
4. Толкунов, А. А. О построении системы оперативной аналитической обработки комментариев в целях повышения эффективности процесса анализа результатов общественного обсуждения законопроектов / А. А. Толкунов // Информационные технологии моделирования и управления. -2013. -№ 4(82). - С. 339-351.
5. Толкунов, А. А. О погружении в массив комментариев с использованием типичных представителей мнений / А. А. Кукушкин, А. А. Толкунов // Труды СевероКавказского филиала Московского технического университета связи и информатики. -Ростов-на-Дону : ПЦ "Университет" СКФ МТУСИ, 2013.-592 с. - С. 521-523.
оСоискателем описана проблема обработки массива текстовых комментариев в ходе общественного обсуждения законопроектов, предложен подход к снижению трудозатрат экспертов, приведены варианты методики определения типичного представителя класса массива комментариев, позволяющие минимизировать время обработки за счёт ознакомления с одним текстом из класса, содержащим основную мысль по корректировке текста статьи законопроекта).
6. Толкунов, А. А. Оперативная аналитическая обработка мнений в ходе общественного обсуждения законопроектов / А. А. Толкунов // Актуальные проблемы развития технологических систем государственной охраны, специальной связи и специального информационного обеспечения : VIII Всероссийская межведомственная научная конференция : материалы и доклады (Орёл, 13-14 февраля 2013 г.). В 10 ч. Ч. 8 / под общ. ред.
B. В. Мизерова. - Орёл : Академия ФСО России, 2013. - 139 с. - С. 86-89.
7. Толкунов, А. А. Модель гиперкуба для представления текста в системе понимания и анализа текстовой информации / А. А. Кукушкин, А. А. Толкунов // Проблемы развития технологических систем государственной охраны, специальной связи и специального информационного обеспечения : Седьмая научно-практическая конференция : сборник материалов (Орёл, 3-4 марта 2011 г.). Ч. 4. - Орёл : Академия ФСО России, 2011. - 186 с. -С. 92-95.
ОСоискателем исследована коммуникативная функция текста при передаче сообщения, предложены модель анализа текстов на основе гиперкуба и структура гиперкуба для представления смысла текста).
8. Толкунов, А. А. Применение гиперкуба как модели представления текста при решении информационно-аналитических задач / А. А. Кукушкин, А. А. Толкунов // Проблемы развития технологических систем государственной охраны, специальной связи и специального информационного обеспечения : Седьмая научно-практическая конференция : сборник материалов (Орёл, 3-4 марта 2011 г.). Ч. 4. - Орёл : Академия ФСО России, 2011.-186 с.-С. 89-92.
(Соискателем исследованы способы представления содержания текстовых документов в виде гиперкуба - модели представления информации для оперативной аналитической обработки документов, проанализировано современное состояние разработок в указанной области и предложена модель обработки текстов на основе гиперкуба).
Свидетельства об официальной регистрации программ для ЭВМ
9. Толкунов, А. А. Классификатор функциональных стилей текстов "Style-Classifier" / А. А. Овсянников, А. А. Толкунов // Свидетельство об официальной регистрации программы для ЭВМ № 2006610680 от 20.02.2006 г.
(Соискателем осуществлены разработка и программная реализация алгоритма классификации функциональных стилей текстов, формирование зтачонов классов, выбор метрики, обоснование оптимальной структуры признакового множества).
10. Толкунов, А. А, Программа атрибутивного анализа текстовых комментариев интернет-пользователей к проектам правовых актов "Comment Eliminator" / А. А. Кукушкин, А. А. Толкунов, Е. А. Шевченко // Свидетельство о государственной регистрации программы для ЭВМ № 2012616109 от 04.07.2012 г.
(Соискателем осуи{ествлена разработка алгоритма атрибутивного анализа, структуры лингвистического обеспечения и формата выходных данных).
Подписано в печать 18.04.2014 г. Формат 60 х 84/16. Печать офсетная. Усл. печ. л. 1,5. Тираж 100 экз. Заказ № 119 Отпечатано в типографии Академии ФСО России 302034, г. Орёл, ул. Приборостроительная, 35
Текст работы Толкунов, Александр Александрович, диссертация по теме Теоретические основы информатики
АКАДЕМИЯ ФСО РОССИИ
На правах рукописи
04201457859
Толкунов Александр Александрович
МОДЕЛЬ ОПЕРАТИВНОЙ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ КОММЕНТАРИЕВ К ЗАКОНОПРОЕКТАМ
Специальность 05.13.17 - Теоретические основы информатики Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель: Кукушкин Александр Антонович, кандидат технических наук, доцент
Орёл - 2014
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ.............................................................................. 4
1 ПРОБЛЕМЫ ОБРАБОТКИ МАССИВА КОММЕНТАРИЕВ, ПОЛУЧЕННОГО В РЕЗУЛЬТАТЕ ОБЩЕСТВЕННОГО ОБСУЖДЕНИЯ ЗАКОНОПРОЕКТОВ................................................................. 9
1.1 Анализ процесса обработки результатов общественного обсуждения законопроектов.................................................. 9
1.1.1 Анализ нормативных документов, регламентирующих процедуру общественного обсуждения............................... 9
1.1.2 Анализ процесса обработки комментариев на основе входных и выходных документов...................................... 15
1.2 Обоснование метода представления и обработки комментариев. 22
1.2.1 Описание формализма понятия "мнение"..................... 22
1.2.2 Анализ методов обработки мнений, представленных
в текстовом виде........................................................... 25
1.2.3 Выбор метода представления и обработки комментариев. 33
1.2.4 Анализ моделей оперативной аналитической обработки текстов........................................................................ 35
1.2.5 Концепция системы обработки комментариев............... 51
1.3 Постановка задачи исследования........................................ 57
Выводы по 1 разделу............................................................ 64
2 РАЗРАБОТКА ЭФФЕКТИВНЫХ ПОДХОДОВ К ОБРАБОТКЕ МАССИВА КОММЕНТАРИЕВ НА ОСНОВЕ ОПЕРАТИВНОЙ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ.................................. 66
2.1 Модель оперативной аналитической обработки комментариев с операциями детализации на основе выявления типичных и полезных текстов................................................................................ 66
2.2 Алгоритм формирования выборки типичных комментариев...... 76
2.3 Алгоритм формирования выборки полезных комментариев....... 84
Выводы по 2 разделу............................................................ 100
3 ОЦЕНИВАНИЕ АДЕКВАТНОСТИ МОДЕЛИ И ЭФФЕКТИВНОСТИ РАЗРАБОТАННЫХ АЛГОРИТМОВ............................................. 102
3.1 Оценивание и сравнение обобщающих и накапливающих способностей выборок типичных и полезных комментариев......... 103
3.2 Оценивание эффективности алгоритма формирования выборки типичных комментариев......................................................................................109
3.3 Оценивание эффективности алгоритма формирования выборки полезных комментариев........................................................ 115
3.4 Оценивание свойств алгоритма формирования выборки типичных комментариев..................................................................... 123
3.5 Оценивание свойств алгоритма формирования выборки полезных
комментариев..................................................................... 124
Выводы по 3 разделу............................................................ 125
4 НАУЧНО-ТЕХНИЧЕСКИЕ ПРЕДЛОЖЕНИЯ ПО ПОСТРОЕНИЮ И ПРИМЕНЕНИЮ СИСТЕМЫ ОПЕРАТИВНОЙ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ КОММЕНТАРИЕВ................................................... 127
4.1 Структура системы оперативной аналитической обработки комментариев.................................................................... 127
4.2 Методика применения системы оперативной аналитической
обработки комментариев....................................................... 145
Выводы по 4 разделу............................................................ 148
ЗАКЛЮЧЕНИЕ........................................................................ 149
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ................ 151
СЛОВАРЬ ТЕРМИНОВ.............................................................. 152
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ............................... 154
ПРИЛОЖЕНИЕ А Анализ структуры глав и статей исследуемых
законопроектов........................................................................ 168
ПРИЛОЖЕНИЕ Б Множества и распределения высказываний
в отобранных для исследований классах......................................... 178
ПРИЛОЖЕНИЕ В Расчет среднего темпа прироста полноты отбора
высказываний в выборке типичных комментариев............................. 190
ПРИЛОЖЕНИЕ Г Расчет среднего темпа прироста полноты отбора высказываний в выборке полезных комментариев............................. 200
ВВЕДЕНИЕ
В настоящее время в соответствии с Постановлением Правительства РФ от 25.08.2012 № 851 [1] разрабатываемые законопроекты должны проходить процедуру общественного обсуждения на интернет-портале regulation.gov.ru [2]. Результатом такой процедуры является массив комментариев, содержащих предложения интернет-пользователей по корректировке законопроекта. Комментарии подлежат экспертной обработке с целью изучения и обобщения поступивших предложений. Трудоемкость данной процедуры на практике оказывается значительной, поскольку число комментариев для законопроектов, вызвавших наибольшее обсуждение, может достигать 10-20 тысяч. В этих условиях возникает потребность в разработке моделей
I
обработки комментариев, направленных на эффективное ознакомление с поступившими предложениями.
Одним из основных понятий при исследовании процедур анализа комментариев является понятие "мнение". Исследованию способов обработки мнений посвящено научное направление Opinion Mining {англ.: анализ мнений), входящее в состав Text Mining {англ.: глубинный анализ текстов). Анализ работ Б. Пэнга, JI. Ли, М. Геймона, Дж. Каренини, М. Девалли, П. Резника, М. Ху, Т. Пинча, Т. Муллена и др. [3-19], посвященных данному направлению исследований, показал, что в основном авторы понимают анализ мнений как задачу классификации по тональности и поиск ключевых слов, в то же время вопросы, касающиеся эффективного ознакомления с мнениями, направленными на улучшение объекта обсуждения, остаются недостаточно исследованными.
Одним из подходов к моделированию процедур обработки мнений может стать подход, учитывающий многомерность представления мнения. Для обработки многомерных данных одним из наиболее эффективных методов обработки является оперативная аналитическая обработка данных, предложенная Э. Ф. Коддом [20].
Модификации данного метода обработки для текстов описаны в трудах Дж. Мозе, С. Кейта, X. Ло, С. Лин, Дж. Хана, Д. Жана, Й. Ю, Б. Джанета, А. Инокучи, К. Такеда и др. [21-31] Однако анализ данных работ показывает, что предлагаемые модели не универсальны, авторы вводят иерархии категорий, актуальные в конкретной задаче, а вновь вводимые операции погружения ограничивают лишь списками ключевых слов.
В данной ситуации возникли условия для постановки и решения научной задачи по разработке модели эффективной обработки комментариев с использованием оперативной аналитической обработки текстов. Разработанная модель обработки комментариев обеспечивает поддержку рекурсивной процедуры понимания комментариев экспертом за счет последовательного перехода между классами комментариев с погружением и ознакомлением с предложениями по корректировке законопроекта по дедуктивной схеме: интенсивность мнений в классе комментариев - ознакомление с типичными комментариями - ознакомление с полезными комментариями - ознакомление со всеми комментариями.
Объектом исследования является процесс аналитической обработки комментариев интернет-пользователей в ходе общественного обсуждения законопроектов.
В качестве предмета исследования выступают модели оперативной аналитической обработки текстов и алгоритмы погружения в текстовые данные в ходе обработки результатов общественного обсуждения законопроектов.
Целью исследования является повышение темпа изучения совокупности высказываний в ходе обработки результатов общественного обсуждения законопроектов.
Методы исследований базируются на использовании аппарата математической статистики, теории оптимизации, моделей представления знаний, моделей семантической фильтрации текстов, методов классификации, кластеризации и реферирования текстов.
Научная новизна работы обусловлена следующим:
1. Для решения задачи построения модели гиперкуба использованы зависимости между атрибутами комментариев.
2. Для решения задачи выделения типичных комментариев в ячейках гиперкуба применены кластеризация на основе матриц подобия и принцип наибольшего содержательного подобия со сводным рефератом кластера.
3. Решение задачи отбора полезных комментариев в ячейках гиперкуба осуществлено на основе максимизации функционала обобщенной полезности комментария, сформированного с учетом выявленной аналитической зависимости свертки атрибутов конструктивных предложений, составляющих комментарий, и предпочтений пользователей от ранга комментария.
Теоретическая ценность диссертации заключается в разработке решений, направленных на развитие моделей представления и обработки знаний в форме гиперкуба для обработки текстовой информации на основе операций определения типичных и полезных текстов.
Практическая значимость исследования определяется возможностью повышения оперативности анализа мнений интернет-пользователей по обсуждаемым вопросам на основе технической реализации и применения разработанных модели и алгоритмов в деятельности информационно-аналитических и ситуационных центров государственных органов.
Реализация результатов исследования осуществлена в практику деятельности ведомственных аналитических подразделений и в учебный процесс Академии ФСО России, что подтверждается соответствующими актами.
Содержание диссертации соответствует паспорту специальности 05.13.17 - Теоретические основы информатики (технические науки) по следующим областям исследований:
п. 1. Исследование, в том числе с помощью средств вычислительной техники, информационных процессов, информационных потребностей коллективных и индивидуальных пользователей;
п. 2. Исследование информационных структур, разработка и анализ моделей информационных процессов и структур;
п. 5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.
Научные результаты, выносимые на защиту:
1. Модель оперативной аналитической обработки комментариев, отличающаяся от известных способом формирования гиперкуба на основе многомерного представления мнения, а также набором операций погружения в текстовые данные, учитывающих неравномерность распределения высказываний в комментариях интернет-пользователей.
2. Комплекс алгоритмов, включающий алгоритм формирования выборки типичных комментариев, учитывающий содержательное подобие комментариев и сходство с типичным представителем мнения для приоритетного отбора комментариев, и алгоритм формирования выборки полезных комментариев, учитывающий атрибуты конструктивных предложений и предпочтения интернет-пользователей для приоритетного отбора комментариев.
3. Научно-технические предложения по построению и применению системы оперативной аналитической обработки комментариев, позволяющие производить их обработку с учетом неравномерного распределения высказываний и сходства с типичным представителем мнения при заданном бюджете времени.
Достоверность выводов и рекомендаций обусловлена корректностью применения методов математической статистики, теории оптимизации, методов обработки текстов, воспроизводимостью и проверяемостью теоретических и экспериментальных результатов, согласованностью с практикой, внутренней непротиворечивостью, практической реализацией полученных результатов при разработке автоматизированных способов анализа комментариев.
Личный вклад соискателя. Все изложенные в диссертации результаты исследования получены соискателем лично с учетом замечаний и рекомендаций научного руководителя.
Во введении обоснованы актуальность исследования, его научная новизна. Определены объект, предмет, цель исследования. Перечислены научные результаты, выносимые на защиту, приведены сведения о публикациях, апробациях и реализации результатов.
В первом разделе проведен анализ процесса обработки комментариев, произведен анализ решений, позволяющих повысить эффективность данного процесса с учетом многомерности мнений, и произведена постановка задачи.
Во втором разделе приведено описание модели оперативной аналитической обработки комментариев и алгоритмов формирования выборок типичных и полезных комментариев.
В третьем разделе произведено оценивание адекватности модели и эффективности разработанных алгоритмов.
В четвертом разделе описаны структура и методика применения системы оперативной аналитической обработки комментариев.
В заключении сформулированы выводы по результатам проведенного исследования.
Результаты исследования обсуждались на Международной молодежной научно-практической конференции "ИНФОКОМ-2013" (г. Ростов-на-Дону, Северо-Кавказский филиал Московского технического университета связи и информатики, 2013), VIII Всероссийской межведомственной научной конференции "Актуальные проблемы развития технологических систем государственной охраны, специальной связи и специального информационного обеспечения" (г. Орёл, Академия ФСО России, 2013), V Межвузовской научно-практической конференции "Проблемы и перспективы совершенствования охраны Государственной границы" (г. Калининград, Калининградский пограничный институт ФСБ России, 2012), VII Научно-практической конференции "Проблемы развития технологических систем государственной охраны, специальной связи и специального информационного обеспечения" (г. Орёл, Академия ФСО России, 2011).
По теме диссертации опубликовано 8 печатных работ, из них 3 -в журналах из Перечня ВАК Минобрнауки РФ [80, 94, 105], получено 2 свидетельства о регистрации программ для ЭВМ в Роспатенте.
1 ПРОБЛЕМЫ ОБРАБОТКИ МАССИВА КОММЕНТАРИЕВ, ПОЛУЧЕННОГО В РЕЗУЛЬТАТЕ ОБЩЕСТВЕННОГО ОБСУЖДЕНИЯ ЗАКОНОПРОЕКТОВ
1.1 Анализ процесса обработки результатов общественного обсуждения законопроектов
1.1.1 Анализ нормативных документов, регламентирующих процедуру общественного обсуждения
В настоящее время в Российской Федерации действует порядок подготовки нормативных правовых актов, обязательным этапом которого является процедура общественного обсуждения разрабатываемых документов.
Регулирование данной процедуры осуществляется следующими нормативными правовыми актами:
1. Указ Президента РФ от 9 февраля 2011 г. № 167 "Об общественном обсуждении проектов федеральных конституционных законов и федеральных законов" [32].
Документ устанавливает необходимость вынесения на общественное обсуждение проектов федеральных законов по решению Президента Российской Федерации. Обсуждаемые законопроекты и информация о порядке направления гражданами замечаний и предложений должны быть размещены в сети Интернет на официальных или специально созданных сайтах [2, 33] с указанием времени, в течение которого планируется общественное обсуждение.
2. Постановление Правительства РФ от 22.02.2012 № 159 "Об утверждении Правил проведения общественного обсуждения проектов федеральных конституционных законов и федеральных законов" [34].
Документ устанавливает порядок проведения общественного обсуждения законопроектов с использованием сети Интернет, включая перечень документов, прилагаемых к законопроекту, выбор экспертов, выбор организа-
ции-оператора, сроки обсуждения, порядок представления отчета по результатам анализа поступивших замечаний и предложений, вопросы по рассмотрению доработанных законопроектов.
3. Постановление Правительства РФ от 25 августа 2012 г. № 851 "О порядке раскрытия федеральными органами исполнительной власти информации о подготовке проектов нормативных правовых актов и результатах их общественного обсуждения" [1].
Документ определяет, что с 15 апреля 2013 г. вся информация о подготовке проектов нормативных правовых актов, а также результатах их общественного обсуждения размещается на официальном сайте regulation.gov.ru [2] (рисунок 1.1).
' Едины портал I Главна* х
О regulation gov ru
'СиГ< ~0 П И¡гу
■нформгци« с подгот в** "че^еэл ноч ела ТР проектов *
и зезугьтатаН км оби« тетино о об ухдечмя
не лм органами
пу£п к »» UOO^tlH
Ш Ш к "-д '
«Проекты нормативныхчтравовых актов
f ^Xs 1i
эксперт 13а действующих актоз
О
Бее £
iar лв _>а i «-ког t?MUx KpCMt ГОГ 1ИВН0 Ь И «сю х
'Чб-'або'ха ipi's^a ны и
"РСИ'ВОП ТРО 1ЭЧР1ИИ иэ
|| Гостницы и рес~орань
^ До&ы -1<5 г^ппи^но
АН*^ огичесюх юпезмы* ис j taaмь х
Of 35сва-1и»
Ж Г * ~ „
SS Государстеенчое^правлвиче н^. Дея «льногть
|z оЪеслечечм® еоенной^^^^ экст^ррктори-згонь ч
Здраво-э^р^шмиу t ^ И ос. f р-»Д0СТ<й8ЛдНИ. СОЦ 14 1Ь ЫХ
спуг
Оперши* г недвижимым и^ущртрчм аррн, а и прв^оставя^н^е уел г
Вге рубри
Ы- if'f-
ОРВ/ Ф&дорв^ьньм за^он < О внесении изменении в
фодэр-j ьны t Об общи> организации
пред«- -звитегьнь < э-зкеч^да егьныч) и исполчитепьчых сг дне» '■O-V^a^CTEOHHOH власти СУ?ЪРК_08 Рсчгиитои Оедерзти v .
Министеос во ре ионатьчео развития Роо-иис* ги Федерации
Проекты а<т^в "ост•/пир иие на СРВ
Уйетм^чие
орв;> Аднинистратизныи рэпаме
-
Похожие работы
- Параллельная система тематической текстовой классификации на основе метода опорных векторов
- Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет
- Автоматизированный анализ текста на основе вероятностно-статистической модели и его применение в региональном законотворчестве
- Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора
- Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность