автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Математическое и программное обеспечение классификации текстов на основе морфологических признаков
Автореферат диссертации по теме "Математическое и программное обеспечение классификации текстов на основе морфологических признаков"
На правах рукописи 0
ТРУТНЕВ Евгений Владимирович
МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ КЛАССИФИКАЦИИ ТЕКСТОВ НА ОСНОВЕ МОРФОЛОГИЧЕСКИХ ПРИЗНАКОВ
Специальность: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Автореферат диссертации на соискание ученой степени кандидата технических наук
Тула 2009
003477406
Работа выполнена в ГОУ ВПО «Тульский государственный университет».
Научный руководитель: доктор технических наук, профессор
ТОКАРЕВ Вячеслав Леонидович Официальные оппоненты: доктор технических наук, профессор
Богатырёв Михаил Юрьевич; кандидат технических наук, доцент Привалов Александр Николаевич
Ведущая организация: ГОУ ВПО Курский Государственный
технический университет
Защита состоится «2% » УО 2009 г. в 14-00 часов на заседании диссертационного совета Д 212.271.07 при ГОУ ВПО «Тульский государственный университет» (300600, г.Тула, проспект Ленина, 92, 9101).
С диссертацией можно ознакомиться в библиотеке ГОУ ВПО «Тульский государственный университет».
Автореферат разослан « ^<?» ¿Я? 2009 г.
Ученый секретарь ------N
диссертационного совета Ф-А. Данилкин
Актуальность темы. Широкое внедрение 1Т-технологий во многие сферы человеческой деятельности в последнее время привело резкому увеличению рынка информационных услуг.
Однако многие задачи, к которым можно отнести, например, поиск полезной информации в сети Интернет, по-прежнему нуждаются в повышении эффективности решения: чем успешнее задача реализована, тем меньше времени потребуется для получения необходимой информации конечному пользователю. Другим примером может послужить задача защиты информации от внутренних злоумышленников (инсайдеров). В данном случае система защиты должна быстро анализировать как входящую, так и выходящую информацию и оперативно реагировать, если за пределы охраняемой организации несанкционированно исходит конфиденциальная информация.
С вышеуказанными проблемами, имеющими огромную практическую ценность для конечного пользователя, тесно связана задача классификации информации. В большинстве подобных работ, исследования проводились на основе совокупности лексических, синтаксических, морфологических, формальных и прочих признаков, что на практике привело к существенному уменьшению глубины исследования каждого признака в отдельности. В связи с этим предполагается, что более тщательное изучение указанных признаков позволит создать наиболее эффективные методы классификации информации.
Кроме того, существующие подходы к рассматриваемой проблемной области не учитывают жанровые особенности текстов, что значительно ограничивает их возможности в задачах защиты и быстрого поиска информации. Наличие таких недостатков позволяет сделать вывод о необходимости нахождения новых, более эффективных методов классификации информации.
В связи с этим, разработка методов классификации информации, учитывающих жанровые особенности текстов, является актуальной научной задачей.
Объектом исследования диссертационной работы является математическое и программное обеспечение поиска требуемой информации в массивах большого объема.
Предметом исследования являются методы быстрого обнаружения полезной информации, представленной в текстовой форме.
Цель исследования состоит в сокращении времени поиска требуемой информации путем классификации заданного набора текстов на основе морфологических признаков.
Для достижения поставленной цели в работе решаются следующие задачи:
1) определение набора признаков, характеризующих стилистические особенности текстов различных категорий иа основе привлечения как априорной, так и апостериорной информации;
2) составление априорного набора классов, разработка подхода к решению задачи классификации и разбиение пространства признаков на области, им соответствующие;
3) разработка алгоритма классификации, обеспечивающего отнесение рассматриваемого текста к тому или иному классу;
4) обеспечение в условиях ограничений (времени, объема данных, содержащих признаки, и т.п.) наибольшей точности решения задач классификации, выбор показателей эффективности системы классификации текстов и оценки их значений;
5) разработка программного средства, реализующего предложенный метод классификации текстов.
Научная новизна заключается в следующем.
1. Предложена метрика, позволяющая оценивать информативность признаков, используемых для классификации текстов по стилистическим особенностям;
2. Составлен априорный набор классов и морфологических признаков, обеспечивающие наибольшую точность классификации текстов;
3. Разработана методика классификации текстов на априорно заданные классы с помощью лингвистической модели, позволяющая сократить время поиска требуемой информации.
Достоверность научных результатов подтверждается экспериментальными исследованиями метода классификации на наборе текстов большого объема, имеющих разноплановую структуру, стилистику и жанровые особенности.
Практическая ценность работы заключается в применении результатов исследований для повышения эффективности поиска полезной информации в задачах поддержки принятия решений, а также в разработке программного средства в виде настраиваемого автоматического классификатора текстов.
Реализация и внедрение результатов работы. Разработанное в рамках данной работы программное средство внедрено в производственный процесс информационно-аналитической компании ООО «АгроБизнесКонсалтинг» (г.Тула) в качестве программы поиска описаний сельскохозяйственных агрегатов в сети Интернет. Это позволило существенно сократить время, затрачиваемое на поиск полезной информации в рамках деятельности компании и, как следствие, значительно уменьшить трудозатраты в данном направлении деятельности.
Теоретические результаты работы используются в курсах: «Методы и средства защиты компьютерной информации», «Системы и сети передачи информации», а также в дипломном проектировании бакалавров и инженеров по специальностям 230101 «Вычислительные машины, комплексы, системы и сети» и 090105 «Комплексное обеспечение
информационной безопасности автоматизированных систем» на кафедре ЭВМ Тульского государственного университета.
На защиту выносятся:
1. Методы определения набора информативных признаков, характеризующих тексты различных стилистических категорий;
2. Методика классификации текстов на априорно заданные классы с помощью лингвистичской модели.
Апробация работы. Основные положения диссертации докладывались на следующих конференциях:
1. Международная научно-техническая конференция по проблемам автоматизации и информатизации сельского хозяйства. - Москва: ВИМ, 2006.
2. XXXIII Международная молодёжная научная конференция «Гагаринские чтения». - Москва: МАТИ, 2007.
3. Четвёртая Всероссийская научно-практическая конференция -Тула: ТулГУ, 2007.
4. Вторая магистерская научно-техническая конференция. - Тула: ТулГУ, 2007.
5. Научно-практическая конференция «Управление созданием и развитием систем, сетей и устройств телекоммуникаций». - Санкт-Петербург: СПбГЛУ, 2008.
6. X Международная научно-техническая конференция «Системный анализ и информационные технологии». Киев: НТУУ «КПИ», 2008.
Публикации. По теме диссертации опубликовано 8 работ, включенных в библиографический список, в том числе 5 статей и 3 тезиса докладов.
Структура и объем работы. Диссертационная работа состоит из введения, четырёх глав, заключения, библиографического списка то 93 наименований и 2 приложений, изложенных на 109 страницах машинописного текста, и включающих 95 страниц основного текста, 20 рисунков и 1 таблицу.
Краткое содержание диссертации
Во введении отражена актуальность темы, определены объект, предмет, цель и задачи исследования, дана общая характеристика работы, обозначены основные положения, выносимые на защиту.
В первой главе рассматриваются существующие методы поиска полезной информации в массиве большого объёма, а также уточнены задачи исследования.
Отмечается, что среди существующих методов поиска требуемой информации можно выделить семантический анализ, позволяющий классифицировать тексты с определённой тематикой. Показано, что для большего соответствия запросам пользователя необходима дополнительная классификация текстов.
Предложено все известные методы условно разделить на четыре основных вида.
Метод построения деревьев решений (decision trees), являющийся одним из наиболее известных подходов, на основе которого построено большинство бинарных классификаторов. Показано, что основным препятствием его использования для решения поставленной задачи является сложность группирования признаков классификации.
Статистические методы. Самым известным в данной группе является семейство Байесовых классификаторов, базирующихся на формуле Байеса для условной вероятности. Показано, что различие стилей с помощью статистических методов сопряжено с рядом трудностей, таких как выбор текстов для обучения и ограниченным списком текстов, предназначенных для распознавания.
Граничные методы. На их основе строятся классификаторы, основанные на функциях подобия, определяющие принадлежность к заданным классам при помощи границ областей. Использование этих методов требует знания границ областей, как правило, априорно не известных.
Методы построения нейронных сетей. Широко применяются в задачах распознавания изображений и могут быть использованы для классификации текстов, если организовать для них выборку данных, содержащую значения информативных признаков фильтрации. Описания классов, как правило, представляют собой многомерные векторы действительных чисел, а процедура классификации характеризуется видом функции активации нейронов, а также топологией искусственной ' нейронной сети. Процесс обучения классификатора в данном случае совпадаем с процедурой обучения нейронной сети и зависит от её топологии. Недостатком указанного метода является требование большого объёма выборки.
В связи с указанными недостатками в подходах к решению задачи классификации текстов, в дополнение к существующим методикам разработан метод классификации текстов на основе морфологических признаков, обеспечивающий фильтрацию информации с учетом конкретных стилистических особенностей. В общем виде процесс классификации выглядит следующим образом:
tz —К j, tz e Т, KjeK, (1)
где tt - анализируемый текст, Kt - класс текста, R - решающее правило
классификации, К - множество классов, Т- множество текстов.
В основе предложенного метода классификации текстов лежит решающее правило классификации R, от алгоритма функционирования которого напрямую зависит эффективность обнаружения полезной информации в текстовых массивах большого объема.
Делается вывод о том, что существующие методики классификации текстов не в полной мерс способны обеспечить в условиях ограничений (времени, объема данных, содержащих признаки и т.п.) наибольшую точность решения задач классификации, которая имеет большое значение, если результаты классификации непосредственно влияют на эффективность управленческих решений (например, в задачах обеспечения информационной безопасности). Для разработки нового решающего правила классификации, определён набор признаков, характеризующих стилистические особенности текстов различных классов на основе привлечения как априорной, так и апостериорной информации, а также априорный набор классов и выбран принцип классификации. На заключительном этапе исследований выбраны показатели эффективности системы классификации текстов и оценки их значений.
Во второй главе исследованы зависимости морфологических признаков (переменных .т,еХ, принимающих дискретные значения а,, а2,---а„у) от стилистических особенностей текстов, составляющих интересуемые классы Кч б К. Для примера выбрано четыре класса Кх -«научный», Кг - «официально-деловой», Къ - «разговорный» и Кц -«техническое описание». К морфологическим признакам относятся: части речи (существительное, прилагательное, глагол, наречие и т.д.), падежи (именительный, родительный, дательный и т.д.), времена наклонения, лицо, вид глаголов, степень сравнения, род, число, одушевлённость и прочие переменные х
5
1 8 15 22 29 36 43 50 57 64 71 78 85 92 99
номер эксперимента
Рис.1. График распределения значений а, ("наречие") переменной Xj ("части речи") для разговорного и делового стиля речи
Для исследований указанных зависимостей, использовались выборки текстов, заведомо содержащие как представленные классы, так и к ним не относящиеся. Принадлежность каждого текста I, (/=/,...,ДО к классам была известной.
Пример встречаемости в тексте значения а2 ="наречие" переменной х3-'часть речи" для двух классов приведен на рис.1. По оси ординат отображается процент встречаемости значений а, переменной х} в тексте,
а по оси абсцисс порядковый номер эксперимента (от 1 до 100). Из графика (рис. 1) видно, что процент встречаемости наречий в официально-деловом стиле намного выше, чем в разговорном, кроме того наблюдаются четко разделённые интервалы значений, что позволяет точно определять стиль текста.
В работе показано, что разбиение пространства признаков на области, соответствующие априорно выбранным классам, обеспечит минимальные значения ошибок, если будет отвечать условию:
= ^ ттвРф\), ; = 1 (2)
где Р(Р)) - условная вероятность возникновения ошибки первого рода (не обнаружен текст искомого класса), Р(Рд - условная вероятность возникновения ошибки второго рода (к искомому классу отнесен текст ему не принадлежащий), 8-ограничение на вероятность ошибки Д.
Пример распределения параметров щ,а2,—,<*(, переменной хъ = «часть речи» представлен на рис.2. Показано, что такое распределение удобно представить в виде функций g;(a1)¿^2.—,а„), которые можно сравнивать между собой. Для указанного примера, данную функцию можно записать, как £3(01,^2.—,с>б), основными характеристиками которой являются математические ожидания М(а^) и дисперсии О(а),
Рис.2 Распределение g3(a|,a2. для переменной хЗ = «части речи»
Выполненные исследования показали, что каждому классу Kq еК соответствует распределение g;(a1,a2v,<3)1) для каждой переменной xJt т.е. вид функции gJ(ai,a2,...,an) в некоторой степени зависит от Kq.
Множество таких функций позволит с большой вероятностью определить принадлежность текста /, классу К,г если выбрать из
множества переменных {xj.,j~l.....п} наиболее информативные.
Информативность переменных Xj еХ предложено оценивать метрикой:
J JV min^.f?/, j
p{xj,xb)=—YJ X {gjia^-gbia^y, N A=1 (=1
оцениваемой на всем множестве обучаемой выборки объемом N.
Информативными считаются такие переменные, для которых получены максимальные значения p(xj,xb),(j*b) = \,...,n. В результате
образуется подмножество X' информативных переменных:
X' = | * /1 max pixj ,хь )1 с X. [ xj,xbeX J
Сделано предположение, что полученный набор информативных переменных может быть использован для построения классификатора, если для каждого класса Кч еК по обучающей выборке IV на множестве информативных переменных Л" построить множество «эталонов»:
.-.«„)' J = 1>-'" К
используемое для сравнения с функцией £,(еГ),а2,...,ап) анализируемого текста I,.
Показано, что в качестве такого классификатора может быть использована лингвистическая модель вида
"i
bq= A{aJi,n(iji(Xj)), a jj е Aj, xjsX',
где Ъд- лингвистическая переменная bq Aj - множество
значений переменной xj, na_.(xj) - значение функции принадлежности значения aj, переменной xj.
Предложено значение fia (Ху) определять выражением
Ма, (*/ ) = 1 - Pj {g(aji )),
где метрика pj{g(ajj),fi(ajj)) определяется по формуле:
"J
pMaß)Maß)h Kajif ■ (3)
/=1
Здесь характеристика g(ajV) вычисляется по анализируемому тексту, а характеристика И{ар) по эталону.
Значение цц{Х'), вычисляемое как min {/и0 е Aj\,
характеризует достоверность (степень истинности) определения bq, то есть качество классификации.
В результате исследований, проведённых в данной главе, решены следующие задачи:
1. Составлен априорный набор классов; произведено разбиение пространства признаков на области, соответствующие классам априорного набора классов (А,-научный стиль, к2-официально-деловой стиль, къ-разговорный стиль, кА -техническое описание).
2. Определен набор признаков, характеризующих стилистические особенности текстов различных категорий.
3. Создана метрика для оценки информативности переменных классификации на всем множестве обучаемой выборки.
4. В качестве классификатора текстов на стилизованные категории предложено использовать лингвистическую модель.
Третья глава посвящена разработке алгоритма построения лингвистической модели классификации текстов на стилизованные категории и исследованию данного алгоритма.
Алгоритм построения лингвистической модели классификации текстов состоит из двух этапов - начального и формирующего, суть которого заключается в следующем.
На начальном этапе задается множество классов, к которым могут принадлежать исследуемые тексты. Каждому классу будет соответствовать некоторое значение выходной лингвистической переменной q, число ее значений т° равно числу классов.
1. Все значения морфологических признаков 'х/, х2,..., х„, и q переводятся в шкалу термов соответствующих лингвистических переменных:
L(xi)~ {Л>АЧ (*/))> */ е Ai, Л" = ,~,aim. },
где А, - область значений соответствующей лингвистической переменной L(xi)\ a,j - имя j-rо терма L(x)\ т, - количество термов L(xj), определяемые на основе имеющейся априорной информации /а:
L{q)=(b,jub(q)}, q-+beB,
где В - область значений соответствующей лингвистической переменной Цц)\ 6, - имяу'-го терма Цц)
Форма кривой //0 (дгу) выбирается близкой к кривой распределения
параметра а, переменной Х/.
2. Формируется обучающая выборка W°=\x\q\, представленная в виде матрицы размерности Их(п+1). Здесь N - число наблюдений (строк матрицы). Каждая строка [х-[,х2,г.,х„^\ матрицы IV$ соответствует одному моменту наблюдения.
С учетом представления значений переменных х1 и д в виде термов лингвистических переменных 1(х,) и Цд) матрица преобразуется в матрицу 1?ы - [¿(-г) | ¿(<7)3, в которой каждая строка /,.(*) £ Ь(х), } = 1,..., N представляет собой импликацию:
= аи «а^Д , Ье В, ) = (4)
где В = ^(д)^{ЬиЬ2,...,Ьч,...,Ьр\,
3(лг,), 3(<зг) - нечеткие преобразования значений х;, д в значения лингвистических переменных, соответственно в Л, и В.
3. Для каждой строки I,(х)еЬ(х), 0'~1,...,ЛГ) определяется информационная мера р{х])~«//и, > которая оценивает принадлежность
п
конъюнкции с.| = лв,(, с к е/.{х) лингвистической модели Ь^с.^ЪЛ.
Здесь - число конъюнкций с^, определяющих выход модели д, Пд -общее число конъюнкций. Значения информационной меры добавляется в дополнительный столбец матрицы , образуя матрицу
^=Щх)Щс1)\р{с1к\\.
На втором этапе происходит формирование модели. 1. Анализируются полученные импликации (4). Если одна конъюнкция с) к определяет соседние ЬЧ*ЬЧ± 1, то такие термы выходной лингвистической переменной Цц) объединяются.
Если одна конъюнкция с}к определяет все гермы Ь, то такая
конъюнкция в матрицу Ь^ не включается.
Одинаковые конъюнкции Сд, определяющие один и тот же терм Ьц, заменяются одной.
Вычисляются значения функций принадлежности Для каждого
терма лингвистической переменной Ь:
Значение иь(У) указывает на степень достонерности определения терма Ь.
В результате проведённых преобразований формируется первое приближение лингвистической модели в форме матрицы размерности N' х (п +1), где число строк № < N. Все строки матрицы упорядочены по возрастанию индексов выходных термов Ь.
2. По контрольной выборке данных -Щс/} оценивается степень соответствия модели реальной системе путем вычисления значения критерия
;(е) = ш£|е,.|, е, =ь, ~Ь,, (5)
¡=1
который должен быть равен нулю при полном соответствии модели разрабатываемой системе.
3. При отличии значения ^е) от нуля корректируются функции принадлежности / = 1 ,...,т\ у = 1,...,и по правилу
Г , 1 , ч _ Г+1,еслие<0
]+ ^(е)= агё шш Де), ¿-(еЫ ,
где г[//а - границы функций принадлежности, определенные точками
пересечения между соседних термов. Эта процедура
продолжается до достижения 3(е) значения, равного нулю на любых конзрольных выборках.
Доказана сходимость такой процедуры при оптимальном выборе шага <Уза число шагов < 0,5т.
Исследования полученной лингвистической модели, выполняющей функции классификатора, проводились на множестве контрольных выборок.
Показано, что определение класса текста с помощью лингвистической модели эквивалентно поиску по дереву, корнем которого является исследуемый текст, ветви - морфологические признаки, а листья - классы, к которым может принадлежать исследуемый текст. Каждое значение листа сопровождается значением функции принадлежности текста соответствующему классу.
В четвертой главе описаны процессы экспериментальных исследований и разработки программного средства, позволяющего более эффективно решать задачи классификации, зашиты и поиска полезной текстовой информации, а также проводится проверка полученных результатов.
В качестве способа экспериментальной проверки действенности классификации предложено собрать универсальную базу текстов и
проанализировать все входящие в неё документы на предмет значений переменных дг,, являющимися множествами значений морфологических признаков лексем, содержащихся в анализируемом тексте.
Для текстов, входящих в опытную базу, были учтены следующие факторы:
1. Различные авторы. Каждый автор имеет свой неповторимый стиль написания текста: словесные формы, обороты, пунктуацию, что делает необходимым учет данного аспекта для составления универсальной базы текстов.
2. Различные жанры. В тексте они способствуют существенной корректировке морфологического состава предложений и, следовательно, должны быть учтены при сборе универсальной базы текстов.
3. Длина текстов. Учет данной особенности необходим ввиду того, что математическая статистика допускает меньшую ошибку на более длинных выборках.
4. Ярко выраженный стиль. Здесь имеется ввиду конкретика написания текста со всеми особенностями жанра, поскольку учет текстов, содержащих элементы нескольких стилей, приведёт к размытию статистической границы.
В ходе эксперимента проведено 400 испытаний - по 100 для каждого класса Кр текста. При проведении исследований в качестве критериев оценки текстов использовалось 11 переменных (падежи, части речи, времена и т.д.).
В диссертации приведены графики, отображающие результат экспериментального исследования по распределению морфологических признаков для определённых классов текстов, подобные тем, что приведены на рис. 1.
В полученной статистике наблюдались показатели, явно выбивающиеся из общей картины. Причиной этого явилась неизбежная ошибка статистики - экстремальные точки. Делается вывод о необходимости избавления от таких случайных значений по критерию %2 Пирсона с доверительной вероятностью Р=0,95. После проведения аппроксимации вырисовывается более четкая картина распределения переменных по интервалам значений.
Полученные результаты экспериментально доказывают уникальность интервалов значений морфологических признаков для различных классов текстов. Разработанный классификатор, кроме того, позволил достаточно точно определить принадлежность текста к одному из четырех заданных классов.
Разработка программного средства проводилась в два этапа. На первом этапе было создано программное средство для автоматизированной сборки статистики встречаемости морфологических признаков в русскоязычных текстах. Все экспериментальные исследования, описанные
во второй главе, проводились на основе накопленной статистики, которая впоследствии была загружена в базу знаний разрабатываемого программного средства фильтрации текстов.
Второй этап разработки включает в себя:
1. Проектирование базы данных. В данный раздел входит выбор базы данных (БД) и системы управления базой данных (СУБД), разметка полей данных и определение связей между таблицами и полями данных.
2. Проектирование базы знаний, в результате которого осуществляется выбор базы знаний (БЗ) и системы управления базой знаний (СУБЗ), разметка полей данных, а также определение связей между таблицами и полями данных.
3. Разработку интерфейса пользователя. Здесь необходимо учитывать в первую очередь эргономичность программной оболочки, т.е. максимальное удобство и доступность настроек и основного функционала программного средства.
4. Разработку структуры и алгоритма функционирования.
| База данных | ! База знаний
: ; Модуль ¡ш_:_____
ввода ^ ! Интерфейс пользователя
данных
4 I
; Пользователь
Данные
Рис. 3. Структура разрабатываемого программного средства
Предложенная структура программного средства (рис. 3) содержит БД, БЗ, систему управления (СУ), интерфейс пользователя (ИП), модуль морфологического анализа и модуль ввода данных.
В базе данных содержится анализируемая информация, вводимая пользователем или накапливаемая через модуль ввода данных непосредственно с сети (например, с выходного трафика e-mail или входного Internet-трафика). База знаний при этом содержит набор декларативных и процедурных знаний (общие правила представления текстов, вероятностные значения для информативных переменных) и логические модели. Руководствуясь режимом ввода данных, система управления выбирает алгоритм взаимодействия с БД и БЗ, а так лее с пользователем через интерфейс.
При любом режиме ввода данных (поточном или по запросу) весь поток данных проходит через модуль морфологического анализа, задачей которого является анализ полученных словоформ с целью выдачи информации о морфологических характеристиках лексем, содержащихся в тексте. Полученная от модуля морфологического анализа информация записывается в БД и впоследствии обрабатывается СУ при помощи правил классификации, содержащихся в БЗ. На конечном этапе система управления посылает в интерфейс пользователя ответ, который зависит от настроек программного средства.
Таким образом, в зависимости от настройки системы представляется возможным использовать программное средство для решения целого ряда таких задач, как: анализ e-mail сообщений на предмет возможной утечки конфиденциальной информации, фильтрации входящих сообщений или повышения эффективности поиска информации в сети за счёт выявления стилистических особенностей текстов.
На основании описанного принципа функционирования программного средства и реализованного ряда функций можно сделать вывод, что данное программное обеспечение (ПО) способно решать задачи, поставленные в данной работе.
В качестве практического применения программного средства осуществлен поиск в сети Интернет информации, содержащей техническое описание сельскохозяйственной техники. При этом требовалось отфильтровать рекламную информацию, упоминания в форумах, новостные сообщения и т.д., которую всегда выдает любая поисковая система, например, «Яндекс».
В ходе экспериментальной проверки, параллельно с программным средством, для поиска информации использовался сайт компании «Яндекс». Был произведен поиск 50-ти единиц сельскохозяйственной техники. Данное количество было признано экспериментатором достаточным для всесторонней проверки действенности ПО. Экспериментатора интересовало подробное техническое описание агрегатов.
В качестве показателя эффективности системы классификации текстов предложено использовать коэффициент пертинентности
Р1=—, (6)
/ г п
который оценивается в виде соотношения между всей имеющейся /„ и полезной /,, для пользователя информацией.
При любом значении Р1, отличном от 0, можно говорить об улучшении пользосоответствия запроса. Причём, чем Р( выше, тем больше отсеяно ненужной информации.
На основании данных экспериментальной проверки рассчитаны коэффициенты пертинентности запросов: 1 50 /'
Н ' н
где - полезная информация, '» - вся найденная информация.
Подсчёт коэффициентов пертинентности двух систем позволил сделать вывод о значительном увеличении процента полезной информации в ответах описываемой системы классификации по сравнению с ответами системы «Яндекс» приблизительно в 3,4 раза (Рис. 4), что на практике приводит к значительному сокращению времени на поиск информации.
номер эксперимента
Рис. 4 Значение коэффициентов пертинентности (РО для разработанного ПО и поисковой системы «Яндекс» по результатам 50-ти экспериментов
В ряде случаев программное средство ошибочно отсеивало полезные ссылки и принимало за полезные ненужные, однако процент такой ошибки соответствует условию (2), т.е. условная вероятность возникновения ошибки первого рода (не обнаружен текст искомого класса) и условная вероятность возникновения ошибки второго рода (к искомому классу отнесен текст ему не принадлежащий) находятся в допустимых пределах.
Проверка эффективности программы проводилась на базе информационно-аналитической компании ООО «АгроБизнесКонсалтинг», основной деятельностью которой является разработка и информационное наполнение электронных каталогов сельскохозяйственной техники. Представленное программное средство показало хорошие практические результаты (7) и было внедрено в производственный процесс информационно-аналитической компании ООО «АгроБизнесКонсалтинг».
В процессе тестирования системы были определены статистические характеристики затрат времени пользователя на поиск требуемой информации, которые сравнивались с аналогичными характеристиками поисковой системы Яндекс. Выигрыш по времени увеличивается примерно в 1,5 раза.
На основании проведённой экспериментальной проверки можно сделать вывод об эффективности применения разработанного программного средства.
В четвертой главе решены следующие задачи:
1. Проведено 400 испытаний - по 100 для каждого из априорно заданных классов Кр текста, подтверждающих существование чёткой
статистической границы между выбранными классами в значениях морфологических признаков.
2. Разработано программное обеспечение, позволяющее осуществлять классификацию предложенного набора текстов на заданные классы.
3. Проведена проверка системы классификации, экспериментально доказывающая значительное увеличение выбранного показателя эффективности.
В заключении сформулированы основные результаты и выводы.
В приложении приведены акты о внедрении теоретических результатов работы в учебный процесс курсов ((Методы и средства защиты компьютерной информации», «Системы и сети передачи информации», а также акт о внедрении разработанного программного средства в информационно-аналитическую компанию ООО «АгроБизнесКонсалтинг» (г.Тула) в качестве программы поиска описаний сельскохозяйственных агрегатов в сети Интернет.
Основные результаты работы
1. Предложена метрика, позволяющая оценивать информативность признаков, используемых для фильтрации текстов по стилистическим особенностям;
2. Составлен априорный набор классов и морфологических признаков, обеспечивающие наибольшую точность фильтрации текстов;
3. Разработана методика фильтрации текстов на априорно заданные классы с помощью лингвистической модели, позволяющая сократить время поиска требуемой информации.
4. Разработано программное средство фильтрации текстов на основе морфологических признаков, позволяющее более эффективно решать задачи классификации, защиты и поиска полезной текстовой информации.
5. Экспериментальная проверка подтвердила результаты проведённых исследований в части повышения эффективности поиска полезной информации и выявила сокращение времени поиска примерно в 1,5 раза.
6. Программное средство внедрено в производственный процесс информационно-аналитической компании ООО «АгроБизнесКонсалтинг» {г.Тула) в качестве программы поиска описаний сельскохозяйственных агрегатов в сети Интернет.
7. Теоретические результаты работы внедрены в учебный процесс курсов «Методы и средства защиты компьютерной информации», «Системы и сети передачи информации», а также используются в дипломном проектировании бакалавров и инженеров по специальностям 230101 «Вычислительные машины, комплексы, системы и сети» и 090105 «Комплексное обеспечение информационной безопасности автоматизированных систем» на кафедре ЭВМ Тульского государственного университета.
Публикации по теме диссертации
1. Трутнев Е.В. Развитие информационного обеспечения АПК. // Научно-теоретический журнал «Техника в сельском хозяйстве» №5,2007 -Москва: ВИМ, 2007. - С. 45 - 46.
2. Трутнев Е.В. О существующих подходах и проблемах при реализации интеллектуального анализа данных // ХХХШ Гагаринские чтения. Научные труды Международной молодёжной научной конференции в 8 томах. Том 6. - Москва: МАТИ, 2007. - С. 260 - 261
3. Трутнев Е.В. Модель автоматизированного поиска информации на на основе принципа интеллектуальных агентов. // Системы управления электротехническими объектами. Вып. 4. Сборник научных трудов четвёртой Всероссийской научно-практической конференции. - Тула: ТулГУ, 2007.-С. 204
4. Трутнев Е.В. Классификация информации Интернет-страниц на основе специфики встречаемости различных типов предложений. // Вторая магистерская научно-техническая конференция. Тезисы докладов. - Тула: ТулГУ, 2007.-С. 314.
5. Трутнев Е^.В. Метод классификации текстов на основе морфологического анализа. II Управление созданием и развитием систем, сетей и устройств телекоммуникаций. Труды научно-практической конференции. - СПб: СПбГПУ, 2008. - С. 323 - 333.
6. Трутнев Е.В. Морфологический анализ как инструмент классификации текстов по функциональным стилям речи. // Системный анализ и информационные технологии: Материалы X Международной научно-технической конференции - Киев: НТУУ «КПИ», 2008. - С. 260.
7. Трутнев Е.В. Классификация текстов на стилизованные категории II Известия Тульского государственного универсистета. Технические науки. Выпуск 2. - Тула: ТулГУ, 2008. - С. 121-129
8. Токарев В.Л., Трутнев Е.В. Автоматизированная классификация текстов Интернет-страниц по функциональным стилям речи на основе морфологического анализа // Известия Тульского государственного универсистета. Технические науки. Выпуск 4. - Тула: ТулГУ, 2008. - С. 249-256
Изд. лиц. ЛР №020300 от 12.02.97. Подписано о печать
Формат бумаги 60x84 1/16. Бумага офсетная. Усл.-печ. л./^Ц. Уч.-изд. л.
Тираж 100 экз. Заказ 0/$
Тульский государственный университет 300600, г. Тула, пр.Ленина 92 Отпечатано в издательстве ТулГУ 300600, г. Тула, ул. Болдина, 151
-
Похожие работы
- Методы и алгоритмы принятия решений на основе морфологического анализа сложноструктурированных сигналов и нейросетевого моделирования
- Разработка алгоритмов построения морфологических спектров для анализа цифровых изображений и видеопоследовательностей
- Исследование и разработка методов и программных средств классификации текстовых документов
- Морфологический синтез чувствительных элементов систем управления по параметрическим структурным схемам
- Гибридные модели и алгоритмы для анализа сложноструктурированных изображений в интеллектуальных системах медицинского назначения
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность