автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка и исследование методов построения атрибутного тематического классификатора документов
Автореферат диссертации по теме "Разработка и исследование методов построения атрибутного тематического классификатора документов"
На правах рукописи
ХА ТИ ЧУНГ
РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ПОСТРОЕНИЯ АТРИБУТНОГО ТЕМАТИЧЕСКОГО КЛАССИФИКАТОРА ДОКУМЕНТОВ
Специальность: 05.13.17 — Теоретические основы информатики.
АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук
Таганрог - 2009
003472944
Работа выполнена в Технологическом институте Южного федерального университета в г.Таганроге.
НАУЧНЫЙ РУКОВОДИТЕЛЬ:
доктор технических наук, профессор Вишняков Юрий Муссович
ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:
доктор технических наук, профессор, Чернухин Юрий Викторович;
кандидат технических наук, Спиридонов Олег Борисович.
ВЕДУЩАЯ ОРГАНИЗАЦИЯ:
ОАО «ТАНТК им. Г.М. Бериева» г.Таганрог.
Защита диссертации состоится « 26 » июня 2009 г. в 14-20 на заседании диссертационного совета (Д 212.208.21) при Южном федеральном университете по адресу: 347928 г.Таганрог, пер.Некрасовский, 44, ауд. Д-406.
С диссертацией можно ознакомиться в Зональной научной библиотеке ЮФУ по адресу: г. Ростов-на-Дону, ул. Пушкинская, 148.
Автореферат разослан «__» мая 2009г.
Ученый секретарь
диссертационного совета Д 212.208.21, доктор технических наук, профессор
Чернов Н.И.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время объем электронных изданий и документов в интернет, локальных сетях, электронных библиотеках, электронных каталогах и др. по некоторым оценкам удваивается каждый год. Однако ограниченные возможности инструментариев поиска и классифицирования информации существенно затрудняют пользователю доступ к релевантной его запросам информации. Проблема разработки эффективных подходов тематической классификации документов стала сегодня объектом серьезных исследований. Для решения этой проблемы были разработаны и предложены ряд подходов, связанных с выделением и извлечением информационных объектов, определением их статистических, лингвистических и семантических характеристик, построением семантико-тематической структуры документов и тематик, тематической фильтрацией и пр. Этой проблеме также посвящен ряд международных научных конференций и семинаров.
Как показывает анализ подходов в области классификации документов, каждый из них обладает определенными достоинствами и недостатками, а также областью эффективного использования. Однако, ни в одном из этих методов для повышения эффективности классификации не используется явное выделение функциональных областей в документах. В то же время, использование разнородной информации из данных областей может существенно улучшить результаты классификации документов. Поэтому, несмотря на то, что существует много работ по тематической классификации, на сегодня в общем виде данная проблема до сих пор еще не решена. Таким образом, разработка методов и систем автоматической тематической классификации документов остается одной из актуальных проблем в области информатики и имеет как теоретическую, так и практическую значимость.
Настоящее диссертационное исследование выполнено в рамках данной проблематики и направлено на разработку и исследование моделей и методов атрибутной тематической классификации документов.
Объект исследований. Методы построения атрибутного тематического классификатора документов.
Цели и задачи работы. Разработка и исследование методов построения атрибутного тематического классификатора документов.
Для достижения поставленной цели исследования были решены следующие основные задачи:
1. Построение и исследование моделей атрибутного описания документов и тематик, отличающихся от известных моделей тем, что традиционная совокупность классификационных признаков дополнена атрибутными функциональными характеристиками.
2. Разработка способов построения классифицирующей функции на основе частичных функций близости атрибутных множеств документов и тематик.
3. Разработка методов построения обучающих выборок, методов обучения и настройки атрибутного классификатора для тематической классификации документов.
4. Построение профаммной модели для экспериментального исследования атрибутного классификатора и апробации теоретических выводов результатов.
5. Проведение экспериментального моделирования и исследования разработанного атрибутного классификатора.
Методы исследования. Для решения выше перечисленных задач использованы методы математического и комбинаторного анализов, методы нечеткой логики, методы оптимизации, методы статистического анализа, методы лингвистического анализа, технология программирования.
Научная новизна работы. Состоит в следующем:
1. Разработана модифицированная модель описания документа, которая отличаются от известных моделей тем, что наряду с описанием основного текста содержит ряд дополнительных атрибутов, таких как описания названия, авторов, аннотации, глоссарии и пр., а также таких атрибутов, как УДК, ISBN и пр., которые соответствуют данному типу документов.
2. Разработана модифицированная модель описания тематики, атрибутивно согласованная с предложенной моделью описания документа, что позволяет устанавливать между документами и тематиками степень близости по однотипным атрибутам описаний.
3. Разработана классифицирующая функция на основе частичных функций близости по типу "текст"-«-»"текст", "текст" <-> "экспертное знание", "экспертное знание"<->"экспертное знание", "описательные атрибуты"<->"описательные атрибуты", которая в отличие от известных позволяет учитывать информацию из дополнительных атрибутов документов и тематик.
4. Сформулированы в виде лемм требования к структуре правильно построенной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи и разработаны методики коррекции обучающей выборки, что позволяет организовать обучение и настройку разработанного атрибутного классификатора.
5. Предложено представлять классифицирующую функцию в виде лингвистической переменной, а построенные правила нечеткого логического вывода использовать для классификации, что позволяет существенно упростить переобучение атрибутного классификатора путем коррекции нечетких переменных и/или правил логического вывода.
Основные положения, выносимые на защиту. На защиту выносятся следующие научные положения и результаты, полученные в диссертационном исследовании:
1. Атрибутные модели описания документа и тематики.
2. Классифицирующая функция на основе частичных функций близости по типу "текст"<->"текст", "текст"-•-'"экспертное знание", "экспертное знание"<-»"экспертное знание" и "описательные атрибуты"<->"описательные атрибуты".
3. Методы построения правильной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи,
методика коррекции обучающей выборки на основе решения оптимизационной задачи.
4. Представление классифицирующей функции в виде лингвистической переменной и системы правил нечеткого логического вывода.
Теоретическая и практическая значимость результатов исследования.
1. Разработанная модифицированная модель описания документа позволяет наряду с характеристиками основного текста включить в описание документа информацию из дополнительных функциональных областей (атрибутов) таких, как названия, авторы, аннотация, глоссарий, УДК, ISBN и пр., которые соответствуют данному типу документов.
2. Разработанная модифицированная модель описания тематики атрибутивно согласована с предложенной моделью описания документа и позволяет устанавливать между документами и тематиками степень близости по однотипным атрибутам описаний.
3. Разработанная классифицирующая функция на основе частичных функций близости по типу "текст" <->"текст", "текст" <-*"экспертное знание", "экспертное знание" «-»"экспертное знание", "описательные атрибуты"<->"описательные атрибуты" позволяет интегрально учитывать информацию из дополнительных атрибутов документов и тематик.
4. Сформулированные в виде лемм требования к структуре правильно построенной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи, а также разработанные методики коррекции обучающей выборки позволяют организовать обучение и настройку разработанного атрибутного классификатора.
5. Разработанное представление классифицирующей функции в виде лингвистической переменной и построенные правила нечеткого логического вывода позволяют существенно упростить переобучение атрибутного классификатора путем коррекции нечетких переменных и/или правил логического вывода.
Разработанные методы, способы и алгоритмы дополняют существующие теоретические разработки в данной области и подтверждают их теоретическую значимость, а их практическая значимость подтверждается результатами экспериментального моделирования и возможностью их применения в системах информационного поиска документов, электронных библиотеках и библиотеках различных учреждений.
Достоверность результатов. Вытекает из их математического обоснования, корректного использования методов математического и комбинаторного анализов, нечеткой логики, оптимизации, статистического и лингвистического анализов, технологии программирования, а также подтверждается результатами проведенных модельных экспериментов.
Использование результатов работы. Результаты диссертационного исследования используются в ряде работ, выполненных в международной лаборатории ELDIC, и в учебном процессе, что подтверждается актами о внедрении результатов исследования в рамках работ по госбюджетной НИР №12450 "Исследование и разработка гибридных логико-математических и нечетко-
лингвистических моделей задач искусственного интеллекта, информационного поиска и распознавания образов" и учебном процессе по дисциплине "Организация электронных архивов данных" магистерской программы "Интеллектуальные системы" по направлению 230100 "Информатика и вычислительная техника" факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Апробация результатов работы. Основные результаты работы неоднократно докладывались и обсуждались на конференциях и семинарах различного уровня, в том числе:
-VIII Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления (КРЭС'06)" (Таганрог, ТРТУ, 2006г);
-Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2007г);
-Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2008г);
-VI Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системы анализ и управление" (Таганрог, ТТИ ЮФУ, 04-05 декабря 2008г).
Публикации. По материалам диссертации автором опубликовано 7 печатных работ, в том числе одна статья в издании из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и приложений. Текст изложен на 136 страницах, содержит 24 рисунков, 13 таблицы, список литературы из 75 наименований.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ.
Во введении показана и обоснована актуальность темы диссертационного исследования, показана существующая степень разработки проблемы, сформулированы цель и задачи исследования, сформулированы положения и результаты, выносимые на защиту, определены научная новизна и практическая значимость результатов исследования, приведены данные об апробации и использовании научных результатов, о публикациях и структуре диссертационной работы.
В первой главе определены основные понятия и терминология, используемая в диссертационном исследовании, проведен анализ существующих подходов в области классификации, таких как вероятностный, векторный, и комбинированный. Рассмотрены и проанализированы такие методы тематической классификации как статистические Байесовские, k-ближайших соседей, центроидные, нейронные сети, логические, гибридные и пр., а также проанализированы используемые в них математические модели описания документов, тематик, классифицирующих функций. В результате этого анализа
определено место атрибутной классификации среди этих методов и отобран математический инструментарий для целей диссертационного исследования.
Во второй главе разрабатываются модели описания документов и тематик, которые учитывают не только основное текстовое содержания документа, но и ряд его дополнительных атрибутов, характерных для данного рода документов.
Документ представляется в виде основного текста, составляющего его семантическую сущность, а также некоторой дополнительной информации, которая определяет стандартизированный формат, способ составления и оформления документов данного вида. Например, книга кроме основного текста содержит название, описание авторов, оглавление, аннотацию, список литературы и пр., а также такие атрибуты как ISBN, УДК и пр. Также свои форматы имеют научные статьи, научно-технические отчеты и т.п. Учитывая все это, модель описания
документа представляется в виде: Doc(d) = (rJ,UJ, где Т1, UJ и Md -
атрибутные множества. Здесь множество Td = {ztj,fj,fij>} создается на основе термов тела документа (/у - терм, fj - встречаемость терма, е[0,1] - важность
терма). Множество Ud = {<ик,5к >} представляет термы ик из дополнительных областей и их важность 5к е [0,1] для данного документа. Множество Md = {<mi,vi,ei >} представляет индивидуализированные атрибуты, где" ш, - тип, v, - значение, 9t е [0,1] - важность соответственно.
Описание тематики Themes(c) = (тс ,UC,МСатрибутивно согласовано с описаниями документов, формируется на основе обучающей выборки (OB) и экспертного знания. Множество Тс = {<ti,fi,^ii >} формируется классификатором из термов ti текстов документов вместе с характеристиками встречаемости fi и //,-€[0,1] " степени важности для тематики. Множество Uc = {<uk,Sk >} формируется классификатором и уточняется экспертами. Здесь ик характеристические термы тематики, 5к е [0,1] - важность терма ик в тематике с. Множество Мс ={<mi,vi,di >} представляет характерные описательные атрибуты тематики, аналогичные документам. ас - пороговое значение атрибутной
классифицирующей функции (АКФ). Если значение АКФ больше ас, то документ относится к тематике с, в противном случае - нет.
Процедура формирования описания тематики имеет следующий вид:
1. Эксперты формируют наименование тематики;
2. Эксперты формируют часть элементов множества Uc.
3. Эксперты формируют часть М°;
4. Эксперты формируют OB;
5. Классификатор по OB строит множества Тс и доопределяет множество Uc;
6. В процессе настройки и обучения классификатор определяет ас для АКФ.
В третьей главе разработаны модели атрибутной классифицирующей функции, проведен их анализ, а также сконструированы алгоритмы настройки и обучения атрибутного классификатора.
Построение АКФ связано с определением для каждой пары <с!,с> функции вида ф(й?,с)=/^,(г',г)) яДг'.С/'), 8г(и",ис), 8а(м",мс)), где gi - частичная функция близости (ЧФБ) документа тематике. Здесь gx^Гd имеет тип "текст"<->"текст"; g2{г'J ,ис) - "текст"*-+"экспертное знание"; (с/</,(7е) - "экспертное знание"-«-^"экспертное знание"; g4[мd,мс) - "описательные атрибуты"<->"описательные атрибуты". Таким образом, АКФ учитывает все атрибутные множества документов и тематик.
Конструкцию Р АКФ определим в виде линейной суммы частичных функций близости и учтем роли каждой из них коэффициентами доверия /?,, р2, /?3, /?4. Тогда данное представление АКФ Ф имеет вид:
ФМ = 1(А
<
Значение правильно настроенной АКФ имеет максимум только на соответствующей документу тематике, при этом значение АКФ должно превысить порог ас.
Определение 1. Классификатор, для которого установлены пороги а,с = 0.5, назовем базовым классификатором (БК).
Лемма 1. Для правильно построенного классификатора, если для документа с1 и тематики с, существует классифицирующая функция вида ф(л,с,)>0.5 , то всегда для данного документа любая другая классифицирующая функция ф((/, су) < 0.5 для всех / ^ г.
Доказательство данной леммы вытекает из определения базового классификатора.
Лемма 2. В правильно построенной обучающей выборке й,еасН для каждого документа с1 всегда существует одна и только одна классифицирующая функция вида ф(</,с,)> 0.5.
Доказательство данной леммы базируется на определении ОВ.
Данные леммы положены в основу процедуры построения обучающей выборки й1еаск . Так, если лемма 1 не выполняется, то в ОВ некоторые документы
относятся классификатором более чем к одной тематике. В этом случае необходимо уточнить описания документов и соответствующих тематик. Если не выполняется лемма 2, то ОВ содержит документы, термы которых не учтены в описаниях тематик. Коррекция: термы из документов либо учесть в описаниях тематик, либо документы удалить из ОВ.
Пусть для документа с/ и тематики с построены описания по рассмотренным атрибутным моделям. Тогда ЧФБ gx представим в виде:
(2)
Vi,j,k:tkeCl, е£2V,- еПс.
Здесь числитель представляет сумму произведений важностей общих для
документа и тематики термов (0 = 0СП£2</), а знаменатель - сумму квадратов
важностей всех термов (О? и 0.с ) атрибутных множеств Тс/ и Тс соответственно. По аналогии сформируем ЧБФ > £з > #4:
, , 2 g2\Гd ,ис)=- *
ЖГ+тЬГ
V/,;,к: щ е П, е П^и, е 0е.
1 / : ы* е <2,и1 € ¿/.н, € 6е.
(3)
(4)
(5)
В диссертации показывается, что значения ЧБФ , > £з > £4 нормализованы на интервале [0,1].
Для формирования описаний документов, используя алгоритмы извлечения термов, определяются множества Г = {< >}, и = {ик} и Л/ = {< V, >}. Далее
для каждого терма определяется его важность. Так, для множества Та важность представляется в виде:
и - ¿Ш . < 8
и учитывает количество слов /,(/,) в терме, среднюю длину I термов по данному документу, определяемую формулой I = ' -, V/:< Г,,/) >е Т. Здесь
2.J<
i
DF(Dleach)= - количество документов обучающей выборки с учетом размера
текста документов, |с/| - размер текста документа в числе термов, dfifi)- 2И - количество термов в обучающих документах, в тексте которых
встречается терм <(.
Если использовать однословные термы и не учитывать размера текста документа в числе термов, то важность терма для документа приводится к
известному в тематической классификации выражению /u{tj,d)-fj • log^ le?ch) .
4nti)
В дальнейшем важность термов всегда будем нормализовать по типу
/J, = , где ^тах = maxlu Д V <г,/,,u >е Td . Сокращение размерности и j
г* max
множества Тd осуществляется за счет удаления не характерных для данного документа слов и словосочетаний (стоп-термов, термов общего назначения и т.д.). Важность термов атрибутного множества Ud ={<uk,Sk >} определим через
настраиваемый параметр —¡-, который соответствует средней важности
термов множества Td . Пусть вначале 5к = ^ > где ^ ""^"jf/j—' eU -
средняя длина термов множества U, а L(uk) - число слов в терме ик . Если терм ик встречается в Т (3 <ti,fi,nj>eTd,uk&ti), то повысить его важность
уЦ. J
ок = max(//;, Aq и удалить кортеж < t,,fn^l > из множества "Г, в противном
случае, снизить его важность ¿>. = Л„ - г^т • После вычисления важностей всех
\Т\
lL(uk)
термов множества U необходимо провести их нормализацию по типу 5к = где SmiX = max(St) максимальное значение из всех 8к (<uk,ök >е Ud).
Sk
При сравнении термов использован знак что означает
идентичность термов ик и г,. Понятие идентичности может быть расширено до термов-синонимов. В этом случае алгоритм также сохраняет работоспособность, однако необходимо включить в базу данных классификатора тематические словари и тезаурусы синонимов.
Определение важности описательных атрибутов множества Мй документа выполняется экспертами и служит для более тонкой настройки классификатора.
Формирование атрибутных множеств тематик классификатора выполняется по обучающей выборке и экспертной информации в соответствии с моделью описания тематики. Для этого вначале необходимо распределить документы по
тематикам и построить ОВ вида £>,сасА = II \ Ус,еС, с, й'еасЬ П= 0 ,
сеС
где С - множество всех тематик. Далее задать экспертным путем степени близости документов тематикам {< с1, с, >, <1 е Д^са}- Из практики желательно выполнение условие 0.8 2 < 1.
Алгоритм подготовки атрибутных множеств термов и = {ы4}, М = {< >} и Т = {<1к,/к >} для тематики имеет вид:
1. Для каждого обучающего документа (1 е определить множества Та = {<0.Л >}» и, = {иМа = {< ш,,V, >}, Данные процедуры выполняются по аналогии формирования описания документа.
2. Для обучающей выборки тематики Д;ж/, сформировать множество (У по следующей формуле и = и ил .
3. Для обучающей выборки тематики ОсКаЛ сформировать множество М по следующей формуле М = и .
4. Предъявить экспертам для коррекции и пополнения множества и и М .
5. Сформировать объединенное множество Т = {< 1к,/к >}, взяв для каждой
пары 1к из всех множеств , для которых ^ е Д;асА, а параметр fk в паре
определить по формуле /к =£](/) Здесь под
л
знаком суммы представлено произведение встречаемости терма ¡к в документе с1 е Ос,еаск и важности ^ документа с/ для тематики с.
Определение важности термов для атрибутного множества Тс выполняется по аналогии с документами. Определение важности термов для множества Vе не должно зависеть от частоты их встречаемости в тексте документов ОВ. Если важность не задана явно экспертами, то она определяется следующим образом.
Пусть £Т = [<щ,Зк >} - множество термов, заданных экспертами, с их
Е**
важностям. Если Г2С , то Я0 определяется как Я0 = ~р7р ^ :< >е • 2>,
Если = 0, то Л = -4—г определяет среднюю важность термов множества Тс. М
1(и )
Пусть в начале 8к=\,—, где 1 = * ^—,Ук:ике11 средняя длина термов множества и. Если терм ик встречается в Т , то повысить его важность по формуле 8к =тах(д, Л^ +-Аг) и удалить кортеж < > из Тс, иначе снизить
М
его важность по формуле дк = к^ —'■—. После того как важности всех термов
И
множества и определены, необходимо провести нормализацию по типу ок = ——,
тах
где <5тм = тах(<54) - максимальное значение из всех 8к (<ик,8к >е ис).
Определение важности описательных атрибутов множества Мс выполняется только экспертным путем.
После определения всех атрибутных множеств документов ОВ и тематик,
выполняется настройка АКФ с целью максимизации порога ас путем подбора коэффициентов доверия рх, /?2, /?3, Д,. Сформулированные правила регулирования
коэффициентов доверия имеют следующий вид:
Правило 1. Если близость типа "экспертное знание"«->"экспертное знание" "высокая", то повысить коэффициент доверия /]3 к ЧФБ g3 и снизить
коэффициенты доверия р2, Д, к ЧФБ g1Yí g^.
Правило 2. Если близость типа "экспертное знание"<-»"экспертное знание" "средняя", а близость типа "текст"«->"текст" "высокая", то повысить коэффициенты доверия рх, рг к ЧФБ по типу близости "текст""-»-"текст" и "текст"■•-►"экспертное знание".
Правило 3. Если близость типа "экспертное знание"«-»"экспертное знание" меньше "средняя", то повысить коэффициент доверия /?,, рг к ЧФБ и g2.
Правило 4. Если близости типов "текст"«-»"текст" и "текст"«-»"экспертное знание" "низкая", то увеличить коэффициенты доверия Д к ЧФБ g3.
Правило 5. При высоком значении близости типа "текст"«-►"текст" увеличить коэффициент доверия /?, к ЧФБ gl.
Пусть рх, р2, р3, д, прямо пропорционально зависят от ЧФБ, тогда
, ч ч 1{8')2 ~
Р, = а АКФ имеет вид = ' , \' 1 = Из анализа
1' ¿Ы
г I
следует, что значение АКФ сдвигается в ту сторону, где одна из ЧФБ принимает значение большее, чем другие ЧФБ. Цель - максимизация АКФ, т.е. = шах .
Достижение данной цели сформулируем в виде оптимизационной задачи. Для этого вычислим значения всех ЧФБ документов ОВ и сформируем линейную систему уравнений, представленную ниже в векторной форме:
8п Ем 8и 814 А Ф.
Si 1 822 823 8 24 Рг
Pi
8п\ 8л 8пЗ 8п4 РА Фп
(7)
(8)
Наложим на (7) в соответствии с леммой 1 ограничения вида: [V/, Ф, >ас.
После введения и+1 дополнительных переменных y,,i = 1,« и р получим следующие соотношения:
Д+/?2+/?з+/?4+/? = 1,
-Ф ,-у,=ае, У, >QJ = U'-
Р,+Р2+Рг+Ра+Р = 1
<=>|-Ф,;+ac+yi =0, (9)
yi >0,/ = 1,«.
Решение (9) является правильным только тогда, когда введенная переменная р = 0. Приведем (9) к следующему виду:
/(х) = (В,х) = ас шах,
•Лх = Ь, (10)
jc > 0,
где Я = (0,0,0,0,0,1,0,...,0), х = {р„р2,ръ,р„р,ас ,yv...,yn) и А - матрица размерности (п + 1)х(и + 6), элементы которой представляют коэффициенты из равенств (9), a b представляет вектор столбцов левой части всех равенств системы (9). Виды матриц А и b представлены ниже.
1 1 1 1 1 0 0 0 . оп т
"Ям ~8п — ¿>14 0 1 1 0 . 0 0
А = &21 -8 22 -¿23 - 824 0 1 0 1 . 0 , ь = 0
. ~8„ 1 ~8п1 ~8П з — 8пИ 0 1 0 0 . 1 0
Из анализа матриц А и Ь видно, что оптимизационная задача (10) является разрешимой, поскольку имеет (и + 1) линейно независимых столбцов. Для нее
всегда найдется допустимое решение * = (1,0,0,0,0,0, £,,,...,#„,), т.е. ас-0, Рх =1 ,Р2 = /?3 =Д, = /? = 0. Также можно доказать, что шах(ас)<1, поскольку V/': ас < Ф( < 1. Поставленная оптимизационная задача (10) является одним из видов задач линейного программирования и представлена в канонической форме. Ее можно решать, например, с помощью симплекс-метода.
При анализе результатов решения оптимизационной задачи возможны следующие случаи:
Случай 1 (ас < 0.5). Нарушение требования леммы 1. Провести коррекцию обучающей выборки.
Случай 2. Нарушение доверие к ЧФБ вследствие не выполнения правил регулирования коэффициентов доверия. Провести коррекцию обучающей выборки.
Теперь рассмотрим представление АКФ в виде лингвистической переменной. Для этого зададим для каждой из ЧФБ лингвистические значения вида: {"высокая", "средняя", "низкая", "близка к нулю"}. Очевидно, каждое из этих лингвистических значений можно рассматривать как нечеткую переменную и представлять одним из следующих способов: ступенчатым, трапециевидным, треугольным, гауссовым и т.п.
Исходя из этого, сформируем АКФ в виде лингвистической переменной <ЬУ, Т, и>, где ЬУ="принадлежность" - имя лингвистической переменной; Т(ЬУ)={"принадлежит", "вероятно принадлежит", "вероятно не принадлежит", "не принадлежит"} - множество лингвистических значений; и=[0,1] - область определения ЬУ.
Зададим правила нечеткого вывода в виде:
Л,: если £ принимает значение //(Д,), gг - МДг)> 8з " М4з) и 8а " М(А,4), то ЬУ принимает значение ц(В1).
Здесь Ац е {"высокая", "средняя", "низкая", "близка к нулю"} и
В1 е {"принадлежит", "вероятно принадлежит", "вероятно не принадлежит", "не принадлежит"}.
Обозначим лингвистические значения "высокая", "средняя", "низкая" и "близка к нулю" через 1, 2, 3 и 4 соответственно, тогда нечеткую систему вывода атрибутного классификатора можно задать таблицей вида:
Si 82 S3 SA 1ЛГ
1 - принадлежит
2 1 принадлежит
- вероятно принадлежит
1 3 1 вероятно принадлежит
- вероятно не принадлежит
4 1 вероятно не принадлежит
- вероятно не принадлежит
1 - принадлежит
1 принадлежит
2 - вероятно принадлежит
4 вероятно не принадлежит
2 1 принадлежит
3 2,3 вероятно принадлежит
1 4 вероятно не принадлежит
4 1,2 вероятно принадлежит
3,4 вероятно не принадлежит
1 1,2 принадлежит
- вероятно принадлежит
2 1 принадлежит
3 - вероятно принадлежит
3 1 вероятно принадлежит
- вероятно не принадлежит
4 - не принадлежит
1 1,2 вероятно принадлежит
- вероятно не принадлежит
4 2 1,2 вероятно принадлежит
- вероятно не принадлежит
3-4 - ре принадлежит
В четвертой главе обсуждаются вопросы экспериментального моделирования атрибутной классификации, приводится структура программной модели (ПМ) и результаты анализа проведенных на ней экспериментов.
ПМ включает базу данных, хранилище документов, хранилище текстов, подсистему распознавания и преобразования документов. В ней организуется пакетный режим конвертирования документов в текстовые форматы, выделение термов, определение дополнительной информации о документах. Взаимодействие ПМ с пользователями осуществляется через специальный интерфейс. Сама ПМ реализована в виде библиотеки на языке С# в платформе .NET.
Каждый документ, введенный в ПМ, сохраняется в хранилище документов, распознается и после этого в документе определяются функциональные области, термы и их встречаемость. Далее информация о документе сохраняется в базе данных. После моделирования близости документа тематикам принимается решение о классификации документа.
Для проведения экспериментов были составлены 14 тематик, обучающая и тестовая выборки, включающие научные статьи, книги и др. документы, представляющие область информатики. Суммарный объем выборок составил около 2000 документов, занимающих 20Gb памяти.
Эксперимент 1. Настройка классификатора - определение порогов классификации для тематик. В первичной ОВ всем тематикам приписано по 11 обучающих документов. При прогоне классификатора по ОВ для 8 из 14 тематик пороговое значение АКФ оказалось меньше 0.5. Поэтому проведена коррекция ОВ путем добавления в 5 из 14 тематик по 3 документа. Кроме того, в описания всех тематик добавлены термы из предметных указателей и глоссариев книг. После коррекции результаты классификации стали удовлетворительными. Результат настройки классификатора показан ниже на рисунке 1.
Здесь пунктирной линией обозначены пороги классификации тематик до коррекции, а сплошной линией - после коррекции.
Эксперимент 2. Оценка полноты и точности классификации по тестовой выборке.
Пусть Д„, = и Д"„, | Ус, е С, с, ^ с Д^, П £>,1, = 0 - тестовая выборка, а
сеС
|<с1,с,^л >, г/ е Д^,} - экспертные оценки близостей ¿^ документов тематикам,
- множество документов из ТВ, соответствующих тематике с по мнению
экспертов, Вс - множество документов, отнесенных в тематику с классификатором и ОуС// ■ множество документов, правильно отнесенных к тематике с. Пусть |с/|
- объем документа с! в числе термов. С учетом выше изложенного характеристики качества классификации сформируем следующим образом:
\ - гг ^
а) полнота для одной тематики II = ^ ^ |;
111М-6)
Ь) полнота для классификатора П2 =
с <1еО',
с) точность для одной тематики Е •
2 I И
с
I(<н)
„ С
а) точность работы классификатора = /. , ^.
2. 2. И'&Л
с </еД<
Определение качества классифицирования проводилось отдельно для однословных и многословных термов. Многословные термы состояли от 1 до 3 слов. Результат классификации на тестовой выборке, составленной из 187 книг, представлен на рисунке 2.
Полнота?
Точность
Тематики |инф°1>
^Основы! ры ; Лро(р* :длнныя
АЧГОрНТ МЫ
ммп|>0 : ванне '
Полнот* 1 : 0.6829: 0.75 ; 0.65 ;05<И7 0.5454:0.5862
Полной 0 5787 08012 06752 0 5475 0 6024 06475
Точность 1 0.8 0.625 0.7647 10.7916 0.6666 :0.8947
Точность 2 0.815 ! 0.729 0,818 I 0.786 0.701 I 0.881
Теории
ПрОфА проект
ммиро вами? \vimlo пр нло>ь Сетев е Т*ХМ0 огш ИРОВ4Н мя, реа яи»ацн Я II сопро» СУБД Чяыкм МП рос о» 501 Архнте «тура :-ем Операц ионные систем ы Защита мнфор мации
1'(1ИМ ожден иеЬД
0.6428 0.6666 0.5 0.5166 0.55 0.6666 0.5 06Я5
0 5428 0.7944 0 5244 .1 5 ' 0.64 75 0.6066 0.611 0 675
0 (Л2 5 0.6666 0 62 5 0.7)81 0.6111 О.бббь 0 6565 0 5217
0 604 0.756 0.6666 0.86 0.6« 0.647 0.712 0 611
Рисунок 2. Оценка качества атрибутной классификации.
Среднее значение полноты классификации в случае использования однословных термов (полнота 1) составил 61%, в случае использования многословных термов (полнота 2) - 65%. Среднее значение точности классификации при использовании однословных термов (точность 1) составило 64%, в случае многословных термов (точность 2) - 73%. Таким образом, точность классификации
на прямую связана с возможностями выделения термов лингвистическим обеспечением классификатора.
В заключении приводятся основные научные результаты, полученные в диссертационной работе, и формулируются выводы.
1. Проведено исследование существующего состояния теоретических и практических исследований в области классификации, которое показало, что при анализе документов не в полной мере интегрально учитываются атрибутные составляющие документов для построения классифицирующей функции. Сделан вывод о том, что учет информации из атрибутных характеристик документов мог бы существенно повысить точность классифицировании в условиях неполной информации по основному содержанию документов.
2. Для цели диссертационного исследования сформулированы основные терминологические понятия из области классификации, дана их содержательная и математическая интерпретация, выбран основной математический инструментарий, который учитывает модели представления документов и методы их анализа.
3. Предложена модифицированная модель описания документа, которая наряду с описанием основного текста содержит ряд дополнительных атрибутов, таких как описания названия, авторов, аннотации, глоссариев и пр., а также таких атрибутов как УДК, ISBN и пр., которые соответствуют данному типу документов.
4. Предложена модифицированная модель описания тематики, атрибутивно согласованная с предложенной моделью описания документа, что позволяет устанавливать между ними степени близости по однотипным атрибутам описаний.
5. Разработана конструкция классифицирующей функции Ф , аргументами которой являются частичные функции близости g,, g2, g3, g4. Предложено функцию Ф представлять в виде линейной комбинации частичных функций близости, нормализованной на интервале [0,1]. Каждая такая функция отражает частичную близость документа тематике на основе типов: "текст" «-»"текст", "текст"«-»"экспертное знание", "экспертное знание"<-»"экспертное знание" и дополнительных атрибутов множеств описания. Введено понятие базового классификатора, обладающего минимальной точностью, а также сформулированы требования в виде лемм к структуре правильно построенной обучающей выборки.
6. Сконструирована обобщенная функция важности термов и предложено формировать атрибутные множества на основе разработанного в диссертации алгоритма извлечения термов.
7. Сформулированы правила и построена процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции. Настройка коэффициентов доверия и порогов классифицирующей функции сформулирована в виде оптимизационной задачи.
8. На основе решения данной оптимизационной задачи разработана методика коррекции обучающей выборки.
9. Предложено представление классифицирующей функции в виде лингвистической переменной и построены правила нечеткого логического вывода, позволяющие существенно упростить переобучение классификатора путем коррекции нечетких переменных и/или правил логического вывода.
10. Разработана программная модель для моделирования разработанного атрибутного классификатора и на ней поставлены ряд экспериментов. Результаты экспериментов подтвердили полученные в диссертации теоретические выводы.
ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ
1. Ха Т.Ч. Разработка алгоритма сбора и классификации документов в поисковой машине на основе нечеткой логики // Сборник трудов VIII Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления (КРЭС'06)" - Таганрог: Изд-во ТРТУ, 2006г. -с. 253-254.
2. Ха Т.Ч. Разработка системы обработки текстовой информации на основе алгебраических методов с учетом семантических характеристик текста. // Сборник трудов Всероссийской научной школы- семинара молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки". - Таганрог: Изд-во ТТИ ЮФУ, 2007г.-с. 61-65.
3. Ха Т.Ч. Учёт особенностей вьетнамского языка в системе русско-вьетнамского (вьетнамско-русского) машинного перевода. // Известия ЮФУ. Технические науки. Тематический выпуск «Интеллектуальные САПР».- Таганрог: Изд-во ТТИ ЮФУ. № 2 (77). 2007.-е. 206-210.
4. Ха Т.Ч. Разработка автоматизированной модели каталогизации документов в информационной образовательной системе. // Сборник трудов V Всероссийской конференции студентов, аспирантов и молодых ученых "Технология Microsoft в теории и практике программирования". -Таганрог: Изд-во ТТИ ЮФУ, 2008г. -с. 122-125.
5. Ха Т.Ч., Юрчук С.Н., Создание текстовой выборки на основе электронного архива данных лаборатории ELDIC для исследования задач автоматической обработки текстов на естественном языке. // Сборник трудов всероссийской научной школы-семинара молодых ученых, аспирантов и студентов: "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки". -Таганрог: Изд-во ТТИ ЮФУ, 2008г. -с. 82-86.
6. Ха Т.Ч. Разработка моделей представления документов и классификатора на основе нечеткой логики. // Известия ЮФУ. Технические науки. Тематический выпуск "Интеллектуальный САПР".-Таганрог: Изд-во ТТИ ЮФУ, 2008. -№9(86). -с. 139-144.
7. Ха Т.Ч. О проблеме извлечение термов из текста в задаче автоматизированной классификации документов. // Сборник трудов VI Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системный анализ и управление". Таганрог: Изд-во ТТИ ЮФУ, 2008г. -с. 30-33.
В работе [5], написанной в соавторстве, программная модель интегрирования с известными решениями для распознавания текстов является личным вкладом автора.
Технологический институт Южного федерального университета в г. Таганроге
347928, Ростовская область г. Таганрог, пер. Некрасовский 44.
Оглавление автор диссертации — кандидата технических наук Ха Ти Чунг
ВВЕДЕНИЕ.
ГЛАВА 1. АНАЛИЗ ПРОБЛЕМ ТЕМАТИЧЕСКОЙ КЛАССИФИКАЦИИ, ПОСТАНОВКА ЗАДАЧИ СОЗДАНИЯ АТРИБУТНОЙ КЛАССИФИКАЦИИ.
1.1. Основные понятия и терминология.
1.2. Выбор математического инструментария для представления текстов.
1.3. Обзор классических методов текстовой классификации и кластеризации.
1.4. Анализ основных проблем в области тематической классификации.
1.5. Выводы.
ГЛАВА 2. РАЗРАБОТКА МОДЕЛЕЙ ОПИСАНИЕ ДОКУМЕНТОВ И ТЕМАТИК.
2.1. Выбор атрибутов классификации.
2.2. Разработка модели описания документов.
2.3. Разработка модели описания тематик.
2.4. Общий подход к построению классификатора.
2.5. Выводы.
ГЛАВА 3. РАЗРАБОТКА МОДЕЛИ КЛАССИФИЦИРУЮЩЕЙ ФУНКЦИИ И МЕТОДОВ ЕЕ НАСТРОЙКИ.
3.1. Модель классифицирующей функции.
3.2. Анализ порогов классификации и требований к структуре правильной обучающей выборки.
3.3. Представление частичных функций близости.
3.4. Формирование описания документа.
3.5. Формирование атрибутных множеств тематик классификатора.
3.6. Настройка классифицирующей функции путем подбора коэффициентов доверия.
3.7. Построение классифицирующей функции с использованием понятия лингвистической переменной.
3.8. Выводы.
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ АТРИБУТНОЙ КЛАССИФИКАЦИИ.
4.1. Структура экспериментальной модели.
4.2. Метод обработки функциональных областей и нормализация текста.
4.3. Извлечение термов из документа.
4.4. Экспериментальное исследование атрибутной классификации.
4.5. Выводы.
Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Ха Ти Чунг
В последнее время интенсивно возрастает объем электронных изданий и документов, в интернете, локальных сетях, электронных' библиотеках, электронных каталогах и др. Так, например; по некоторым оценкам'объем цифровой информации в интернет удваивается каждый год [31]. Однако ограниченные возможности инструментариев поиска информации и ее классифицирования существенно затрудняет пользователю обращение, к релевантной его запросу информации;
Проблема" разработки эффективных , подходов к тематической классификации; документов стала сегодня объектом серьезных исследований. В рамках этой проблемы был разработан и предложен; ряд подходов, связанных с:
- выделением? и извлечением информационных объектов, определением : их статистических, лингвистических и семантических характеристик;
- построением, ссмантико-тематической структуры; документов и тематик;
- тематической фильтрацией документов; '
- и пр.
Этой проблеме-посвящен также ряд конференций и семинаров. Среди них можно отметить такие авторитетные, как:
- TREC (Text'REtrieval Conference Text Retrieval Evaluation Conference);
- SIGIR (Special Interest Group on Information Retrieval) конференции ACM (Association of Computing Machinery);
- RCDL - ежегодная всероссийская конференция "Электронные библиотеки";
- РОМИП - ежегодный Российский семинар по оценке методов информационного поиска;
- "Диалог" - Международная конференция по компьютерной лингвистике.
Также следует отметить ежегодную школу-семинар "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки", проводимую в Технологическом институте Южного федерального университета международной лабораторией ELDIC (Educational Laboratory of Distant Informational Communications).
Существует большое число работ, посвященных методам тематической классификации. Впервые полный обзор методов тематической классификации сделан в работе [65]. В работах [2, 54, 70] проведен сравнительный анализ статистических подходов классификации. В работах [1, 2, 11, 12, 18] авторы, попытались раскрыть дополнительные аспекты тематической классификации, а также возникающие в ней проблемы, связанные с использованием текстов на русском- языке. Так, разработке и тестированию» текстовых классификаторов посвящены труды таких авторов, как Е. Han, G. Karypis [42, 43], Т. Joachims [47], D: Lewis [49, 50], H. Schutze [64], F. SebastianL[37, 65], Y. Yang [69-74], S. T. Dumais [39, 40; 58] G. Salton [59-62] и др. В России анологичными-исследованями* занимаются! В.И. Шабанов [2], А.Е Ермаков [12], И.Е. Кураленок [45], И.С. Некрестьянов [18] и ряд других исследователей.
Работы ряда авторов по тематической классификации посвящены методам машинного обучения. Среди этого направления- можно отметить метод k-ближайщих соседей (k-NN) [33], метод опорных векторов (Support vector Machine - SVM) [8, 36, 47], нейронные сети (Neural Network) [1, 48], байесовские методы [51], центроидный метод (Centroid-based) [42] и др.
Несмотря на то, что существует много работ по тематической классификации, тем не менее, на сегодняв общем случае данная проблема до сих пор не решена. .Поэтому разработка методов и систем автоматической тематической классификации документов остается, одной из актуальных проблем в области информатики.
Настоящёе диссертационное, исследование выполнено в рамках данного направления и направлено на разработку и исследование моделей; и методов атрибутной тематической классификации документов.
Предметом диссертационного» исследования? является тематическая . , . , » классификация-документов.
Цель диссертационного» исследования. Разработка и исследование методовшостроения атрибутного тематического классификатора документов.
Для; достижения1 поставленной- цели в диссертации решаются? следующие основные задачи:
1. Построение и исследование моделей^ атрибутного описания документов, и тематик,, отличающихся; от известных моделей тем, что; традиционная; совокупность классификационных признаков дополнена атрибутными функциональными характеристиками.
2'.Разработкам способа? построения! классифицирующей; функции на основе: частичных функций близости атрибутных множеств документов; и тематик. ' ■ ." ' .
3. Разработка методов, построения* обучающих выборок, методов обучения* и настройки атрибутного классификатора' для тематической! классификации документов; .
4. Построение программной модели для экспериментального' исследования атрибутного классификатора и апробации теоретических выводов результатов.
5. Проведение экспериментального моделирования и исследования, разработанного атрибутного классификатора.
Методы диссертационного исследованиям Для решения выше перечисленных задач- в; диссертационном.исследовании использованы методы-математического и комбинаторного .анализов; методы нечеткой логики, методы; оптимизации, методы статистического анализа; методы лингвистического анализа; технология программированияl >
Научная новизна полученных результатов: Состоит в следующем:
1. Предложена модифицированная модель описания документа, которая отличаются от известных моделей тем, что наряду с описанием основного текста содержит ряд дополнительных атрибутов, таких как описания названия, авторов, аннотации, глоссариев и пр., а также таких атрибутов как ISBN, УДК, ББК и пр., которые соответствуют данному типу документов.
2. Предложена модифицированная модель описания тематики, атрибутивно согласованная с предложенной моделью описания документа, что позволяет устанавливать между документами и тематиками степень близости по однотипным атрибутам описаний.
3. Разработана классифицирующая функция на основе линейной комбинации частичных функций близости по типу "текст" <->"текст", "текст" «-^"экспертное знание", "экспертное знание"-«-^"экспертное знание", "описательные атрибуты"<->-"описательные атрибуты" Классифицирующая функция на основе частичных функций близости по типу "текст"<->"текст", "текст"<->-"экспертное знание", "экспертное знание"<->-"экспертное знание", "описательные атрибуты"<->"описательные атрибуты", которая в отличие от известных позволяет учитывать информацию из дополнительных атрибутов документов и тематик, а также введено понятие базового' классификатора, обладающего минимальной точностью.
4. Сформулированы в виде лемм требования к структуре правильно построенной обучающей выборки, правила и процедура обучения j классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи и разработаны методики коррекции обучающей выборки, что позволяет организовать обучение и настройку разработанного атрибутного классификатора.
5. Представлена классифицирующая функция в виде лингвистической переменной, а построенные правила нечеткого логического вывода используются для классификации, что позволяет существенно упростить переобучение атрибутного классификатора путем коррекции нечетких переменных и/или правил логического вывода.
Практическая ценность результатов диссертационной работы состоит в том, что разработанные методики построения описания документов и тематик, классифицирующей функции, методы ее настройки и обучения прошли экспериментальное моделирование и могут быть непосредственно использованы для построения эффективных тематических классификаторов.
Практическая значимость диссертации подтверждается актами о внедрении результатов исследования в рамках работ по госбюджетной НИР №12456 "Исследование и разработка гибридных логико-математических и нечетко-лингвистических моделей задач искусственного интеллекта, информационного поиска и распознавания образов" и учебном процессе по дисциплине "Организация электронных архивов данных" магистерской программы "Интеллектуальные системы" по направлению 230100 "Информатика и вычислительная техника" факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Предлагаемая модель тематического атрибутного классификатора была программно реализована и внедрена в научно-исследовательский процесс лаборатории ELDIC.
На защиту выносятся следующие результаты диссертационного исследования:
1. Атрибутные модели описания документа и тематики.
2. Классифицирующая функция на основе частичных функций близости по типу "текст" <->"текст", "текст"<->"экспертное знание", "экспертное знание"<->"экспертное знание" и "описательные атрибуты"<-»"описательные атрибуты".
3. Методы построения обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи, методика коррекции обучающей выборки на основе решения оптимизационной задачи.
4. Представление классифицирующей функции в виде лингвистической I переменной и правила нечеткого логического вывода для классификации.
Апробация работы. Основные результаты работы докладывались на:
- VIII Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления (КРЭС'06)" (Таганрог, ТРТУ, 2006г);
- Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2007г);
- Всероссийской научной школе-семинаре молодых ученых, аспирантов -и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2008г);
- VI Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системы анализ и управление" (Таганрог, ТТИ ЮФУ, 04-05 декабря 2008г).
Публикации автора по теме диссертации. По теме диссертации автором опубликовано 7 печатных работ, в которых отражены основные результаты диссертации, в том числе одна статья в издании из списка, рекомендованного ВАК.
Структура и объём работы. Диссертация включает введение, четыре главы, заключение, список литературы и три приложения. Объем диссертации 136 страниц, список литературы содержит 75 наименований.
Заключение диссертация на тему "Разработка и исследование методов построения атрибутного тематического классификатора документов"
4.5. Выводы
Таким образом, в главе разработана программная модель для экспериментального моделирования разработанной атрибутной классификации и на нем поставлен ряд экспериментов, результаты которых подтвердили полученные в диссертации теоретические результаты.
В рамках экспериментального исследования атрибутного классификатора получены следующие результаты:
1. Представлена общая функциональная схема программной модели для проведения экспериментов по атрибутной классификации, описаны ее функциональные части и приведено пояснение работы подсистем. Приведенное описание этапов разработки системы позволяет рассмотреть практические проблемы, аспекты реализации и использования предложенных моделей, методов и алгоритмов.
2. Разработан и реализован программно метод определения функциональных областей документа. Метод использован при построении подсистемы ПАИ программной модели. Экспериментальное апробирование показало его хорошую работоспособность.
3. Разработан и реализован программно метод нормализации для очистки текстов и разбиения' текста на предложения. Метод использован при построении подсистемы ПАИ программной модели. Экспериментальное исследование данного метода показало его хорошую работоспособность.
4. Разработан и реализован программно метод выделения термов с подсчетом встречаемости термов в тексте по правилу сопоставления слов с синтаксическими группами. Данный метод использован, для' формирования описаний документов и тематик в подсистеме ПАИ' программной, модели. Экспериментальное исследование данного метода показало, чтоон показывает приемлемые результаты выделения > однословных и> многословных термов. Однако точность его работы существенно влияет на точность классификатора'.
5. Для- программной модели были созданы обучающие и- тестовые выборки и на них поставлены эксперименты, результаты которых проанализированы и сведены в таблицы. Эксперименты показали, что предложенные модели и методы позволяют создать на практике вполне приемлемый атрибутный классификатор документов по тематикам. Однако результаты экспериментов также показывают, что классификатор должен обладать хорошими лингвистическими средствами, которые существенно влияют на его точность.
Таким образом, экспериментальные результаты, проведенные на разработанной* программной модели, подтвердили основные теоретические положения; полученные в диссертационной работе.
ЗАКЛЮЧЕНИЕ
В настоящее время вопросы автоматической обработки текстовой информации являются очень актуальными. Диссертационное исследование выполнено в рамках данной тематики и посвящено разработке методов тематической классификации документов. В диссертационной работе разработаны и исследованы методы построения атрибутного тематического классификатора документов, в рамках чего получены следующие теоретические и практические научные результаты:
1. Проведено исследование существующего состояния теоретических и практических исследований в области классификации, которое показало, что при анализе документов не в полной мере учитываются атрибутные составляющие документов для построения классифицирующей функции. Сделан вывод о том, что учет информации из атрибутных характеристик документов мог бы существенно повысить точность классифицировании в условиях неполной информации по основному содержанию документов. Этот вывод составил существо предмета диссертационного исследования.
2. Для цели диссертационного исследования сформулированы основные терминологические понятия из области классификации, дана их содержательная и математическая интерпретация, выбран основной математический инструментарий, который учитывает модели представления документов и методы их анализа;
3. Предложена модифицированная модель описания документа, которая наряду с описанием основного текста содержит ряд дополнительных атрибутов, таких как описания названия, авторов, аннотации, глоссариев и пр., а также таких атрибутов как ISBN, УДК, ББК и пр., которые соответствуют данному типу документов;
4. Предложена модифицированная модель описания тематики, атрибутивно согласованная с предложенной моделью описания документа, что позволяет устанавливать между ними степени близости по однотипным атрибутам описаний;
5. Разработана конструкция классифицирующей функции Ф, аргументами в которой являются частичные функции близости gx, g2, g3, g4. Предложено функцию Ф представлять в виде линейной комбинации частичных функций близости, нормализованной на интервале [0,1]. Каждая такая функция отражает частичную близость документа тематике на основе типов: "текст"<-»"текст", "текст"*->"экспертное знание", "экспертное знание"<->"экспертное знание" и дополнительных атрибутов множеств описания. Введено- понятие базового классификатора, обладающего-минимальной точностью; а также сформулированы требования в виде лемм к структуре правильно построенной обучающей выборки;
6. Сконструирована обобщенная функция; важности термов и предложено формировать атрибутные множества на основе разработанного в, диссертации алгоритма извлечения термов.
7. Сформулированы правила и построена процедура обучения-классификатора путем- настройки коэффициентов доверия и порогов классифицирующей функции. Настройка коэффициентов, доверия и порогов классифицирующей функции сформулирована в» виде оптимизационной задачи.
8. На основе решения данной оптимизационной задачи разработана методика коррекции обучающей выборки.
9. Предложено представление классифицирующей функции в виде лингвистической переменной и построены правила нечеткого логического вывода, что позволяет существенно упростить переобучение классификатора путем коррекции нечетких переменных и/или правил логического вывода.
10. Разработана программная модель для моделирования разработанного атрибутного классификатора и на ней поставлены ряд экспериментов. Для этого были созданы обучающие и тестовые выборки документов и на них поставлены эксперименты, результаты которых проанализированы и сведены в таблицы. Данные результаты подтвердили полученные в диссертации теоретические выводы и показали, что предложенные в диссертации модели и методы позволяют создать на практике вполне приемлемый атрибутный тематический классификатор. Результаты экспериментов также показали, что классификатор должен обладать хорошими лингвистическими средствами выделение термов, которые существенно улучшают его точность.
Таким образом, разработанные методы атрибутной тематической классификации документов позволяют значительно повысить точность и адекватность тематической классификации.
Модели и методы, предложенные в диссертационной работе, могут быть применены на практике в областях информатики, для которых важен поиск документов и их тематической классификации.
Библиография Ха Ти Чунг, диссертация по теме Теоретические основы информатики
1. Андреев A.M., Березкин Д.В., Сюзев В:В., Шабанов В.И. Модели и методы автоматической классификации, текстовых документов // Вестник МГТУ. Сер. Приборостроение; Mi:Изд-во МГТУ.-2003;-№3.
2. Блюмин С.Л., Шуйкова И.А., Сараев П.В., Черпаков КВ. Нечеткая логика: алгебраические основы и^ приложения: Монография. Липецк: ЛЭГИ, 2002. - 113 с.
3. Браславский П.ИСоколов Е.А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2006. М.: Изд-во РГГУ, 2006. с. 88-94.
4. Ветров Д.П., Кропотов Д.А. Алгоритм выбора моделей и .построения коллективных решений в задачах классификации, основанные на принципах устойчивости — М.: КомКнига, 2006 — 112 с.
5. Заде JI.A. Понятие лингвистической переменной и его применение к принятию приближенных решений. М.: Мир, 1976. 165 с.
6. Заде JI.A. Основы нового подхода к анализу сложных систем и процессов принятия решений.- В кн.: Математика сегодня.- М.: Знание, 1974, с. 5-49.
7. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000: -N11.- с. 81-93.
8. М.Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задачечслассификации // Информационные технологии. 2000. - N 12. - с. 40-61.
9. ХЪ.Исенбаева Е.Н. Симплекс-метод решения задачи линейного программирования: Методические указания к проведению практических занятий по курсу "Системный анализ". Ижевск: Ижевскийтос. техн. ун-т, 1999? - 14 с.
10. Когаловский М.Р. Перспективные технологии информационных систем. -М.: ДМК Пресс; М.: КомпаншгАйТи, 2003. 288 с.15 .Кузнецов А.В., Сакович В. А'., Холод Н.И. Высшая математика: Математическое программирование. Минск: Высшая школа, 1994.
11. Лобанов Б.М. Алгоритм сегментации текста на синтаксические синтагмы для синтеза речи, http://vmw.dialog-21.ru/dialog2008/materials/html/50.htm
12. Мелихов А.Н., Бернштейн Л.С., Коровин С.Я. Ситуационные советующие системы с нечеткой логикой. — Mi: Наука, Гл.ред. физ.мат. лит., 1990. — 272 с.
13. Некрестьянов И.С., Добрынин В.Ю., Клюев В.В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции "Электронные библиотеки". Протвино, 2000. - С. 204-210.
14. Нечеткие множества в моделях управления и искусственного-интеллекта // Под ред. Д. А. Поспелова. -М.: Наука, 1986. 311 с.
15. Рыбаков Ф.И., Руднев Е.А., Петухов В.А. Автоматическое индексирование на естественном языке — М.: Энергия, 1980. —160 с.
16. Солтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. — М.: Советское радио, 1973. 560 с.
17. Черный А.И. Введение в теорию информационного поиска. "Наука" -М., 1975.240 с.
18. Ха Т.Ч. Учёт особенностей вьетнамского языка в системе руссковьетнамского (вьетнамско-русского) машинного перевода. // Известия
19. ЮФУ. Технические науки. Тематический выпуск «Интеллектуальные
20. САПР».- Таганрог: Изд-во ТТИ ЮФУ. 2007. № 2 (77). -с. 206-210. t «
21. Ярушкина Н.Г. Основы теории нечетких и гибридных систем: Учеб. пособие. -М.: Финансы и статистика, 2004. -320 с.
22. Broder A. Z., Najork М., and Wiener J. L. 2003. Efficient URL caching for World Wide Web crawling. In Proceedings of the twelfth international conference on World Wide Web (WWW2003). Budapest, Hungary, p. 680-689.
23. Baker L.D., McCallum A. Distributed clustering of words for text classification. // II Proc. ICML-98. Toronto, 1997 - P. 359-367.
24. Belur V. Dasarathy. Nearest Neighbor (NN) Norms: NN Pattern Classification • Techniques. McGraw-Hill Computer Science Series. IEEE Computer Society
25. Press, Las Alamitos, California, 1991.
26. Billsus D., Pazzani M. Learning probabilistic user models. // Proceedings of the Conference in Information and Knowledge Management. Berlin, 1998 -Pp.656-669.
27. Cooper W.S. On selecting a measure of retrieval effectiveness // Journal of the American Society for Information Science. Hampton, 1973. - P. 65-79.
28. Cristianini N., Taylor J.S. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000.
29. Han E., Karypis G., Kumar V. Text categorization using weight adjusted k-nearest neighbor classification. // 16th International Conference on Machine Learning Denver, 1999. - P. 41-56.
30. Haris z., Mathematical Structures of Language. Interscience Publishers John Wiley & Sons, New York. 1968. -80. 230 p.
31. James A. Danowski. Wordij: A word-pair approach to information retrieval. In TREC, pages 131-136, 1992.
32. Joachims T. Text Categorization with Support Vector Machines: Learning with many relevant Features. In Proc. of the European Conference on Machine Learning, 1998.
33. Natural language workshop. Boston, 199h - P. 312-318.
34. Lewis D. Evaluating and optimizing autonomous text classification systems. // Proceedings of the 8th Annual Internationali ACM-SIGIR Conference on Research and Development in Information Retrieval. — Seattle, 1995. P. 246254.
35. McCallum A., Nigam К A Comparison of Event Models for Naive Bayes Text Classification // In AAAI -98 Workshop on Learning for Text Gategorization.-Madison, 1998: Pp. 541-560.
36. Mikheev A. Feature lattices and maximum entropy model.// Machine learning. -Stanford, 1999.1 -p. 39-52.
37. Monson L. Classifying Text with ID3 and'C4.5. // Dr Dobbs Journal. 1997. №10. Pp. 117-119.
38. Moulinier L. A framework for comparing text categorization approaches. // Journal of the American Society for Information Science. New York, 2000. №5.-P. 170-179. •
39. Nigam K, Lafferty J., McCallum A. Using maximum entropy for text classification. // AAAI-98 Workshop on Learning1 for Text Categorization. -Madison, 1998.- P 76-95.
40. Rocchio J.J. Document Retrieval Systems Optimization and Evaluation. Ph. D. thesis. - Cambridge (Mass). - 1966. - 19 p (Scientific Report № ISR-10, Harvard Computation Laboratory).
41. Robert Krovetz and W. Bruce Croft. Lexical ambiguity and information, retrieval. Information Systems, 10(2): 115—141, 1992.
42. Sahami M., Dumais S., Heckerman D., Horvitz E. A Bayesian Approach to Filtering Junk E-mail//Journal of ACM. 2000. №9(54). Pp. 240-257.
43. G. Salton, J. Allan, and C. Buckley. Approaches to Passage Retrieval in Full Text Information Systems. In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 49-5 8,1993.
44. Salton G. Automatic text processing: the transformation, analysis and retrieval information by computer // ACM SIGIR Conference on Research and Development in Information Retrieval. -Cambridge, 1989: P. 109-131. .
45. Salton G:, McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.
46. Salton G, Buckley C. Term-Weighting Approaches in Automatic Text Retrieval. // Information Processing and Management, —1988 — pp. 513-523'.
47. Sato S., Sasaki Y. Automatic Collection of Related Terms from the Web // The Companion Volume to the Proceedings of 41st Annual Meeting of the ACL, Sapporo, Japan, 2003. P. 121-124.
48. Schutze H., Hall D., Petersen J., A Comparison of classifiers and document representations for the routing problem. Proc. of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '95), 1995.
49. Sebastiani F. Machine Learning in Automated Text Categorization. ACM Computing Surveys, 34(1): 1-47, 2002.
50. Sugeno M, Tagaki Т., Fuzzy Identification of Systems and its Applications to Modelling and Control, IEEE Trans, on Systems, Man & Cybernetics, Vol: 15, pp. 116-132, 1985.
51. Vapnik V. Statistical Learning Theory. Wiley, 1998.
52. Wiener E., Pedersen J.O., Weigend A.S. A neural network approach to topic potting. // Proceedings of the Forth Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, 1995. P. 65-74.
53. Yang Y.} Chute G. An Example-based mapping method for text categorization and retrieval. ACM Transaction on Information Systems (TOIS), 1994. Pp 252177.
54. Yang Y. An evolution of statistical approaches to text categorization. Journal of the ACM. 1997. Vol. 29 (№1). Pp 18-46.
55. Yang Y., Xin Liu. A Re-Examination of Text Categorization Methods. Proc. of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '99), 1999.
56. Yang Y., Petersen J. A comparative study on feature selection in text categorization. In International Conference on Machine Learning (ICML), 1997.
57. Yang Y., Wilbur J. Using corpus statistics to remove redundant words.an text categorization. Journal of the American Society for Information Science, 1996. Pp 47(5):357-369.
58. Yang Y., Ault Т., Pierce T. Improving text categorization methods for event tracking. // http://www.cs.cmu.edu/-yiming/. 1995. Pp. 2-14.
59. Zipf G. K. Human Behaviors and the Principle of Least-Effort. — Cambridge , MA: Addison-Wesley, 1949.
-
Похожие работы
- Автоматическая генерация тестов для семантических анализаторов трансляторов
- Реализация атрибутных грамматик в технологии SYNTAX
- Разработка инструментальных средств автоматизации проектирования трансляторов перспективных языков программирования для векторно-конвейерных ЭВМ
- Системы автоматизации построения трансляторов и их применение для эффективной реализации языков программирования
- Разработка и исследование моделей представлениякартографической информации для построенияоптимальных ГИС
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность