автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Методы кодирования текстовой информации для построения нейросетевых классификаторов документов
Автореферат диссертации по теме "Методы кодирования текстовой информации для построения нейросетевых классификаторов документов"
На пргшах рукописи
ГЧ; ОД
'I J
Корж Василий Вадимович
МЕТОДЫ КОДИРОВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ ДЛЯ ПОСТРОЕНИЯ НЕЙРОСЕТЕВЫХ КЛАССИФИКАТОРОВ ДОКУМЕНТОВ
05.13.06 — Автоматизированные системы управления
Автореферат диссертации на соискание ученой степени кандидата технических наук
/ „.
Автор
Москва 2000
Работа выполнена в Московском государственном инженерно-физическом институте (техническом университете)
Научный руководитель: кандидат технических наук, доцент
Жигирев H.H.
Официальные оппоненты:
доктор технических наук, профессор Горбатов В.А.
кандидат технических наук, доцент Вязьмин С.А..
Ведущая организация:
ЦНИИ управления; экономики и информации минатома России (ЦНИИАтоминформ)
Защита состоится
2000 г. в
часов на заседании
диссертационного совета Д-053.03.04 в Московском государственном инженерно-физическом институте (техническом университете) по адресу: 115409, Москва, Каширское ш., 31, тел.: 324-84-98, 323-91-67.'
С диссертацией можно ознакомиться в библиотеке Московского государственного инженерно-физического- института (технического университета) : 115409, Москва, Каширское ш., 31.
Автореферат разослан "¿3" 2000 г.
Просим принять участие в работе совета или прислать заверенный печатью отзыв (в одном экземпляре).
Ученый секретарь диссертационного совета
< печати " //" Qj) 2000 г. Заказ
Подписано к Типография МЙЗД1, Каширское ш., 31.
-РИЗ. -?<f О
В.Э Вольфенгаген
.Тираж 100 экз.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность теш
Диссертационная работа посвященг. актуальной томе — разработке, эффективного математического и программного инструментария для решения задачи классификации текстов на основа комбинаторного анализа частотных свойств информационных признаков классов текстов.
Задача классификации ставится следующим образом. Многомерное пространство признаков разделено на несколько областей, называемых классами. Область, соответствующая каждому классу, может иметь произвольную форму. Для некоторых об-ъектов этого пространства (обучающей выборки) известна принадлежность к классам, а для других ее требуется определить, используя данные обучающей выборки.
Классифицируя документ, человек (автор или эксперт), как правило, прочитывает документ, проводит индексацию текстов, составляет списки ключевых, слов, заполняет архивные поля (автор, атрибуты изданий и другие информационные параметры документов), осуществляет предобработку документов для последующего анализа текста. Практика изучения процессов, связанных с классификацией текстов, показала, с одной стороны, необходимость выделения информационных признаков классов текстов, с другой стороны, необходимость разработки математических моделей и вычислительных процедур, позволяющих построить оптимальный классификатор текстов.
Существующие подходы к решению задачи классификации предполагают наличие в системе обработки текстов автоматического словаря, отражающего предметную область. Специфика объекта исследования и сформулированные в работе принципы построения системы классификации налагают ограничения на использование традиционных словарей при автоматической классификации текстов.
Эффективность решения задачи классификации может быть существенно повышена За счет сопряжения классических методов и алгоритмов обработки текстов с методами нейрокомпьютинга. Нейрокомпьютеры, классическое программирование которых заменяется обучением, обнаружили высокую производительность, а также помехо- и отказоустойчивость получаемых с их помощью решений для широкого ряда
многомерных нелинейных задач. Эффективность нейрокомпьютеров связана с тем, что обученные нейронные сети представляют собой вычислительную среду, являющуюся одновременно и коллективным процессором, и ассоциативной памятью, хранящей обобщенный опыт решения задач, приобретенный в процессе обучения.
Объект исследования
Объектом исследования данной диссертации являются большие оперативные потоки короткой неструктурированной.текстовой информации на русском языке, такие как сообщения информационных агентств, информация Internet {FAQ, Chat и т.п.), статьи иэ периодической печати, телеграфные и телетайпные сообщения и т.п. Такие сообщения могут содержать сленг, орфографические ошибки, неологизмы, раэлич-норусифицированныа иностранные термины, технические искажения и т.д. "
Цель работы
Целью проведения научных исследований является создание математического и программно-алгоритмического обеспечения процедур кодирования текстов, а также применение разработанных процедур для решения практических задач текстовой классификации.
Для достижения поставленной цели в работе:
• исследованы классические и нейросотевые методы обработки текстовой информации;
• предложены оригинальные методы кодирования текстовых документов .для их последующей классификации; .
• создано программно-алгоритмическое обеспечение решения задачи классификации текстов;
• решена задача классификации русскоязычных текстов. *
Методы исследования -
При разработке математического и программно-алгоритмического обеспечения в диссертационной работе используются методы нелинейной оптимизации, теории функций, теории чисел, классические методы обработки текстовой информации и классификации, методы, обучения нейронных сетей.
Научная новизна
Новизна заключается в следующая:
• показано, что эффективность решения задачи класс-лфикации текстов может быть существенно повышена за счет сопряжения классических алгоритмов с методами нейросетевого моделирования ;
• предложены и разработаны оригинальные методы кодирования текстовых документов множествами и кортежами, выделяющие п текстах характерные классификационные признаки, что позволило построить нейросетевые способы решения задачи классификации.
Практическая ценность
Выполнен анализ исследований и разработок в области использования нейрокомпьютеров в задаче обработки и классификации текстов, в результате чего:
• предложена и разработана методика построения адаптируемых нейросотезых классификаторов текстов ;
• решены практические задачи классификации русскоязычных текстов .
По тематике диссертационной работы выполнялись исследования по темам № 96-3-022-738 и К> 99-2-503-400 в МИФИ (ТУ) . Эти исследования подробно описаны в соответствующих отчетах о НИР. Разработанные инженерные решения были использованы в МИФИ
• при выполнении договорных работ "Разработка нейросетевых подходок для решения задач информационного поиска и комбинаторной оптимизации" между ВЧ № 54939 и МИФИ (ТУ) по тема !<"> 96-3022-738,
• при выполнении работ "Системы контроля и управления процессами п атомной энергетике и при разработка газовых месторождений" по теме № 95-2-503-400.
НА заеиту выносятся:
• теоретическое обоснование методики кодирбвания текстовой информации множествами и кортежами, позволяющей применять нейросетевые способы решения задачи классификации текстов;
5
• интерактивная процедура решения практических задач классификации текстов с использованием нейронных сетей.
Апробация раеоты
Теоретические положения и практические результаты были доложены на сладухкц-ос конференциях и семинарах:
• VII Международный научно-технический семинар "'Современные технологии в задачах управления, автоматики и обработки информации", Алушта, МАИ, сентябрь 1998;
• Всероссийская научно-техническая конференция "Нейроинформатика-99", Москва, МИФИ, январь 1999,-
• VIII Международный научно-технический семинар "Современные технологии в задачах управления, автоматики и обработки информации", Алушта, МАИ, сентябрь 1999;
• Всероссийская научно-техническая конференция "Нейроинформатика-2000", Москва, МИФИ, январь 2000.
Раскрытие результатов
Результаты диссертационной работы были раскрыты в б печатных работах и 7 отчетах о научно-исследовательских работах.
Достоверность результатов.
Достоверность научных положений, выводов и рекомендаций подтверждена результатами опытной эксплуатации, апробацией работы на научных семинарах и конференциях.
Структура и объем работы Диссертация содержит 4 главы, введение и заключение, 5 приложений, 19 рисунков, 18 таблиц.
Обший объем — 161 страница. Список использованных источников содержйт 92 наименования.
СОДЕРЖАНИЕ РАБОТЫ
Во введении приведена обшдя характеристика, и дано краткое содержание диссертационной работы.
В первой главе приведена постановка задачи классификации■ текстовых документов. '.
б ". v .'-л ..*"
Задача классификации ставится следующим образом. Пусть задано Ы-мерноа пространство признаков, каждая точка которого мо:кет быть представлена 11-мерным вектором Х=[Х1, . . . , х„] . И пусть это пространство разделено на К областей, называемых классами. Пусть . задано обучающее множество {Х,С}= {{Хш ,СШ} , . . . , ¡Хт ,С<71}}, где Х1'1 -точка в И-мерном пространстве признаков. С'" - метка класса, к которому принадлежит данная точка. Работа классификатора заключается в том, чтобы для каждой новой точки X1'1 указать класс ССХ1*1), к которому эта точка относится, иепоят-вуя для этого только данные иэ обучающего множества (Х,С).
Рассматриваются методы классификации, такие как байесовский классификатор, непараметрическиа методы классификации, методы классификации на нейронных сетях, снимающие полиномиальную сложность решения задачи вследствие комбинаторных проблем, связанных с большим . количеством вычислений и постоянной реорганизацией памяти а медленных чисто алгоритмических способах классификации. Для того, чтобы использовать хорошо обучаемые нейронные сети, целесообразно осуществлять предварительное преобразование входного пространства признаков в некоторое другое пространство так, чтобы, в этом пространстве классы становились линейно разделяемыми.
Семантический анализ потока текстов, проводимый для их классификации, затрудняют следующие особенности потока:
• индивидуальные особенности авторов текстов;
« специфические черты тематики текстов, включая изменчивость структуры текста от типа сообщений, источника информации и иных причин;
• динамика описываемых в текстах событий, изменчивость оценок излагаемых фактов;
» разное количество слов в предложении, абзаце, параграфе и т.п. ;
• наличие местоимений и синонимов;
• неравномерное распределение текстов по классам.
Проблемы, связанные с изложенными особенностями, при автоматической обработка текстов в большинстве случаев решаются привлечением традиционных словарей и тезаурусов, может быть не одной пред-
7
меткой области, и вследствие этого строящиеся семантические сета получаются неоднозначными.
Дополнительные проблемы при семантическом; анализе потока текстов вызывают следующие особенности потока:
• большой объем потока (тысячи текстов в день) ;
• неструктурированность текстов;
• малый размер текста (тексты коротки, как сообщения информационных агентств);
• орфографические ошибки (при исправлении их эксперту необходимо выбрать правильный из предложенных системой вариантов, правильный вариант может отсутствовать; система может распознать правильный вариант как ошибочный);
• разное информационное наполнение отдельных слов и словосочетаний (эксперту необходимо выбрать правильное значение);
• неологизмы, различнорусифицированные иностранные термины и имена собственные (отсутствуют в словаре).
Эти факторы приводят к нецелесообразности использования и отказу систем автоматической обработки текстов, построенных на основе традиционных словарей и тезаурусов
Рассматривается индексирование текстовой информации на основе частотной модели индексирования, модели индексирования, учитывающей различительную силу термина, и модели, основанной на оценке информативности термина.
В настоящей работа проводилось исследование возможности решения задачи классификации текстов исключительно на основе индексирования, построенного на частоте и различительной силе термина, без привлечения традиционных словарей. .
При технической постановке ¡задачи классификации текстовых документов рассматриваются возможные подходы к созданию автоматизированных систем обработки документов:
• ключевые слова;
• семантические сети; ..
• динамические гиперсети;
• лингвистические процессоры; - .
• нейросетевая обработка (многослойные НС, вероятностные НС, НС Кохонена, логические НС и др.).
Приведены конкретные решения задачи классификации текстов и отмечены их недостатки. Основной недостаток рассмотренных подходов и решений задачи классификации — наличие традиционных жестких словарей. • - -
Проведенный анализ различных подходов, используемых в определенной организации (Заказчик темы), к построению систем автоматической классификации текстов произвольной структуры позволил сформулировать основные' принципы построения системы классификации текстов.
1. Принцип максимальной автоматизации решения задач индексации и классификации.
2. Принцип закрытости структуры рабочих мест для алгоритмов предварительной обработки текстов.
3. Принцип совместимости системы обработки данных с имеющимися, в эксплуатации системами хранения и переработки информации.
В силу описанных выше особенностей анализируемых потоков текстов и сформулированных принципов построения системы классификации задача настоящей диссертационной работы формулируется следуговдс! образом. Необходимо создать процедуры разделения большого потока необработанных разнотипных документов произвольного формата на пе-ресекаюг.угеся классы, минимально ориентированные на системы четких словарных и фразеологических конструкций, а также на априорную .информацию о структура организации, проводящей окончательную обработку текстов.
При математической постановке задачи классификации текстовых документов приводятся определения основных используемых понятий, таких как слово, код, лексема, текст, класс.
При кодировании текстов кодируются слова, т.е. слону соответствует один или более кодов или код построен из одного или более слов.
Задано множество классов. Этот классификатор проблем может быть одно- или многоуровневым. Этим классам принадлежат техсты. Имеется обучающее множество русскоязычных текстов Т, каждый из текстов 1
помечен одной или несколькими метками классов. Необходимо для произвольного нового текста Ъ* указать список меток хлассов, к которым он должен быть отнесен, 'или же должно быть принято решение о том;> что текст не принадлежит ни к одному уже известному классу.
Критерием достижения цели в разработанной автоматизированной системе классификации текстов (АСКТ) как и в поисковых системах предлагается использовать полноту и точность.
Анализируется нейрокомпьютинг как способ решения сложных задач, какой является задача классификации.
Во второй главе предлагается использовать нейросетевую обработку текстов на основе индексирования, построенного на частоте и различительной силе термина, без привлечения традиционных словарей. В ней содержится формальное описание предложенных, методов кодирования текстовой информации:
• метод бионной системы кодирования текстов (рекомендуется применять, когда полнота и точность равноправны);
• метод самонастраивающегося словаря ключевых слов классов (рекомендуется применять, когда полнота важнее точности и нет возможности применения нейронных сетей),
а также описание и метода обучения нейронных сетей.
Проведено проектирование АСКТ. Разработаны функциональная модель и модель данных для реализации АСКТ на основа предложенных методов кодирования текстовой информации.
Метод бионной системы кодирования.
Существует счетное множество текстов : = ,..., ,.. .
Все тексты tn из состоят из идентифицируемых в соответствии с
определенной системой правил фрагментов (предложений, абзацев и
т.д.) , которые называются лексемами: = |,..., Хп ^ | . Количест-Iп обозначается ) . Каждая из лексем /!(11 ,
во лексем в тексте
состоит из Кп: слов : / = | СГ^,. р..., О",,; ^ | . Каждому сло-
10
ву (Тл; ^ может быть поставлено в соответствие непустое неупорядоченное множество информационных кодов Р111)!и , называемых бионаии:
В основе бионной системы 'кодирования лежит лингвистическая гипотеза о том, что смысловое значение слова обусловлено в первую очередь последовательностью согласных, составляющих, корень слова. Сотласгаго атзуки — костя!« языка. Гласные эвуэт* нужны только для'озвучивания.
Относительно первых
N текстов (обучающей выборки) множества
Т(АГ): НИ) — ,...,(д, | известно, что каждый из них отнесен к
одному или более классам текстов Ст из множества С^М) :
С^Л/) — {С)Су — 2) . На обучающей выборке отношении
7с(-/У) : С 7 * С принадлежности текста к классг.м
задано бинарной матрицей /{[.ДА] : Г = 1 , если текст ^
к классу С , и Г„ „. — О
для последующих текстов > Л^) значения заранее неизвест-
ны и определяются в хода эксплуатации АСКТ по мёре обработки вновь поступающих текстов.
Кодирование текстов и формирование признаков классов.
Бион (составной бион) — информационный код, построенный споци-алытм образом й получаемый на оснопе анализа символьного ряда, составляющего слово.
Все бионы образуют адаптивный словарь. Предлагается следующее правило образования бионов. Эта система для текстов русского языка базируется на следующих определениях:
• "согласная буква" = {Б, ..., Й, ..., Щ, _, *};
• "модификатор" = {А, ..., Я, Ъ, Ь, _, *};
• - ' 11
относится
• ."элементарный бион" = кортеж: <"согласная буква", "модифика- ,
юр"> без учета регистра буквы. * ' ' , '
Здесь " " — отсутствующая. согласная буква или отсутствующий модификатор; "*" — неопределенная согласная буква или неопределенный модификатор. Каждой согласной букве и каждому модификатору может, быть приписано целое значение. В соответствии с этим каждый эле-
моктар;1ый бион В представляет собой кортеж: В = ^ , Ы ц ^ , где
й и М¡¡— коды соответствующих компонент. , '
Бион ¡3 " — конечная последовательность элементарных бионов:
¡3 — (^В^В % ^ . Значение составного биона ¡3 вычисляется по
формуле: /3 = (Т ^ • 50*"* ,■ 50*"* \ .
\А=1 . Ы1 /
Формула расчета значений координат биона позволяет легко осуществлять разборку произвольного слова на составные бионы путем выполнения целочисленных операций над числовыми величинами.
Текст t отображается в абстрактный код текста
А — у^)...) , где 1Ь((, /3) — количество предложений, со-
держащих бион р. Рассчитывается частота появления биона (встречаемость биона в тексте) <?(А /?) (в процентах) :
100%.
Для каждого класса, класса "все классы" и каждого биона строятся распределения текстов по встречаемости биона в тексте, получаются частные и общее распределения.
Определенно информативности признаков и границ разделения частот признаков.
Для каждого биона'из асимметрии частного и общего распределения акстов рассчитываются информативность •• //7/"(У?,С) для каждого
класса, а также частоты и ^inax (границы разделения частот) ,
ограничивающее низкую, среднюю и высокую встречаемость биона е текстах класса и тип биона.(тип распределения текстов по встречав-. мости биона в тексте).
Отбор и группирование информативных признаков.
В качестве информативных признаков класса отбираются такие признаки, для которых Inf больше или равна некоторому пороговому • эначетита.' Длп'"скижоцця размерности задачи классификации используется следующее искусственное правило. В соответствии с типом биона и величиной его информативности формируется по обучающим выборкам и адаптивным словарям бионов ограниченное количество групп " (10 групп) информационных признаков классов. Внутри каждой группы био-ны упорядочены в порядке убывания информативности.
Формирование входов нейронных сетей.. ■- ■
Абстрактный код текста в виде частот вхождения бионов в текст
переводится в логический код текста L — (...0,1,...) , зависящий от
класса С . Частота биона заменяется упорядоченной парой нулей или единиц в соответствии со следующим правилом:
• /00/ — бион в текст t не входит: 0;
• /01/. бион в текст t входит, но частота (}{t,ß} его вхождения в лексемы текста t (в текст t ) не превышает нижнего порога значимости Cjx {C,ß) : 0 < q{t,ß)< (¡\ {C,ß) ;
• /10/ — бион в текст t входит, но частота Cj{t,ß'j его вхождения в лексемы текста ( (в текст t) больше верхнего порога значимости (}2 (С, ß) : q2 (С, ß)<Cj(t,ß)< 1 ;
<• /11/ — бион в текст t входит, но частота его вхож-
дения в лексемы текста t (в текст t) между нижним
•11 ' /О и верхним (}2 (С, ¡5) порогами значимости:
В качестве С/, (С,/?) и (}2{С, Р) используются и •
Не' все частоты бионов сжимаются в логический код. Из бионов текста остаются биокы, покрывающее абстрактный код текста каждой группой информативных бионов для класса. Таким бионом является б ион, наиболее информативный из группы и принадлежащий тексту. Исключительно в тех случаях, когда ни один бион из группы не оказывается в конкретном исследуемом тексте, сжатый логический код группы бионов представляет пару кулевых бинарных символов.
В зависимости от режима работы АСКТ логический код текста может дополниться принадлежностью к классу: 1 — текст принадлежит классу; -1 — текст не принадлежит классу. Логический код текста подается на многослойную нейронную сеть. Таким образом, текст кодируется кортежем двоичных символов.
Обучение нейронных сетей.
Каждому классу соответствует своя многослойная нейронная сеть. Сети обучаются градиентным методом.
Метод самонастраивающегося словаря ключевых слов .
Существует счетное множество текстов 7^ : 7^ — ,...,/п,. . Все тексты 1п из состоят из слов И^ (не лексическое поня-
тие) :
,/. / • Относительно первых
N текстов (обучающей выборки) множества : Т(Ы) ~ ?^ | известно, что каждый из них отнесен к одному или более классам текстов С из множества С(Л/) : С(Л/) = {С, ](Л/ > 2) . На обучающей
выборке отношение
ЖлО: Я{м)сТ(ы)хС{м)
принадлежности
текста к классам задано бинарной, матрицей : = 1 , если
14
текст tfí относится к классу С,„ , и — 0 в противном случае.
tn (п > N)
Предполагается, что для последующих текстов
/* заранее неизвестны и определяются в ходе ...............
море обработки вновь поступающих текстов.
Форм1фование слов (формирование признаков классов -и ход>грорание текстов) .
Слово }Y — части лексических слоз или сами целые лексические слова, соединенные служебными символами. Слово W состоит из ^последовательно следующих печатных симзолов S¡. (букв, ív-'-ip, пробелов, ■ знаков препинания, символов "конец абзаца" и т.д.):
— Sy ^ . Слова W представляют собой последовательности
символов, встречающиеся в текстах класса С и только класса с порой информативности lilf{JV, С) .
Новые слова образуются следующим образом:
W(time + 1) = f(W(íime)) , f{W{time)) = W{üme) + ,vA41 ,
где + | — некоторый символ (вообще говоря, любой, принадлежа-uifríí текстам обучающей выборки, входящим в класс) . , ..Алгоритм итерационный. В начальный момент времени (tin.e=0)
слова W — есть символы, встречающееся только в текстах обучающей
выборки, входящих 0 класс С . L = max(Z,A,) (максимальная длина слова класса) может быть параметром алгоритма.
Определение информативности слов.
Для расчета функции lY\f {Wинформативности слова IV для класса С предлагается функция
/»/.(IF C) ~ A(1V'C)' тт(Л(}¥,С\В(П\С))
A{W,C)
15
гДе ДЖ,С) = тах{я(»г,0}С/еС),
/2(ТГ/Г,/)— количество слов в тексте
Построенная таким образом функция информативности имеет значения из отрезка [0; 1]. Значение этой функции, равное 1, говорит о
том, что слово IV встречается только в текстах, принадлежащих классу С .
Таким образом, текст кодируется множеством наиболее информативных слов.
Далее в главе приводится классический градиентный метод обучения многослойных нейронных сетей прямого распространения сигнала, решающих задачу классификации.
В третьей главе описано инженерное решение задачи построения АСКТ .
Автоматизированная система классификации текстов (АСКТ) разработана в двух'вариантах:
• на основе метода бионной системы кодирования;
• на основе метода самонастраивающегося словаря ключевых слов.
АСКТ разрабатывалась как экспериментальная система, состоящая
из двух взаимодействующих программных модулей:
• программного модуля подготовки данных для работы с нейронными сетями и
• программного модуля, обеспечивающего обучение и эксплуатацию нейронных сетей, решающих задачи классификации текстов.
На вход АСКТ во всех вариантах подается обучающая, тестирующая выборка текстов и анализируемый текст. На выходе АСКТ получаются оценки принадлежности текста классу.
Далее приводится описание практического'применения разработанной АСКТ, использующей программу эмуляции нейронных сетей, рассмотрены подходы к повышению эффективности предложенных алгоритмов кодирования текстовой'информации.
В четвертой главе представлены' результаты вычислительных экспе-
16 .
риментов по решению задачи классификации русскоязычных текстов.
Использовались данные, полученные в ходе выполнения работ от Заказчика темы:
• двухуровневый классификатор проблем, состоявший мэ 18 классов с подклассами, т.е. из 166 классов;
• описание принадлежности к классам классификатора 10С)0 сообщений ИТАР-ТАСС ;
• 997 сообщений ИТАР-ТАСС (несколько КВ) в виде текстовых файлов. "' '
В ходе экспериментов проводилось обучение классификаторов на обучающих текстах (80%) и тестирование на тестирующих текстах (20%)
Эксперимент с АСКТ на основе метода бионной системы кодирования. ■
Получены входы классификатора согласно описанном1/ алгорптгг/. Обучении нейронных сетей решению задачи классификации прог.одплось раздельно для каждого класса текстов. Для получения сопоставимых результатов для ссех классификаторов несмотря на наполнение классов выбрана одинаковая архитектура нейронных сетей — 20С/7!5/13. Это значит, что каждая сеть имеет 3 слоя (2 ра'бочнх) , на первом слое 20 нейронов с передаточной функцией гауссианом, на втором — 7 нейронов с передаточной функцией сигмоидой, на третьем — 1 нейрон с передаточной функцией сигмоидой.
Полученные показатели эффективности решения задачи классификации для хорошо наполненных классов (полнота и точность более 80%), позволяют утверждать применимость этого метода на больших массивах данных. ...
Эксперимент с АСКТ на основе метода самонастраивающегося слоса-ря ключевых слов■
Получены входы классификатора согласно описанному алгоритму. Проведено-обучение классификаторов для некоторых классов.
Полученные показатели эффективности решения задачи классификации для хорошо наполненных классов (полнота близка к 100%, но низкая точность без привлечения нейронных сетей) позволяет утверждать
... 17
лр;гмоллмость этого метода на больших массивах данных.
«.
Иерархическая классификация на АСКТ на основе метода бионной системы кодирования
Дополнительная проверка АСКТ на основе бионной системы кодирования проводилась на следующих данных:
• двухуровневый классификатор' проблем, состоящий из 3 классов с подклассами, т.е. из 36 классов;
• описание принадлежности к классам классификатора 400 рефератов НИОКР;
• 400 рефератов НИОКР (до 2 КВ) в виде текстовых файлов.
Произвольный текст можно классифицировать двумя способами: глобально (сразу определить, к какому подклассу он принадлежит по веем данным) и иерархически (сначала определить, к какому классу он принадлежит по всем данным, а потом к какому подклассу 'этого класса он принадлежит по данным этого класса).
Проведенные эксперименты показывают возможность иерархической классификации с постепенной детализацией и подтверждают применимость метода бионной системы кодирования на больших массивах данных.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ
В процессе разработки предложенных методов кодирования тексто-. вой информации для построения нейросетевых классификаторов документов , а «также в процессе применения предложенных методов для решения практических задач классификации текстов были получены следующие основные результаты.
1. Проанализированы - методы решения задачи классификации и обработки текстовой информации. Выявлены особенности потоков текстов , затрудняющие использование систем автоматической классификации, основанных на традиционных словарях, а также особенности, приводящие к отказу таких систем. Сформулированы принципы построения системы классификации текстов. Даны техническая' и математическая постановки задачи семантической классификации текстов, учитывающие особенности потоков текстов и принципы построения системы классификации.
Выделены четыре составляющее задачи классификации текстов:
• формирование признаков классов и кодирование текстов;
• определение информативности признаков классов;
• отбор и группирование информативных признаков;
• построение классификатора.
Отмечено удобство нейросетевой обработки текстов, на основе индексирования, построенного на частоте и различительной силе термина, полученного в результате анализа символьного ряда слова, без привлечения традиционных словарей предметной области. Рассмотрено состояние нейрокомпьютинга с позиций применимости нейросетевых подходов к решению задачи классификации. Предложены и разработаны оригинальные методы кодирования текстовой информации':
• метод бионной системы кодирования текстов;
• метод самонастраивающегося словаря ключевых слов.
Выбрана архитектура однородной многослойной нейронной сети с оптимизационным (градиентным) методом обучения для решения задачи классификации. Определены параметры алгоритма.
Создано программное обеспечение автоматизированной системы классификации текстов на основе предложенных•методов с использованием программного эмулятора многослойных нейронных сетей. Описана технология его использования для решения задачи семантической классификации текстов.
Получены в ходе вычислительного эксперимента показатели эффективности решения задачи классификации текстов для хорошо наполненных классов, подтверждающие применимость предложенных методов на больших массивах данных. Реализована иерархическая классификация.
Полученные результаты диссертации были использованы в МИФИ при выполнении договорных работ "Разработка кейросетосых подходов для решения радач информацио::ного поиска ¡1 к0мб:я:атср:'0Й оптимизации" между ВЧ № 54939 и МИФИ (ТУ) по теме № 96-3-022-738, при выполнении работ "Системы контроля и управления процесса™ в атомной энергетике и при разработке газовых месторождений" по
2
3
4
5
6
тема » S9-2-503-400, что подтверждено соответствующими документами. _ *
Результаты диссертационной работы были доложены на международных семинарах и конференциях, были отражены в 7 отчетах о НИР к были.опубликованы в 6 печатных работах.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Жигирев H.H., Кор.-х В.В. Автоматизированная система классификации текстов. Сборник научных трудов. В 11 частях. Ч. 9. — М. : МИФИ, 1998, стр. 99-103.
2. Оныкий E.H., Жигирев H.H., Корж В.В., Лакеев А.Г. , Лебедев К.А. Автоматизированная система классификации текстов (АСКТ) : модель. Современные технологии в задачах управления, автоматики и обработки информации: сборник трудов VII международного научно-технического семинара — М.: МАИ, 1998, стр. 273.
3. Жигирев H.H., Корж В.В., Лебедев К.А. Автоматизированная система классификации текстов (АСКТ): реализация. Современные технологии в задачах управления, автоматики и обработки информации: сборник трудов VTI международного научно-технического семинара — М.: МАИ, 1998, стр. 274-275.
4. Жигирев H.H., Корж В.В., Оныкий Б.Н. Использование асимметрии частотных свойств информационных признаков для построения автоматизированных систем классификации текстовых документов. Научная сессия МИФИ - 99. Всероссийская научно-техническая конференция "Нейроинформатика-99". Сборник научных трудов. В 3-х частях. Ч. 3. — М.: МИФИ, 1999, стр. 83-91.
5. Жигирев H.H., Корж В.В., Оныкий E.H., Кузьмина Н.М. Нейросете-вая модель классификации сложных объектов. Современные технологии в задачах управления, автоматики и обработки информации: сборник трудов VIII международного научно-технического семинара - М. : МАИ, 1999, стр. 252-253.
6. Жигирев H.H., Корж В.В., Оныкий Б.Н. Самонастраивающийся словарь ключевых слов и нейронная сеть Хопфилда для классификации текстов. Научная ' сессия МИФИ - 2000. II Всероссийская научно-техническая конференция "Нейроинформатика-2000". Сборник научных трудов. В 2-х частях. Ч. 2. — М.: МИФИ, 2000, стр. 58-61.
20 .
Оглавление автор диссертации — кандидата технических наук Корж, Василий Вадимович
ВВЕДЕНИЕ
глава 1. задача классификации текстовых документов
1.1. Задача классификации.
1.1.1. Особенности решения задачи классификации текстовых документов
1.1.2. Техническая постановка задачи классификации текстовых документов
1.1.3. Математическая постановка задачи классификации текстовых документов
1.2. Нейрокомпьютинг — способ решения сложных задач.
1.2.1. Нейроны и нейронные сети.
1.2.2. Реализации нейронных сетей
1.3. Выводы по первой главе
ГЛАВА 2. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ РЕШЕНИЯ ЗАДАЧИ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ. РАЗРАБОТКА АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ КЛАССИФИКАЦИИ ТЕКСТОВ (АСКТ)
2.1. Метод бионной системы кодирования текстов
2.1.1. Понятия и определения в методе бионной системы кодирования текстов
2.1.2. Модель АСКТ на основе метода бионной системы кодирования
2.1.3. Формирование признаков классов' и.'кодирование текстов в методе бионной системы кодирования текстов.'.
2.1.4. Определение информативности признаков и границ разделения частот признаков в методе бионной системы кодирования текстов
2.1.5. Отбор и группирование информативных признаков в методе бионной системы кодирования текстов
2.1.6. Формирование входов нейронных сетей в методе бионной системы кодирования текстов
2.2. Метод самонастраивающегося словаря ключевых слов.
2.2.1. Понятия и определения в методе самонастраивающегося словаря ключевых слов.
2.2.2. Модель АСКТ на основе метода самонастраивающегося словаря ключевых слов.
2.2.3. Формирование слов (формирование признаков классов и кодирование текстов) в методе самонастраивающегося словаря ключевых слов
2.2.4. Определение информативности слов в методе самонастраивающегося словаря ключевых слов.
2.3. Нейросетевой подход к решению задачи классификации
2.4. Формирование классификаторов.
2.5. Выводы по второй главе.
ГЛАВА 3. ИНЖЕНЕРНОЕ РЕШЕНИЕ ЗАДАЧИ ПОСТРОЕНИЯ АСКТ
3.1. Программно-алгоритмическое обеспечение решения задачи классификации текстов.
3.1.1. АСКТ на основе метода бионной системы кодирования
3.1.2. АСКТ на основе метода самонастраивающегося словаря ключевых слов
3.2. Хранение данных, форматы файлов.
3.2.1. Входы программы подготовки данных АСКТ.
3.2.2. Выходы программы подготовки данных АСКТ на основе метода бионной системы кодирования
3.2.3. Выходы программы подготовки данных АСКТ на основе метода самонастраивающегося словаря ключевых слов
3.3. Описание программы подготовки данных АСКТ на основе метода бионной системы кодирования
3.3.1. Режим обучения в программе подготовки данных АСКТ на основе метода бионной системы кодирования
3.3.2. Режим эксплуатации в программе подготовки данных АСКТ на основе метода бионной системы кодирования
3.3.3. Дополнительные возможности в программе подготовки данных АСКТ на основе метода бионной системы кодирования
3.4. Описание программы подготовки данных АСКТ на основе метода самонастраивающегося словаря ключевых слов.
3.4.1. Режим обучения в программе подготовки данных АСКТ на основе метода самонастраивающегося словаря ключевых слов
3.4.2. Режим эксплуатации в программе подготовки данных АСКТ на основе метода самонастраивающегося словаря ключевых слов
3.5. Описание прораммы эмуляции нейронных сетей
3.6. Повышение эффективности.
3.6.1. Повышение эффективности метода бионной системы кодирования
3.6.2. Повышение эффективности метода самонастраивающегося словаря ключевых слов класса.
3.7. Выводы по третьей главе.
ГЛАВА 4. ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ ПРЕДЛОЖЕННЫХ МЕТОДОВ КЛАССИФИКАЦИИ
4.1. Задача классификации текстов в крупных организациях. Характеристика данных
4.2. Эксперимент с аскт на основе метода бионной системы кодирования.
4.2.1. Подготовка входов нейронных сетей
4.2.2. Обучение нейронных сетей
4.2.3. Тестирование обученных нейронных сетей
4.2.4. Улучшение полученных результатов
4.2.5. Результаты применения метода бионной системы кодирования текстов
4.3. Эксперимент с аскт на основе метода самонастраивающегося словаря ключевых слов.
4.3.1. Обучение и тестирование классификатора
4.3.2. Результаты применения метода самонастраивающегося словаря ключевых слов.
4.4. Иерархическая классификация
4.5. Выводы по четвертой главе.
Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Корж, Василий Вадимович
На рубеже ХХ-го и XXI-го веков на первый план выдвинулись проблемы упорядочения растущего разнообразного документооборота. Особое место среди этих проблем занимает проблема семантической классификации документов для хранения по темам, их дальнейшей обработки или работы с ними. Как правило, человек (автор или эксперт) прочитывает документ, проводит, если необходимо, индексацию текстов. Он составляет списки ключевых слов, заполняет архивные поля (автор, атрибуты изданий и другие информационные параметры документов) . Он также осуществляет предобработку документов для последующего анализа текста: подчеркивает места текста, на которые специалистам следует обратить внимание, создает копии графических фрагментов (фотографий, схем, графиков.) . Эффективное решение этой проблемы невозможно без создания надежных систем автоматизированной классификации документов.
Классически задача классификации ставится следующим образом. Многомерное пространство признаков разделено на несколько областей, называемых классами. Область, соответствующая каждому классу, может иметь произвольную форму. Для некоторых объектов этого пространства (обучающей выборки) известна принадлежность к классам, а для других ее требуется определить, используя данные обучающей выборки .
Классификация текстовых документов является нетрадиционной задачей прикладного анализа сложных информационных объектов с плохо формализуемой структурой связей как между элементами внутри объектов, так и между самими объектами.
Длительная практика изучения процессов, связанных с классификацией текстов, показала, с одной стороны, необходимость выделения информационных признаков классов текстов, с другой стороны, необходимость разработки математических моделей и вычислительных процедур, позволяющих построить оптимальный классификатор текстов.
Существующие подходы к решению задачи классификации предполагают наличие в системе обработки текстов автоматического традиционного словаря, отражающего предметную область. Специфика объекта исследования и сформулированные в работе принципы построения системы классификации налагают ограничения на использование традиционных словарей при автоматической классификации текстов.
Реальные процессы классификации зависят от индивидуальных особенностей конкретных текстов. Они предполагают интерактивные процедуры применения методов и алгоритмов цифровой обработки сигналов .
Решение задачи классификации текстов опирается на использование ЭВМ или других цифровых устройств, реализующих типовые векторно-матричные операции при последовательно-параллельной организации вычислений. Эффективность этих процедур может быть существенно повышена за счет сопряжения классических методов и алгоритмов обработки текстов с методами нейрокомпьютинга.
Нейрокомпьютинг — это научное направление, занимающееся разработкой вычислительных систем шестого поколения — нейрокомпьютеров, которые состоят из большого числа параллельно работающих простых вычислительных элементов (нейронов).
Нейрокомпьютеры, классическое программирование которых заменяется обучением, обнаружили высокую производительность, а также по-мехо- и отказоустойчивость получаемых с их помощью решений для широкого ряда многомерных нелинейных задач. Построенные в результате обучения на примерах нейронные сети (НС), как правило, эффективны в тех случаях, когда необходимо решать задачи классификации, диагностики, распознавания образов. Это связано с тем, что обученные НС представляют собой вычислительную среду, являющуюся одновременно и коллективным процессором, и ассоциативной памятью, хранящей обобщенный опыт решения задач, приобретенный в процессе обучения.
Актуальность. Диссертационная работа посвящена актуальной теме — разработке эффективного математического и программного инструментария для решения задачи классификации текстов на основе комбинаторного анализа частотных свойств информационных признаков классов текстов.
Объект исследования. Объектом исследования данной диссертации являются большие оперативные потоки короткой неструктурированной текстовой информации на русском языке, такие как сообщения информационных агентств, информация Internet (FAQ, Chat и т.п.), статьи из периодической печати, телеграфные и телетайпные сообщения и т.п. Такие сообщения могут содержать сленг, орфографические ошибки, неологизмы, различнорусифицированные иностранные термины, технические искажения и т.д.
Цель работы. Целью проведения научных исследований является создание математического и программно-алгоритмического обеспечения процедур кодирования текстов, а также применение разработанных процедур для решения практических задач текстовой классификации.
Для достижения поставленной цели в работе:
• исследованы классические и нейросетевые методы обработки текстовой информации;
• предложены оригинальные методы кодирования текстовых документов для их последующей классификации;
• создано программно-алгоритмическое обеспечение решения задачи классификации текстов;
• решена задача классификации русскоязычных текстов.
Методы исследования. При разработке математического и программно-алгоритмического обеспечения в диссертационной работе используются методы нелинейной оптимизации, теории функций, теории чисел, классические методы обработки текстовой информации и классификации, методы обучения нейронных сетей.
Научная новизна работы. Новизна заключается в следующем:
• показано, что эффективность решения задачи классификации текстов может быть существенно повышена за счет сопряжения классических алгоритмов с методами нейросетевого моделирования;
• предложены и разработаны оригинальные методы кодирования текстовых документов множествами и кортежами, выделяющие в текстах характерные классификационные признаки, что позволило построить нейросетевые способы решения задачи классификации .
Практическая ценность. Выполнен анализ исследований и разработок в области использования нейрокомпьютеров в задаче обработки и классификации текстов, в результате чего:
• разработана методика построения адаптируемых нейросетевых классификаторов текстов;
• решены практические задачи классификации русскоязычных текстов.
По тематике диссертационной работы выполнялись исследования по темам № 96-3-022-738 и № 99-2-503-400 в МИФИ(ТУ). Эти исследования подробно описаны в соответствующих отчетах о НИР [86-92]. Разработанные инженерные решения были использованы в МИФИ:
• при выполнении договорных работ "Разработка нейросетевых подходов для решения задач информационного поиска и комбинаторной оптимизации" между ВЧ № 54 93 9 и МИФИ (ТУ) по теме № 9 6-3022-738,
• при выполнении работ "Системы контроля и управления процессами в атомной энергетике и при разработке газовых месторождений" по теме № 99-2-503-400.
На защиту выносятся:
• теоретическое обоснование методики кодирования текстовой информации множествами и кортежами, позволяющей применять ней-росетевые способы решения задачи классификации текстов;
• интерактивная процедура решения практических задач классификации текстов с использованием нейронных сетей.
Границы разрабатываемой темы. Типы анализируемых с помощью разработанного математического и программно-алгоритмического аппарата данных ограничены множеством математических моделей, используемых для их описания. Исследованные в работе методы обработки текстов и многослойные однородные нейронные сети могут быть реализованы на большинстве аппаратных средств. Дополнительно учтен ряд требований и ограничений, связанных с эмуляцией нейросетевых решений на персональных компьютерах.
Раскрытие результатов. Результаты диссертационной работы были раскрыты в б печатных работах [80-8 5] и 7 отчетах о научно-исследовательских работах [86-92].
Апробация работы. Теоретические положения и практические результаты были доложены на следующих конференциях и семинарах:
• VII Международный научно-технический семинар "Современные технологии в задачах управления, автоматики и обработки информации", Алушта, МАИ, сентябрь 1998 [81, 82];
• Всероссийская научно-техническая конференция "Нейроинформатика-99", Москва, МИФИ, январь 1999 [83];
• VIII Международный научно-технический семинар "Современные технологии в задачах управления, автоматики и обработки информации", Алушта, МАИ, сентябрь 1999 [84];
• Всероссийская научно-техническая конференция "Нейроинформатика-2 000", Москва, МИФИ, январь 2000 [85].
Всего 5 выступлений.
Структура и объем работы. Диссертация содержит 4 главы, введение и заключение, 5 приложений, 19 рисунков, 18 таблиц.
Заключение диссертация на тему "Методы кодирования текстовой информации для построения нейросетевых классификаторов документов"
4.5. Выводы по четвертой главе
1. Приведена характеристика реальных данных, полученных от Заказчика темы и используемых в эксперименте.
2. Получены в результате проведенного вычислительного эксперимента высокие показатели эффективности решения задачи классификации текстов обоими предложенными методами для хорошо наполненных классов, т.е. подтверждено, что предложенные методы применимы на больших массивах данных.
ЗАКЛЮЧЕНИЕ
В процессе разработки предложенных методов кодирования текстовой информации для построения нейросетевых классификаторов документов, а также в процессе применения предложенных методов для решения практических задач классификации текстов были получены следующие основные результаты.
1. Проанализированы методы решения задачи классификации и обработки текстовой информации. Выявлены особенности потоков текстов, затрудняющие использование систем автоматической классификации, основанных на традиционных словарях, а также особенности, приводящие к отказу таких систем. Сформулированы принципы построения системы классификации текстов. Даны техническая и математическая постановки задачи семантической классификации текстов, учитывающие особенности потоков текстов и принципы построения системы классификации. Необходимо создать процедуры разделения большого потока необработанных разнотипных документов произвольного формата на пересекающиеся классы, минимально ориентированные на системы четких словарных и фразеологических конструкций, а также на априорную информацию о структуре организации, проводящей окончательную обработку текстов.
Выделены четыре составляющие задачи классификации текстов:
• формирование признаков классов и кодирование текстов;
• определение информативности признаков классов;
• отбор и группирование информативных признаков;
• построение классификатора.
Отмечено удобство нейросетевой обработки текстов на основе индексирования, построенного на частоте и различительной силе термина, полученного в результате анализа символьного ряда слова, без привлечения традиционных словарей предметной области.
2. Рассмотрено состояние нейрокомпьютинга с позиций применимости нейросетевых подходов к решению задачи классификации.
3. Предложены и разработаны оригинальные методы кодирования текстовой информации:
• метод бионной системы кодирования текстов;
• метод самонастраивающегося словаря ключевых слов.
4. Выбрана архитектура однородной многослойной нейронной сети с оптимизационным (градиентным) методом обучения для решения задачи классификации. Определены параметры алгоритма.
5. Создано программное обеспечение автоматизированной системы классификации текстов на основе предложенных методов с использованием программного эмулятора многослойных нейронных сетей. Описана технология его использования для решения задачи семантической классификации текстов.
6. Получены в ходе вычислительного эксперимента показатели эффективности решения задачи классификации текстов для хорошо наполненных классов, утверждающие применимость предложенных методов на больших массивах данных. Реализована иерархическая классификация.
Полученные результаты диссертации были использованы в МИФИ:
• при выполнении договорных работ "Разработка нейросетевых подходов для решения задач информационного поиска и комбинаторной оптимизации" между ВЧ № 54 939 и МИФИ (ТУ) по теме № 96-3022-738,
• при выполнении работ "Системы контроля и управления процессами в атомной энергетике и при разработке газовых месторождений" по теме № 99-2-503-400, что подтверждено соответствующими документами.
Результаты диссертационной работы были доложены на международных семинарах и конференциях, были отражены в 7 отчетах о НИР и были опубликованы в б печатных работах.
Библиография Корж, Василий Вадимович, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)
1. Айзерман М.А., Браверман Э.М., Розоноэр JI.H. Метод потенциальных функций в теории обучения машин. — М: Наука, 1970.384 стр.
2. Апресян Ю.Д., Богуславский И.М., JI.JI. Иомдин и др. Лингвистический процессор для сложных информационных систем. ИППИ РАН. М.: Наука, 1992.
3. Ахапкин Ю.К., Барцев С.И., Всеволодов H.H. Биотехника — новое направление компьютеризации. — М. : Наука, 1990.
4. Барцев С.И. Охонин В.А. Адаптивные сети обработки информации. Красноярск: ИФ СО АН СССР, 1986. Препринт № 59Б.
5. Белоногов Г.Г., Богатырев В.И. Автоматизированные информационные системы. Под ред. К.В. Тараканова. М.: "Сов. радио", 1973.
6. Быковский Ю.А., Оныкий Б.Н., Щербаков И.Б. Двухслойная нейронная сеть: математическая модель и оптоэлектронная реализация. М.: Препринт МИФИ, 005-94, 1994.
7. Вашкевич Н. За семью печатями. — М.: "Дека", 1994.
8. Волгин Л.И., Мишалов С.А. Ранговые процессоры на реляторных коммутационно бинарных нейронах. Докл. ВК "НИ-99". 4.2. -М.:МИФИ, 1999.-с. 43-49.
9. Галушкин А.И. и др. Нейроматематика: методы решения задач на нейрокомпьютерах. — М.: НИИ "Квант", 1990.
10. Ю.Галушкин А.И. Синтез многослойных систем распознавания образов. — М.: Энергия, 1974.
11. Галушкин А.И., Кирсанов Д. В. Заказной цифровой нейрочип. Нейрокомпьютер, № 2, 1992.
12. Гилмор Р. Прикладная теория катастроф. В 2-х томах. М.: Мир, 1984 .
13. Горбань А.H. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей. Сиб. журнал вычислит, мат.- Новосибирск: РАН. Сиб. отделение, 1998.- 1, №1.- С. 1124 .
14. Горбань А.Н. Обучение нейронных сетей. — М.: СП "Параграф", 1991.
15. Дискуссия о нейрокомпьютерах. Под ред. Крюкова В.И., НИВЦ АН СССР, Пущино, 1988.
16. Дуда Р., Харт П. Распознавание образов и анализ сцен.— M. : Мир, 1976.- 512 стр.
17. Евтихеев H.H., Оныкий Б.Н., Перепелица В.В., Щербаков И.Б. Многослойная нейронная сеть и ее реализация на основе оптического вектор-матричного перемножителя. — Нейрокомпьютер, № 1-2, 1994.
18. Журавлев А.П. Звук и смысл. — М. : Просвещение, 1981.
19. Искусственный интеллект. В 3-х кн. Кн. 2. Модели и методы: Справочник. Под ред. Д.А. Поспелова. - М.: Радио и связь, 1990 .
20. Калверт Ч. и др. Borland С++ Builder 3. Энциклопедия пользователя: пер. с англ. — К.: лхДиаСофт", 1998. — 800 стр.
21. Колфилд Х.Дж., Кинсер Дж. , Роджерс С.К. Оптические нейронные сети. ТИИЭР, 1989, т.77, № 10.
22. Королев А.Н. Лингвистическое обеспечение информационно-поисковой системы Excalibur RetrievalWare: аналитический аспект. Internet — CIT Forum: http://www.citforum.altai.su/seminars/cis 99/vest2.shtml.
23. Кохонен Т. Ассоциативная память. М.: Мир,1980.
24. Кузнецов И.П. Гипертекстовые технологии на семантической основе. В сб. "Системы и средства информатики", ИПИ РАН. — М. : Наука, ФМ, 1995, вып.7, стр. 86-95.
25. Кузнецов И. П. Механизмы обработки семантической информации.- М.: Наука, 197 8.
26. Кузнецов И. П. Семантические представления. — М. : Наука, 1986.
27. Куликов. В.В., Гаврилов Д.А., Ёлкин С. В. Универсальный искусственный язык НООМ-ДИАЛ. Методические указания для изучающих язык. — М.: "Гэлэкси нэйшт", 1994.
28. Куссуль Э.М. и др. Нейронные классификаторы с распределенным кодированием входной информации. — Нейрокомпьютер, N 3-4,1994, стр. 13-24.
29. Левин В.И. Структурно-логические методы исследования сложных систем. М.: Наука, 1987.
30. Малинецкий Г.Г.,Шакаева М.С. Клеточные автоматы в математическом моделировании иобработке информации. \\ Препринт ИПМ им. Келдыша РАН. 1994. № 57.9.
31. Мейер Д. Теория реляционных баз данных. Пер. с англ. М.: Мир, 1967.
32. Муромский А.А. О сравнении текстов. Препринт ВЦ РАН, 1996. ЗЭ.Мушик Э., Мюллер Г. Методы принятия решений в техническихсистемах. М.; Мир, 198 7.
33. Программирование для Windows в Borland С++. — М. : Бином,1995.
34. Сверхбольшие интегральные схемы и современная обработка сигналов. Пер. с англ. Под ред. С.Гука, Х.Уайтхауза, Т.Кайлата.- М.:- Радио и связь, 1989. 472с.
35. Соловьева Н.С., Сомин H.B. ТЕРМИН-3 система динамического гипертекста. В сб. "Системы и средства информатики", ИПИ РАН. - М.: Наука, ФМ, 1995, вып.7, стр. 95-104.
36. Солтон Дж. Динамические библиотечно-информационные системы. Пер. с англ. М.: Мир, 1979.
37. Страуструп Б. Язык программирования С++. Вторая редакция. — Киев: "ДиаСофт", 1993.
38. Сыслов В. В. Нейросетевой классификатор тематики текстов. — Приборостроение. Специальный выпуск: Методы анализа и синтеза нейронных сетей. 1995, № 1-2, стр. 43-47.
39. Тимофеев A.B., Шеожев A.M. Порогово-полиномиальные и диофан-товые нейронные сети в задачах медицинской диагностики. Докл. Всеросс. конф. "НИ-99". 4.2. М.:МИФИ, 1999.-с.81-86.
40. Тэнк Д.У., Хопфилд Дж.Дж. Коллективные вычисления в нейропо-добных электронных схемах. В мире науки №2, 1988 г., с 4453.4 8.Уоссермен Ф. Нейрокомпьютерная техника: теория и практика. — М.: Мир, 1992.
41. Флейшман B.C. Основы системологии. М.: Радио и связь, 1982.368 с.
42. Хромов А.Г. О топологической структуре множества нестационарных состояний нейронной сети. Докл. ВК "НИ-99". Ч.1.-М.:МИФИ, 1999.-с.138-143.
43. Цыбизов A.B. Метод нейропредставления лексической информации. Научная сессия МИФИ 2000. 2-я Всероссийская научно-техническая конференция мНейроинформатика-2000". Сборник научных трудов. В 2-х частях. Ч. 2. — М.: МИФИ, 2 0 00, стр. 125-134.
44. Широков Ф.В. На пути к нейрокомпьютерам. Итоги науки и техники. Серия: "Физические и математические модели нейронных сетей". Т.1. М.: ВИНИТИ, 19 90.
45. Шумский С.А., Яровой A.B., Зорин О.Л. Ассоциативный поиск текстовой информации. Научная сессия МИФИ 99. Всероссийская научно-техническая конференция " Нейроинформатика-99".
46. Сборник научных трудов. В 3-х частях. Ч. 3. — М.: МИФИ, 1999, стр. 101-109.
47. Энгелькинг Р. Общая топология.: Мир, 1986.- 751 с.
48. Яглом A.M., Яглом И.А. Вероятность и информация. — М. : Наука, 1973.5 6.Chua L.O., Yang L. Cellular Neural Networks: Theory. IEEE Transactions on Circuits and Systems. 1988, vol. 35. - No 10. - P. 1257 - 1272.
49. Deerwester S., Dumais S., Furnas G., Landauer Т., Harsman R. Indexing by Latent Semantic Analysis. — Journal of the American Society for Information Science, 41(6): 391-407, 1990.
50. Dowe James. Использование нейронных сетей в системах поиска текста. — EDMS Journal, Issue 1, Volume 2, September, 1991.
51. Fritzke Bernd. A growing neural gas network learns topologies, (To Appear in: G. Tessauro, D.S. Touretsky and Т.К. Leen (eds), Advanced in Neural Information processing Systems 7, MIT Press, Cambridge MA, 1995) .
52. Fritzke Bernd. Growing cell structures — f self organizing network for Supervised and Unsupervised, International Computer Science University, Berkley, California, Technical Report TR-93-026, May 1993.
53. Grossberg S. Classical and Instrunental Learnng by Neural Networks. Progress in Theoretical Biology, vol.3, pp. 51141. NY: Academic Press, 1974.
54. Hebb D.O. The Organization of Behavior. NY, Wiley, 1949.
55. Hecht-Nielsen R. Neurocomputing. — Addison-Wesley, Reading, MA, 1990 p. 443.
56. Hecht-Nielsen R. Theory of the backpropagation neural network. International joint conference on neural networks, Sheraton Washington Hotel, Washington D.C., June 18-22,Vol. 1, p.593-606.
57. Hopfield, J.J. Neurons with graded response have collective computational properties like those of two-state neurons, Proc. Natl. Acad. Sci. USA 81, 1984, pp.3088-3092.
58. Kohonen Т. Self-Organizing Maps. Springer-Verlag, 1995.
59. Masters Timothy. Advanced Algorithms for Neural Networks. John Wiley & Sons, 1995.
60. Minsky M.L., Papert S. Perceptrons. Cambridge, MA: MIT Press, Русск. перевод: Минский М.Л., Пайперт С. Персептроны. М.: Мир, 1971.
61. Neural Networks. Vol. 1-6.
62. Riedmiller M., and Braun, H. (1993), "A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm", Proceedings of the IEEE International Conference on Neural Networks 1993, San Francisco: IEEE.
63. Rosenblatt F. Principles of Neurodinamics. NY: Spartan Books. Русск. перевод: Розенблат Ф. Принципы нейродинамики. \Пер. с англ. М.: Мир, 1965.
64. Rosenblatt F. The perceptron a probabilistic model for information storage and organization in the brain. — Phycol.Rev., vol. 65, 1958.- pp 386-407.
65. Salton G. Automatic Text Processing. — Addison-Wesley Publishing Company, Inc., Reading, MA, 1989.
66. Specht Donald. Probabilistic Neural Networks. Neural Networks, 1990, № 1.
67. Werbos P.J. Backpropagation through time: what it does and how to do it. Proceedings of IEEE, Vol. 78, No. 10, October, 1990, pp.1550-1560.
68. Widrow В. Generalization and information storage in networks of adaline neurons. — in Self-organizing systems, M.C.Yovits et al., Eds., Washington, D.C.: Spartan, 1962.- pp. 453-461.
69. Публикации по теме диссертации8 0.Жигирев Н.Н., Корж В.В. Автоматизированная система классификации текстов. Сборник научных трудов. В 11 частях. Ч. 9. — М.: МИФИ, 1998, стр. 99-103.
70. Отчеты о научно-исследовательских работах
71. Тестирующая выборка текстов1. Произвольный текст
72. Автоматизированная система классификации текстове1. Программа для РС
73. Тип, архитектура и метод обучения НС
74. Принадлежность текста к классам1. Обученные НС-► Решение о дообученииобщий вид)
75. Режим Правила Тип, архитектура иработы обработки метод обучения НСосновные компоненты)1. С11. Правила
76. Обучающая выборка обработкитекстов1. С1
77. Расчет абстрактных кодов текстов
78. Гистограммы распределения текстов по встречаемости бионов в классах1. С1
-
Похожие работы
- Методы и алгоритмы структурно-параметрического синтеза нейросетевой модели для формирования интеллектуальных информационных технологий
- Применение нейросетевых методов для обработки сигналов в каналах с помехами
- Информационно-поисковая система с ранжированием на основе нейронных сетей с бинарной функцией выхода
- Параллельная система тематической текстовой классификации на основе метода опорных векторов
- Разработка и исследование гибридных нейросетевых моделей для автоматической классификации текстовых документов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность