автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Модели и методы автоматической классификации текстовых документов

кандидата технических наук
Шабанов, Владислав Игоревич
город
Москва
год
2003
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и методы автоматической классификации текстовых документов»

Оглавление автор диссертации — кандидата технических наук Шабанов, Владислав Игоревич

Введение

1. Постановка задачи

1.1. Формулировки задач классификации и распознавания образов.

1.2. Методы оценки эффективности системы классификации текстов.

1.2.1. Определение меры эффективности классификации.

1.2.2. Возможные виды меры эффективности классификации.

1.2.3. Тестовые наборы.

1.3. Анализ требований, предъявляемых к обучающим выборкам.

1.4. Жизненный цикл системы автоматической классификации.

2. Обзор методов распознавания образов и классификации

2.1. Основные группы методов распознавания и классификации.

2.1.1. Предъявление обучающего множества.

2.1.2. Варианты описаний объектов.

2.1.3. Правша классификации.

2.2. Математические модели для одноуровневых рубрикаторов.

2.2.1. Классификаторы, основанные на правиле Байеса.

2.2.2. Сжатие словаря терминов байесовского классификатора.

2.2.3. Метод максимизации энтропии.

2.2.4. Классификация методом поиска К-ближайших соседей (кИИ)

2.2.5. Метод центроид.

2.2.6. Нейронные сети.

2.2.7. Ассоциативные сети.

2.3. Математические модели для иерархических рубрикаторов.

2.3.1. Метод вложенных классификаторов.

2.3.2. Метод стягивания параметров классификатора.

2.4. Учет гиперссылок.

2.5. Сравнение методов классификации.

Содержание (продолжение) стр.

3. Математическая модель автоматического классификатора текстовых документов

3.1. Математическая модель представления текстового документа.

3.1.1. Выбор вида терминов.

3.1.2. Выбор методы сопоставления терминов.

3.1.3. Критерии выбора вида терминов и функции нормализации.

3.1.4. Алгоритм приближенного выделения словосочетаний.

3.2. Математические модели для оценки значимости терминов.

3.2.1. Собственная (морфологическая) значимость терминов.

3.2.2. Контекстная значимость терминов.

3.2.3. Статистическая значимость терминов.

3.2.4. Вычисление значимости выделенных из текста дат, денежных сумм и т. д.

3.3. Математическая модель документов и рубрик, метод классификации

3.3.1. Модель семантического образа рубрики.

3.3.2. Модель классифицируемого документа.

3.3.3. Метод классификации, основанный на полнотекстовом поиске

3.4. Математическая модель документов обучающей выборки, метод обучения.

3.4.1. Формирование семантических образов рубрик одного уровня иерархии.

3.4.2. Вычисление пороговых весов терминов и рубрик./

3.5. Детальное описание алгоритма обучения классификатора.

3.5.1. Структура базы данных системы автоматической классификации.

3.5.2. Алгоритм обучения классификатора.

3.5.3. Вычисление весов терминов.

Содержание (продолжение) стр.

3.5.4. Формирование оптимального покрытия.

3.5.5. Формирование семантических образов рубрик.

3.6. Структура программного комплекса.

4. Автоматическое выявление ассоциативных связей между словами и словосочетаниями

4.1. Метод построения ассоциативных связей.

4.1.1. Виды ассоциаций.

4.1.2. Автоматический показ ассоциативных запросов.

4.1.3. Алгоритм формирования ассоциативных связей.

4.2. Расширение семантических образов рубрик ассоциативными терминами.

4.3. Дальнейшее развитие метода.

5. Автоматическое распознавание текстовых метаконструкций

5.1. Структура системы распознавания.

5.2. Алгоритм работы системы распознавания.

5.2.1. Этапы обработки текста.

5.2.2. Разбиение входного текста на фрагменты.

5.2.3. Операции над распознанными конструкциями.

5.2.4. Параметры, передаваемые процедурам обработки шаблонов

5.3. Алгоритм модификации очереди фрагментов шаблонами.

5.4. Язык описания шаблонов.

6. Результаты экспериментов

6.1. Описания тестовых наборов.

6.2. Описание тестов и результаты.

6.2.1. Влияние вида выделяемых из документа терминов на эффективность классификации.

6.2.2. Вклад алгоритма сопоставления, использующего полнотекстовый поиск.

Содержание (продолжение) стр.

6.2.3. Вклад алгоритма расчета контекстной значимости.

6.2.4. Эффективность классификации при увеличении объема обучающей выборки и ручной настройке.

6.2.5. Использование ассоциативных связей для повышения качества классификации.

6.2.6. Использование объектов для повышения качества классификации.

6.2.7. Скорость обучения и классификации.

6.3. Выводы.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Шабанов, Владислав Игоревич

С каждым годом увеличивается объем доступных пользователю массивов текстовой информации, и поэтому становится все более актуальной задача поиска необходимых пользователю документов в таких массивах. Для решения этой задачи часто применяются различные тематические классификаторы, рубрикаторы и т. д., которые позволяют искать (автоматически или вручную) документы в небольшом подмножестве документной базы, соответствующем интересующей пользователя тематике.

Ручные классификаторы». Классификатор обычно представляет собой множество рубрик, объединенных в иерархию (рубрикатор). К каждой рубрике приписываются соответствующие ее тематике документы. Иерархия рубрик может являться деревом, однако возможны ситуации, когда некоторые рубрики являются дочерними сразу для нескольких родительских рубрик. Пример: «новости математики» может являться дочерней одновременно для рубрики «математика» и рубрики «новости науки».

Рис. В.1. Пример рубрикатора

У классификационного поиска имеется один существенный недостаток - документы, как правило, приходится классифицировать вручную. Другими словами, при добавлении в массив нового документа сначала нужно его проанализировать и определить, к каким рубрикам классификатора он относится (микропроцессорные системы, сотрудничество компьютерных фирм, изобразительное искусство средневековья и т.д.). И только после этого документ становится доступным для поиска по классификатору.

Понятно, что при небольшом штате технических специалистов или большом потоке входных документов применение ручной классификации становится нереальным. Более того, обеспечить высокую полноту ручной классификации большого объема документов оказывается очень сложно, даже при помощи большого количества специалистов. Дело в том, что при ручной классификации часто случается так, что документ, соответствующий сразу нескольким рубрикам, оказывается приписан только части из них. Обычно количество таких ошибок пропорционально размерности рубрикатора.

Множества рубрик при ручной классификации очень трудно менять, так как любое изменение (например, выделение в рубрике история России подрубрик история СССР, и история древней Руси) приводит к необходимости повторного анализа всех документов данной рубрики и «соседних» рубрик иерархии.

Также следует отметить, что ошибки ручной классификации непрерывно накапливаются, и со временем усиливается потребность в полном пересмотре распределения документов по рубрикам.

Автоматическая классификация. Для решения указанных проблем используют программы классификации, которые автоматически выполняют отнесение документов к рубрикам. Для каждой рубрики такие программы хранят множества признаков, используя которые они могут принять решение, соответствует анализируемый документ рубрике, или нет. Множества признаков рубрики в тематическом рубрикаторе еще называют семантическими образами.

Чаще всего семантические образы рубрик составляет пользователь-эксперт. Однако, современные программы могут решать задачу автоматического обучения (распознавания образов), при которой эксперт приписывает к каждой рубрике некоторое количество эталонных документов, а программа сама выполняет их анализ и строит семантические образы.

Новые свойства. Использование программных средств автоматической классификации позволяет получать динамичные, легко изменяющиеся рубрикаторы любого объема. Действительно, если программа способна обработать десятки или сотни мегабайт текстовой информации за несколько часов, появляется возможность быстро вносить изменения в иерархию рубрик, а также строить системы, обрабатывающие большие потоки текстов в режиме реального времени.

Кроме того, использование автоматических классификаторов позволяет повысить количество рубрик до тысяч и даже десятков тысяч, и упростить отнесение документа сразу к нескольким рубрикам.

Использование развитых программных систем классификации позволяет не только качественно структурировать уже накопленную информацию, но и получать новые знания. Например, анализируя семантические образы рубрик, тематика которых связана с политикой, можно составить список всех фамилий, связанных с соответствующим рубрике политическим явлением.

На рисунке В.2 показана последовательность операций, которые необходимо выполнить для того, чтобы расклассифицировать массив документов.

Сначала эксперты составляют рубрикатор и заносят его в программу. Затем из массива документов выбирается некоторая часть, которая классифицируется вручную, в результате чего к рубрикам приписываются эталонные документы. Дерево рубрик вместе с приписанными к нему эталонными документами называется обучающей выборкой. Затем запускается процедура обучения классификатора, которая формирует внутреннюю информацию, необходимую для последующей автоматической классификации.

После этого программа классификации готова к работе, можно подавать на ее вход документы для автоматической классификации. Иногда в процессе эксплуатации программы может потребоваться коррекция и тонкая настройка рубрик, а также дополнительное обучение.

Рис. В.2. Сценарий использования классификатора

Автоматические классификаторы текстов могут быть полезны практически в любой системе, в которой для представления информации используются текстовые документы. Ниже перечислены несколько примеров использования классификатора.

Фильтрация и маршрутизация сообщений электронной почты

На адреса электронной почты больших компаний приходит несколько сотен или даже тысяч сообщений в сутки. Эти сообщения приходится сортировать, доставляя каждое из них в соответствующее подразделение. При этом необходимо гарантировать время ответа на письма, а также отсутствие потерь информации. Для решения этой задачи может использоваться автоматический классификатор, который настроен на дерево рубрик, отражающее иерархию подразделений в структуре компании. При получении очередного письма такая программа может самостоятельно проанализировать тематику этого письма и направить его одно или несколько соответствующих тематике подразделений. Разумеется, в случае, если расклассифицировать сообщение не удалось, оно попадает на ручную обработку.

Использование автоматического классификатора позволяет существенно уменьшить количество ручного труда, повысить оперативность обработки корреспонденции, а также обеспечить получение письма всеми заинтересованными лицами.

Уточнение результатов поиска в поисковой машине

Если все документы некоторого массива обработаны автоматическим классификатором и, следовательно, отнесены к рубрикам некоторого рубрикатора, то поисковый запрос может включать в себя не только список ключевых слов или фраз, которые должны содержаться в документах, но и имена рубрик. Так, например, пользователь может захотеть найти все * документы, содержащие слово Волга в рубрике автомобили и ее подрубриках. При этом из результатов поиска будут удалены документы, в которых речь идет, например, о нересте осетровых в устье Волги. Системы такого типа сейчас активно разрабатываются [42].

Автоматический учет интересов пользователей сети Интернет при показе рекламы (тематическое таргетирование)

Пользователи сети Интернет постепенно привыкают не обращать внимания на рекламные блоки, размещенные на страницах сайтов. Обусловлено это в первую очередь тем, что большая часть рекламных сообщений выдается «не по делу» - без учета того, действительно пользователь заинтересуется таким сообщением, или нет. Эффективность данного вида рекламы оказывается невысокой. Естественный путь повышения эффективности —показ пользователю только тех рекламных блоков, которые действительно могут его заинтересовать.

Если определить сферы интересов каждого из пользователей, отобразив их в иерархический рубрикатор, и расклассифицировать рекламные блоки по рубрикам этого же рубрикатора, то можно показывать пользователям только те блоки, которые входят в сферу их интересов. Для того чтобы это сделать, достаточно интегрировать автоматический классификатор со счетчиком Интернет (например, со счетчиком 1ор100). Каждый раз, когда пользователь заходит на \уеЬ-страницу, на которой помещен код такого счетчик, на специальном сервере запускается анализатор тематики этой страницы, который пополняет список тематик, составляющих сферу интересов этого пользователя. Такие списки регулярно передаются в систему показа рекламных блоков и используются там для проведения точных, адресных рекламных кампаний.

1. Постановка задачи

Заключение диссертация на тему "Модели и методы автоматической классификации текстовых документов"

Основные результаты

1) Предложен и разработан новый метод автоматической классификации, использующий алгоритмы полнотекстового поиска и ранжирования. Экспериментальная оценка показала, что по совокупности полноты и точности классификации данный метод заметно превосходит традиционные методы.

2) Предложен и разработан метод обучения классификатора, основанный на известном методе различительных сил, и отличающийся использованием обратной связи от процедуры полнотекстового поиска.

3) Разработана модель представления текстовых документов в виде взвешенных векторов словосочетаний. Веса словосочетаний определяются на основе лексических, контекстных и статистических характеристик, учет которых позволяет повысить точность на 10-20%.

4) Разработан метод повышения эффективности классификации, основанный на учете ассоциативных связей между терминами. Разработан оригинальный метод построения словарей ассоциативных связей при помощи анализа потока запросов к поисковой машине. Экспериментальная оценка метода показала 20-50% увеличение полноты или 4-5% увеличение точности в зависимости от способа учета ассоциативных связей.

5) Разработан метод повышения эффективности классификации за счет автоматического выделения в тексте метатекстовых конструкций. Экспериментальная оценка метода показала повышение полноты классификации на 5-15% при увеличении точности также на 5-15%/

6) Предложенные в данной работе методы, модели и алгоритмы реализованы в программном комплексе Классификатор компании МедиаЛингва, доведены до состояния коммерческого программного продукта, внедрены на нескольких предприятиях. Часть алгоритмов и методов внедрена в поисковую машину компании Рамблер.

Направления дальнейшей работы

Работа над предложенной моделью классификатора текстов будет продолжена в следующих направлениях:

• учет гиперссылок;

• совершенствование языка распознавания текстовых конструкций, распознавание списков литературы, глоссариев;

• удаление «дизайна» при классификации \уеЬ-страниц - удаление элементов навигации по сайту, рекламных вставок, блоков новостей ит. д.;

• расщепление списков ассоциаций на тематические кластеры (список ассоциаций термина ключ может быть разбит на кластеры криптографический ключ, гаечный ключ и т. д.)

Заключение

Библиография Шабанов, Владислав Игоревич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Инструментальные средства для создания полнотекстовых баз данных. Абрамова М.М., Буйдов А.Ю., Попов Э.В., Харин Н.П. и др. // НТИ. Сер. 2. -1992.-№2.- С. 26-50.

2. Аишанов И.С. ОРФО 3.0 система автоматизированной проверки правописания в текстах на русском языке. - Москва:ИнформСвязьИздат, 1992.-93 с.

3. Аишанов И.С., Харин Н.П. Интеллектуальные технологии обработки текстов. // Электронный офис. 1997. - №5-6 - С. 24-25.

4. Применение статистических методов для интеллектуальной компьютерной обработки текстов. И.С. Аишанов, Н.П. Харин, В.И. Шабанов и др. II Диалог'97. Труды международного семинара по компьютерной лингвистике и ее приложениям. Ясная Поляна, 1997. -С. 33-37.

5. Белоногое Г. Г. Богатырев В. И. Автоматизированные информационные системы. М: Советское радио, 1973. - 325 с.

6. Березкин Д.В., Шабанов В.И., Андреев A.M. Методы выделения терминов из текста. // Современные информационные технологии: Межвузовская юбилейная научно-техническая конференция аспирантов и студентов. -М., 2001.-С. 117-127.

7. Реализация на ЭВМ системы, анализирующей синтаксические сверхфразовые связи. В.Е. Берзон, М.С. Блехман, A.A. Захаров, Б.Р. Певзнер. II НТИ. Сер. 2. 1984. - №9. - С. 25-31.

8. Добрынин В. Ю. Клюев В.В. Некрестьянов И. С. Оценка тематического подобия текстовых документов // Электронные библиотеки: перспективные методы и технологии: Вторая всероссийская научная конференция. Санкт-Петербург, 2000. - С. 54-62.

9. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000. - N11.- С.81-93.

10. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. - N 12. - С. 40-61.

11. Каневский Е.А. Методы классификации текста. // Диалог 98. Труды международного семинара по компьютерной лингвистике и ее приложениям. Протвино, 1998. С. 488-498.

12. Факторный, дискриминантный и кластерный анализ. Дж. О. Ким, Ч. У. Мьюллер, У. Р. Кчекка и др. М.: Финансы и статистика, 1989. - 215 с.

13. Анализ текстов: представление и обработка концептуальной информации. Г.В. Лезин, К.К. Боярский, Е.А. Каневский, A.M. Попова II Диалог'97. Труды Международного семинара по компьютерной лингвистике и ее приложениям. Протвино, 1997 - С. 170-174.

14. Электронные библиотеки, перспективные методы и технологии. Трудывторой всероссийской научно-методической конференции. Санкт

15. Петербург, 2000. С 189-201.

16. Перевозчикова К.В. Экспериментальное исследование вторичных документов, полученных машинным экстрагированием по маркерно-индикаторному методу // НТИ. Сер. 2. -1987. №6. - С. 23-29.

17. Полонская О.Р. Логико-смысловые коннекторы английского языка как формальные показатели связности текста // НТИ. Сер. 2. 1986. - №6. - С. 19-22.

18. Попов И. И. Храмцов П. Б. Распределение частоты встречаемости терминов для линейной модели информационного потока. // НТИ, 2(2) № 23. 1991 - С.3-22.

19. Искусственный интеллект. Справочник. / Под ред. Э.В. Попова -М.:Радио и связь, 1990. Книга 1. - Системы общения и экспертные системы. - 290 с.

20. Прохоров A.B., Харин Н.П. Ранжирование документов по убыванию их смыслового соответствия запросу на основе учета автоматически построенных ассоциативных отношений. // Экспертные системы реального времени. Семинар РосНИИ ИТиАП. Москва, 1995. С. 113-123.

21. Романова Е.В. РомановМ.В. Некрестьянов И.С. Использование интеллектуальных сетевых роботов для построения тематических коллекций. // Программирование. 2000. - №3. - С. 63-71.

22. Скороходъко Э.Ф. Семантические сети и автоматическая обработка текста. Киев: Наукова думка, 1983. - 218 с.

23. Солтон Дж. Динамические библиотечно-информационные системы. -М.: Мир, 1979.-550 с.-20727. Солтон Дж. Автоматическая обработка, хранение и поиск информации.- М.: Советское радио, 1973. 560 с.

24. Сомин Н.В., Соловьева Н.С., Соловьев С.В. Система рубрикации текстовых сообщений. // Диалог'98: Труды международного семинара по компьютерной лингвистике и ее приложениям. Протвино, 1998. - С. 574582.

25. Фер А. Распознавание и восприятие образов. М.: Машиностроение, 1989.-270 с.

26. Хаит Э. Искусственный интеллект. М.: Мир, 1978. - 560 с.

27. Харин Н. П. Метод ранжирования выдачи, учитывающий автоматически построенные ассоциативные отношения между терминами // НТИ. Сер. 2.- 1990. №9, С. 19-23.

28. Шабанов В. И. Автоматическое индексирование запросов в документальной ИПС, основанное на статистической и морфологической информации. // КомпьюЛог.- 1997. №3. - С. 20-24.

29. Шабанов В.И., Андреев A.M., Сюзев В.В. Построение ассоциативных связей в системах обработки текстов. // Современные информационные технологии: Сборник трудов кафедры ИУ6. М.: МГТУ им. Н.Э. Баумана, 2002.-С. 191-196.

30. Agichtein Е., Lawrence S., Gravano /,. Learning search engine specific query transformations for question answering // WWW10 conference. Boston, 2001 - P. 40-58.

31. Baeza-Yates R., Ribeiro-Neto B. Modern information retrieval. New York: ACM press, 1999.-490 p.

32. Billsus D., Pazzani M. Learning probabilistic user models. // Proceedings of the Conference in Information and Knowledge Management. Berlin, 1998 - P. 656-669.

33. Bonner R.E. On Some Clustering Techniques. // IBM Journal of Research and Development. 1964. - Vol. 8, №1, January - P. 22-32.

34. Brahat K., Henzinger M.R. Improved algorithms for topic distillation in a hyperlinked environment. // Proc. Of the SIGIR'98 Seattle, 1998. - P. 104111.

35. Chen S.F., Rosen/eldR. A Gaussian prior for smoothing maximum entropy methods. // Technical report CS-99-108. Carnegie Mellon University. -Cambridge, 1999. - 28 p.

36. Chekuri C., Goldwasser M.H. Web Search Using Automatic Classification. -Computer Science Department, Stanford University. 1999 - P. 87-95

37. Chakabarti S. Data mining for hypertext: A tutorial survey // ACM SIGKDD. New York, 2000. - Vol. 1, №2. - P. 301-324.

38. Chakabarti S., Dom B., Indyk P. Enhanced hypertext categorization using hyperlinks. // ACM SIGMOD Los Angeles, 1998. - P. 54-71.

39. Chakabarati S., BergM., Dom B. Focused crawling: a new approach to topic-specific web resource discovery. // Proc. Of the WWW-8 conference. -Barcelona, 1999. P. 98-107.

40. Cooper W.S. On selecting a measure of retrieval effectiveness // Journal of the American Society for Information Science. Hampton, 1973. - P. 65-79.

41. Cohen W. W., Singer Y. Context-sensitive learning methods for text categorization // SIGIR'96: Proceedings of the 19th Annual International ACM

42. SIGIR Conference on Research and Development in Information Retrieval. -Helsinki, 1996.-P. 307-315.

43. Cover T., Hart P. Nearest neighbor pattern classification. // IEEE trans, Inform. Theory. -New York, 1967. IT-13. - P. 221-229.

44. Craven M, DiPasquo D., Freitag D. Learning to construct knowledge bases from the world wide web // 17th International Conference on Machine Learning. Ottawa, 2000.-P. 223-241.

45. Craven M, Freitag D., McCallum A. Learning to extract symbolic knowledge from the World Wide Web. // 14th International Conference on Machine Learning. Tokyo, 1997. - P. 152-169.

46. Croft W.B., Turtle H.R. A retrieval model for incorporating hypertext links. // ACM hypertext, New York, 1989. - P. 213-224.

47. Croft W.B., Turtle H.R. Retrieval strategies for hypertext. // Information processing and management. 1993. - №29(3). - P. 313-324.

48. Dasigi V., Manu R. Neural Net Learning Issues in Classification of Free Text Documents // AAAI spring symposium on Machine Learning in Information Access Bombay, 1996. P. 314-328.

49. Deila Pietra S., Deila Pietra V., LajfertyJ. Inducing features of random fields // IEEE transactions on Pattern Analysis and Machine Intelligence. -1997.- 19(4).-P. 89-130.

50. Friedman N., Geiger D., Goldszmidt M. Bayesian network classifiers. // Machine learning. 1997. - №4 - P. 131-163.

51. Frei H.P., Steiger D. Making use of hypertext links when retrieving information // ACM European conference on Hypertext (ECHT). Cambridge, 1992. - P. 102-111.

52. Freí H.P., SteigerD. The use of semantic links in hypertext information retrieval // Information Processing and management 1995. - №31(1). - P. 113.

53. Han E., Karypis G., Kumar V. Text categorization using weight adjusted k-nearest neighbor classification. // 16th International Conference on Machine Learning Denver, 1999. - P. 41-56.

54. He D., Goeker A. Detecting session boundaries from Web user logs // Proc. WWW-10. Boston, 1999. - P. 367-375.

55. HolbrookJ., Eiselt K.P., Mahesh K. A unified process model of syntactic and semantic error recovery in sentence understanding // Journal of the American Society for Information Science. 2000. - №4. - P. 290-306.

56. Honkela. T. Self-organizing maps in natural language processing. // Ph. D. thesis. Helsinki University of Technology. Helsinki, 1997. - 24 p.

57. KleinbergJ. Authoritative sources in a Hyperlinked Environment. // Proc. WWW-97. Chicago, 1997. - P. 121-140.

58. Kohonen T. Automatic formation of topological maps of patterns in a self-organizing system // Proceedings of 2SCIA, Scand. Conference on Image Analysis. Helsinki (Finland), 1981. P. 214-220.

59. Koller D., Sahami M Hierarchically classifying documents using very few words. II Proc. ICML-97. Nashville, 1997 - P. 170-176.

60. Kwok K.L. The use of titles and cited titles as document representations for automatic classification // Information Processing and management. 1975. -№11.-P. 201-206.

61. Kwok K.L. A document-document similarity measure based on cited titles and probability theory and its application to relevance feedback retrieval

62. Research and Development in Information Retrieval. Cambridge University Press 1984. -P. 221-232.

63. Lam W., Ho C.Y. Using A Generalized Instance Set for Automatic Text Categorization //21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Melbourne, 1998. - P. 72-85.

64. Lewis D. Evaluating text categorization. // Proceedings of the Speech and Natural language workshop. Boston, 1991. - P. 312-318.

65. Lewis D. Evaluating and optimizing autonomous text classification systems. // Proceedings of the 8th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. Seattle, 1995. - P. 246254.

66. Lucarella D., Zanzi A. Information retrieval from hypertext: an approach using plausible inference // Information Processing and Management. 1993. -№29(3).-P. 299-312.

67. Makoto /., Takenobu T. Cluster-based text categorization: a comparison of category search strategies // ACM SIGIR. Seattle, 1995. - P. 10-34.

68. McCallum A., Nigam K. A comparison of Event Models for Naive Bayes Classification // AAAI-98 Workshop on Learning for Text Categorization. -Madison, 1998.-P 541-560.

69. McCallum A., RosenfeldR., Mitchell T. Improving text classification by shrinkage in a hierarchy of classes // Proc. ICML-98. Madison, 1997. - P. 359367.

70. Mikheev A. Feature lattices and maximum entropy model. // Machine learning. Stanford, 1999. - P. 39-52.

71. Monson L., Classifying Text with ID3 and C4.5. // Dr Dobbs Journal. 1997. -№10. - P. 117-119.

72. Moulinier /. A framework for comparing text categorization approaches // Journal of the American Society for Information Science. New York, 2000. -№5.-P. 170-179.- 212

73. Nigam K., LajfertyJ., McCallum A. Using maximum entropy for text classification // AAAI-98 Workshop on Learning for Text Categorization. -Madison, 1998.-P 76-95.

74. Ragas H„ Koster C. Four text classification algorithms compared on a Dutch corpus // SIGIR'98 conference. Melbourne, 1998. - P. 86-89.

75. Ratnaparkhi A. A maximum entropy model for part-of-speech tagging // Proc of Empirical methods in Natural Language Conference. Pennsylvania, 1996. -P. 397-417.

76. Riloff E., Lehnert W. Information extraction as a basis for High-Precision Text Classification // ACM Transactions on Information Systems. New York, 1994. - Vol. 12, №3. - P. 296-333.

77. Riloff E., Shoen J. Automatically Acquiring Conceptual Patterns without an Annotated Corpus // Proceedings of the Third Workshop on Very Large Corpora. Cambridge, 1995. - P. 148-161.

78. Riloff E. Little words can make a big difference for text classification.

79. Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Melbourne, 1998. - P. 130-136.

80. Riloff E. Using learned extraction patterns for text classification.

81. Connectionist, Statistical and Symbolic Approaches to learning for natural language processing. Berlin:Springler-Verlag, 1996. P. 275-289.84. van Rijsbergen C.J. Information retrieval New York:McGrow Hill, 1977. -170 p.

82. RochioJ.J. Document Retrieval Systems Optimization and Evaluation. Ph. D. thesis. - Cambridge (Mass). - 1966. - 19 p (Scientific Report № ISR-10, Harvard Computation Laboratory).

83. Savoy J. Learning schemes for information retrieval in hypertexts

84. Information Processing and Management №30(4). - 1994. - P. 515-533.

85. Savoy J. A new probabilistic scheme for information retrieval in hypertext // The new review of hypermedia and multimedia. Boston, 1995. - № 5. - P. 107-134.

86. Slattery S., Craven M. Combining statistical and relational methods for learning in hypertext domains // Proceedings of the 8th International Conference on Inductive Logic Programming Berlin, 1998 - P. 85-97.

87. Salton G. Automatic text processing: the transformation, analysis and retrieval information by computer // ACM SIGIR Conference on Research and Development in Information Retrieval. Cambridge, 1989. - P. 109-131.

88. Salton, G., McGill, M.J. Introduction to Modern Information Retrieval. -New York: McGraw-Hill, 1983. 480 p.

89. Salton G., LeskM.E. Computer Evaluation of Indexing and Text Searching // Journal of the ACM. 1968. - Vol. 15, №1. - P. 8-36.

90. Yang Y. An evaluation of statistical approaches to text categorization. -Journal of the ACM. 1997 - Vol. 29, №1. - P. 18-46.

91. Wiener E., Pedersen J.O., Weigend A.S. A neural network approach to topic potting. I I Proceedings of the Forth Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, 1995. - P. 65-74.