автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Модели и алгоритмы классификации объектов по специальным иерархическим классификаторам на основании тематической близости текстовых признаков

кандидата технических наук
Овчинников, Степан Александрович
город
Волгоград
год
2007
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и алгоритмы классификации объектов по специальным иерархическим классификаторам на основании тематической близости текстовых признаков»

Автореферат диссертации по теме "Модели и алгоритмы классификации объектов по специальным иерархическим классификаторам на основании тематической близости текстовых признаков"

На правах рукописи

ОВЧИННИКОВ СТЕПАН АЛЕКСАНДРОВИЧ

МОДЕЛИ И АЛГОРИТМЫ КЛАССИФИКАЦИИ ОБЪЕКТОВ ПО СПЕЦИАЛЬНЫМ ИЕРАРХИЧЕСКИМ КЛАССИФИКАТОРАМ НА ОСНОВАНИИ ТЕМАТИЧЕСКОЙ БЛИЗОСТИ ТЕКСТОВЫХ ПРИЗНАКОВ

05 13 01 - Системный анализ, управление и обработка информации

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Волгоград 2007

003064364

Работа выполнена на кафедре «Программное обеспечение автоматизированных систем» Волгоградского государственного технического университета

Научный руководитель доктор технических наук, профессор

Александр Михайлович Дворянкин

Официальные оппоненты доктор технических наук, профессор

Александр Александрович Поляков

доктор технических наук, профессор Владимир Иванович Воробьев

Ведущая организация- Федеральное государственное учреждение

государственный научно-исследовательский институт информационных технологий и телекоммуникаций «Информика»

Защита состоится 13 сентября 2007 года в а часов на заседании диссертационного совета Д 212 028 04 при Волгоградском государственном техническом университете по адресу 400131, Россия, Волгоград, пр Ленина 28.

С диссертацией можно ознакомиться в библиотеке Волгоградского государственного технического университета

Автореферат разослан «

Ученый секретарь диссертационного совета

В И Водопьянов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы исследования. В настоящее время в различных областях человеческой деятельности накоплено огромное количество информации о материальных и нематериальных сущностях, их свойствах, поведении и связях Работа любого эксперта с набором понятий и сущностей всегда строится на использовании классификаций (классификацией будем называть способ объединения схожих объектов в группы)

Построение классификаторов и механизмов классификации является хорошо известной задачей искусственного интеллекта и на протяжении многих лет является одной из наиболее востребованных и интенсивно развивающихся его ветвей

Наряду с наборами данных, содержащими только числа, все больший вес в принятии решений приобретают данные сложных, нетривиально интерпретируемых типов, главным из которых является текст Все чаще важная для анализа информация представлена в виде текстов на естественном языке [IBM Press, 2001]

Современные задачи классификации объектов в социальной сфере тесно связаны с имеющимися классификаторами [Шаров 1997, Шатров 1997, Тришин 2005] Очевидно, что реальные задачи классификации данных в научных и прикладных задачах могут решаться только с помощью автоматизированных систем [Поляков 2001, Поспелов 1981]

Построение эффективной системы управления сферой образования, согласно концепции информационного обеспечения индустрии образования программы «Научное, научно-методическое, материально-техническое и информационное обеспечение системы образования» (Поляков 1999) также невозможно без разработки единой системы учета и классификации объектов, описанных текстовыми атрибутами [Поляков 2000, Поляков, Кузнецов, Позднеев 2001]

Однако существующие модели естественного языка и алгоритмы анализа текстов на естественном языке, как правило, направлены на анализ текстов путем построения модели заложенных в тексте знаний Даже наиболее развитые модели текста [Апресян 1989, Мельчук 1965, Жолковский 1967, Растье 1990, Красилов 1961] не позволяют решать задачу классификации текстовых признаков с требуемым уровнем эффективности, так как либо чрезвычайно сложны и специфичны, либо не име-

-3-

ют алгоритмического обеспечения предлагаемых в них методов Несмотря на большое количество разработанных лингвистических моделей и методов классификации текстов, задача классификации текстов на естественных языках на основании тематической близости решается недостаточно хорошо [Анисимов, Марченко 2001]

Таким образом, актуальной является задача разработки моделей и алгоритмов классификации объектов, в описании которых присутствуют текстовые признаки

Цель работы состоит в повышении эффективности выполнения классификации объектов, описанных текстовыми признаками на основе тематической близости за счет разработки и применения новой модели, новых метрик в пространствах текстовых атрибутов, алгоритмов многоуровневой классификации Под повышением эффективности понимается сокращение трудоемкости относительно ручной классификации при качестве классификации, не уступающем автоматизированным анало- ' гам Для достижения данной цели были поставлены и решены следующие задачи

- исследовать подходы к сравнению текстовых признаков, провести обзор моделей, алгоритмов и систем классификации на основании тематической близости текстовых признаков,

- описать особенности рассматриваемого класса задач, постановку задачи, описать модель представления текста для задачи анализа тематической близости, сформулировать задачу классификации с применением модели текстового признака,

- разработать алгоритмы решения задачи классификации на модели, в том числе алгоритмы вычисления расстояния в пространстве текстовых признаков,

- реализовать модели и алгоритмы в программном комплексе, проверить работу модели и алгоритмов на реальных задачах

Методы исследований. Для решения поставленных задач были использованы методы системного анализа, методы искусственного интеллекта, методы интеллектуального анализа данных, а также применялись положения теории объектно-ориентированного проектирования программных систем и теории проектирования реляционных баз данных

Научная новизна работы заключается в следующем

- предложено описание текстового признака объекта классификации, отличающееся от известных возможностью представления множества вариантов связей

слов в предложениях, синонимии, тематической близости слов и позволяющее рассчитывать метрику в пространстве текстовых признаков, описывающем группы специальных иерархических рубрикаторов с учетом явления многозначности слов и вариативности описаний объектов различными экспертами,

- предложена новая метрика для текстовых признаков объектов классификации, отличающаяся от известных возможностью построить жадный алгоритм выбора наиболее близких групп, построен алгоритм поиска оптимального сопоставления моделей текстовых признаков объектов классификации,

- предложен новый подход к оценке тематической эквивалентности понятий, отличающихся от известных совместным использованием словарей синонимов, толковых словарей, методов контент-анализа и позволяющий наполнять нужной информацией систему автоматизированной классификации, осуществлять гибкую настройку алгоритмов с учетом специфики задачи,

- впервые модифицирован подход к многоуровневой классификации, отличающийся построением агрегированных описаний групп по описаниям входящих в группы объектов с возможностью вычисления расстояния по методу ближайшего соседа

Практическая ценность. Практическая ценность работы заключается в разработке подхода к решению задачи классификации объектов по специальным иерархическим классификаторам на основании тематического сходства текстовых признаков, решением важной прикладной задачи классификации по классификатору ОКОФ

Практическая применимость подхода доказана актом о внедрении (Акт № 1 к договору на создание и передачу научно-технической продукции № 57/732-06 от 11 июня 2006 года) и успешным применением к решению задачи классификации основных фондов по общероссийскому классификатору осеювных фондов

Достигнуты следующие результаты

- решены прикладные задачи классификации объектов, описанных естественноязыковыми признаками (по общероссийскому классификатору основных фондов),

- описаны и реализованы общие алгоритмы построения бета-моделей текста, реализованы алгоритмы вычисления расстояния в пространствах слов и бета-моделей,

- спроектирована и реализована I «Автоматизированная система классификации объектов»

Апробация работы Работа имеет следующие внедрения и апробации

- задача классификации основных фондов на примере ВУЗов ЮФО, система «КЕТА» применялась для классификации реальных наборов данных, обработано более 40 ООО объектов основных фондов,

- портал Уо1§а34 ги (ООО «ИНТЕРВОЛГА»), модуль автоматической классификации поступающих ресурсов по многоуровневому рубрикатору (Акт № 1 к договору на создание и передачу научно-технической продукции № 57/732-06 от 11 июня 2006 года),

- программа зарегистрирована в Отраслевом фонде алгоритмов и программ (Свидетельство о регистрации №8210 от 26 04 2007)

Публикации. Основное содержание диссертации нашло отражение в 7 опубликованных научных работах, в том числе в 2 статьях в периодических и научно-технических изданиях, выпускаемых в Российской Федерации, в которых ВАК рекомендует публикацию основных научных результатов диссертаций, в одном свидетельстве об официальной регистрации программы для ЭВМ

Структура и объем работы. Диссертация состоит из введения, четырех глав, выводов и приложений Диссертация содержит 116 страниц основного текста, 13 рисунков, 80 формул Библиографический список включает 138 наименований Общий объем работы - 143 страницы

Содержание работы.

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи исследования, приведена краткая характеристика содержания работы

В первой главе проанализированы существующие подходы к решению задачи классификации, сформулированы основные проблемы, не имеющие решения

В обзоре выделен ряд подходов к задаче классификации прикладной, теоретико-математический и целеориентированный В настоящее время наибольшее число задач относится к целеориентированному типу, причем рассматриваемые в большинстве современных работ методы предполагают, что анализу подвергаются лишь признаки, отнесенные к шкалам порядков, и игнорируют все остальные [Рай-зин 1980, Мандель 1988]

В традиционных постановках [Загоруйко 1957, Зайченко 1999] текст представляется рядом числовых характеристик, каждой из которых ставится в соответствие вес ее вклада в описание объекта, и объект в целом описывается рядом взвешенных числовых характеристик Однако важнейшим нерешенным вопросом остается выбор способа описания текстов числами [Шаров 1998] Наиболее распространенные модели текста, такие как примитивная модель, статистическая [Фоменко 1982, Хакен 1967, Шаров 1990], полиграммная модель [Уоссермен 1992, Плейфейер 1854], модель терм-документ для задач классификации чрезвычайно упрощают понятие текста и не учитывают тематических отношений текстов

С другой стороны, модели смысла текста [Апресян 1989, Мельчук 1965, Жолковский 1967, Растье 1990, Красилов 1961] не позволяют решать поставленную задачу классификации, так как имеет ряд недостатков в моделях отсутствует понятие метрики, задача сравнения обычно не ставится, модель очень сложна с аналитической точки зрения [Калинин 2004]

Обобщая сказанное, можно сделать вывод о том, что современные модели и алгоритмы представления и анализа текста не позволяют решать задачи классификации объектов, описанных текстовыми признаками с учетом тематической близости слов в языке при наличии большого числа классификационных групп

Однако в настоящее время, при переходе к модели информационного общества, растут объемы анализируемых данных, возникает необходимость в автоматизированном и автоматическом анализе не только статистических, числовых показателей, но и специальных, сложных, таких как тексты на естественных языках, изображений, звукозаписей и видеофрагментов [IBM Press, 2001]

В настоящее время проводится значительное количество специальных исследований, посвященных вопросам разработки методом классификации по узкоспециальным многоуровневым классификаторам [Шатров 1997, Тришин 2005, Колыба-нов и Боридко 2005] В основе большинства методов лежат идеи извлечения метаданных из текстов, наиболее часто применяется метод ключевых слов

Таким образом, актуальной является задача классификации объектов, описанных текстовым признаками, по специальным многоуровневым классификаторам, а также разработка моделей и алгоритмов для осуществления такой классификации

Во второй главе описана общая постановка задачи многоуровневой классификации, сформулированы особенности задач рассматриваемого класса, разработана формальная модель

Модель текста с точки зрения тематической близости в задачах классификации представляется кортежом м = (н,Л,С,УД.хШ^, где н - множество типов

признаков, А - множество наборов объектов классификации, описанных кортежами признаков, С - множество классификаторов, У - множество учителей, то есть источников данных о правильных решениях классификации, Т - множество текстов, х!МЪ - множество слов естественного языка

Опишем тип признака объекта как Н = <1,С(Н0,Е(Нг), /?, Р(Н)>, где I - имя типа признака, С - тип значения признака, Е - область значений, Г - числовая неотрицательная функция расстояния (метрика), определенная на множестве пар значений признака из Е, Р(Н) - множество операций, определенных для типа признака Будем обозначать объект классификации как а, = (а/,а,2, , а"') Для классификации по новым типам признаков нужно определить множества Е и функцию Г Текстом, текстовым признаком объекта классификации (ТПО) будем называть любую последовательность символов Естественно-языковым ТПО будем называть ТПО, записанный с помощью слов естественного языка, если слова описаны словарями и известны правила составления предложений и текстов из слов В дальнейшем будем работать только с текстами на русском языке, что не вводит новых ограничений

Обозначим текстовый тип признаков как Нт и опишем Яг=Г=< "Текст ", С(НТ), Е(НТ), /т>

Дополним понятие слова новым свойством — тематикой Обозначим тематику как новый тип признаков ИТем и опишем НТем = Тем = < "Тематика ", С(НГе^,Е(НТы!), /тем > С точки зрения модели тематики текста слово представляет собой элемент языка, имеющий собственную тематику Обозначим функцию тематики как С(Сл) е Е(НТек)

Тематической близостью будем называть свойство пары текстов, заключающееся в том, что описываемые ими понятия относятся к одной области знания, и связь тем сильнее, чем уже область знания, к которой относятся тексты /Ге„ является функцией тематической близости

-В-

В диссертационной работе построена функция расстояния между словами, удовлетворяющая свойствам метрики, отличающаяся от известных применением словарей синонимов, толковых словарей и корпусов текстов на заданную тему

Будем в дальнейшем исходить из гипотезы, что тематики ключевых слов несут большую часть информации о тематике текста

Постановка задачи классификации в общем виде Дано

1) Множество типов признаков Н={Н1, Н2, , Нь}

2) Множество А объектов классификации а, описанных наборами значений признаков А = {аь а2, , а„}, где а, = (а/,а,2, , а,ш) , а^е(Н,,Н2, ГнТ),

3) Иерархия групп объектов классификации

Пусть существует некоторая группа и (универсум), которая включает в себя все возможные в данной задаче объекты Группе и приписывается уровень О С/ = Ц°

Пусть существует несколько групп, обладающих свойством разбиения группы и Припишем им уровень 1 и обозначим С1 С1 ¡, ,С' ци), где Ь(и) - число групп Группы С1 обладают свойством разбиения множества и

Пусть существует несколько групп, обладающих свойством разбиения группы С1 Припишем им уровень 2 и обозначим С2ьС22, ,С2цсп>

Продолжая таким образом до некоторого заранее заданного уровня К, получим дерево групп Отметим, что совокупность групп любого уровня обладает свойством разбиения универсума

Для уровня J таким образом можно записать С) = {{С] 1}, {С]2}, , {Ср},

{С)1}}, где С|1 = {1,<Наименование группы>}

Каждая группа описывается индексами в дереве С) и уникальным номером группы к Наибольший номер группы равен общему числу групп и равен К С помощью уникального номера группа записывается как С[к]

4) Эталонное множество В объектов (учитель), для каждого из которых указан номер группы, к которой он принадлежит Таким образом заданы функция группы С(Ь,) и множество групп С В = {Ьь Ь2, , Ьп}, где Ь, = (Ь,',Ь,2, , Ь,ш, Ь,"с') С(Ь,) = Ь,С",

С = {{Ст}, {С12]}, ,{С[Ц}, {С1К]}}, где Ст = {ЬИь Ь1кр, }

5) Эксперт Э, который может для каждого объекта из множества А указать правильную группу Таким образом, задана функция группы Оа(а,) Требуется

Каждому объекту из множества А поставить в соответствие номер группы (отнести новые объекты к существующим группам) А = {а], аг, , ап}, где а, = (а,1,а,2, , а,т, а,0 ) , то есть задать функцию групп на множестве А С(а1) = а,с", и дополнить элементы множества групп

С = {{С1},{С2}, ,{С)}, {С!}},где = „а,.,^, }

при выполнении условий а(С)<у и Р(0)<ср где а(С) - внешняя мера качества классификации, Р(О) - внутренняя мера качества классификации, у, ср - заданные неотрицательные пороговые значения

Множество прикладных задач, попадающих в поле рассмотрения данного исследования, обладает рядом особенностей, позволяющих рассматривать их комплексно

- информация об объектах представлена преимущественно текстовыми признаками относительно малой длины (1),

- иерархический классификатор отражает узкую специфику, имеет значительное количество подгрупп на каждом уровне Группы классификатора описаны текстовыми признаками (2),

- основание классификации есть тематическая близость текстовых признаков объекта и группы (3),

- обучающие выборки недостаточны для тренировки классификатора (4) Требование (4) обусловлено тем, что в ситуациях, когда имеется значительное

покрытие задачи принятия решения обучающими примерами или легкодоступен учитель, целесообразно применять традиционные методы обучения распознавателей

Примерами задач рассматриваемого класса являются задача классификации основных фондов по общероссийскому классификатору основных фондов (а также большинство задач, связанных с применением общероссийских классификаторов), задача классификации по международному классификатору изобретений, задача классификации по МКБ-10

Словарь не может задать отношения между любой парой слов При этом необходимо обладать способом вычисления метрики для любой пары слов Рассмотрим модель словаря и опишем способ вычисления метрики для произвольной пары слов, если между ними есть цепочка связей

Будем обозначать отдельный словарь связей как , набор словарей как Обозначим степень эквивалентности понятий А и В как ЭА„ или Э{А,В) Функция

Э(А,В) определена для любой пары слов одной части речи и принимает значения от О до 1 включительно

Каждый словарь представляет собой множество значений функций расстояния пар {(А,В) , Э(а,в) } Множество симметрично относительно перестановок в паре

Введем понятие ослабевания эквивалентности (меры затухания эквивалентности) и обозначение г для этой величины В диссертации приведено описание применения и расчета величины г Введем величину ЭАС как меру транзитивной эквивалентности слов А и С, вычисленную по паре связей А->В и В->С Э~- *

"1/ + у

/ ЭАЗ /Эвс

Способ вычисления Эдс и рекомендуемые значения г рассмотрены в диссертации

Модель представления информации о задаче классификации на основе тематической близости текстовых атрибутов можно представить схемой (см рис)

Формальная модель текста В общем случае значение и тематика текста может определяться различными его свойствами, лексикой, синтаксисом и другими свойствами В данном исследовании предлагается следующая упрощенная модель текста Введем понятие тематического ядра текста Под тематическим ядром (ТЯ) понимается совокупность тематик существительных и устойчивых сочетаний, употребленных в именительном падеже или базовой форме

Чтобы описать 1'Я, определим функцию ^N(0 VI еТ 8Н(1)={гп,,5и2, } где I

Схема модели тематики текста И ИЛИ дерево

0 уровень Корень Тиет!

1 уровень Тематическое ядро

3 уровень варианты сателлитов

адра

3 уровень сатеплиты нцра

а а Э е ш

ПРИ, ЯЛ «.ум

»у*<т ГЬоадежуточв»* реп I

- текст, БТ^) - функция тематического ядра, вп, — элементы тематического ядра

Введем функцию сателлитов (зависимых слов) Б(Пр, Сл) где Сл - слово, Пр

- предложение

Значением функции для заданного слова в предложении является варианты списков связанных с ним слов \/Сл с Пр 8(Пр,Сл) = {5,,52, } Э, =(Сл|,Сл;,, ,Сл',), где

Сл1 - первое связанное слово из варианта 1

Для описания тематики текста через тематику слов воспользуемся известной моделью И-ИЛИ дерева Корнем дерева является определяемый текст Первый уровень является И-уровнем и содержит элементы ТЯ Второй уровень является ИЛИ-уровнем и содержит варианты списка сателлитов для каждого элемента ТЯ Третий уровень является И-уровнем и содержит слова-сателлиты Четвертый уровень является ИЛИ-уровнем и содержит слова словаря, сила тематической связи которых с соответственными элементами 3 уровня больше заданного порога Пятый уровень является И-уровнем и содержит все значения функции С для соответственных элементов 4 уровня Таким образом, любой текст в рамках модели описывается И-ИЛИ-деревом Будем называть такое представление модели текста бета-моделью (или И-ИЛИ деревом модели текста) Для того, чтобы сравнить два текста, нужно сопоставить их бета-модели Для представления групп применяется та же модель бета-модель текста наименования группы

Третья глава посвящена разработке алгоритмического обеспечения процесса классификации Разработаны алгоритмы анализа сходства слов, построения бета-моделей текстов, вычисления расстояния между бета-моделями текстов и групп

Рассмотрим исходные данные Будем полагать, что заданы множества текстов Т, первичных текстов Т0,, слов языка Сч, словарей синонимов £>,>л , показателей затухания г, толковых словарей , константы у, ср Необходимо задать следующие функции

1 Функция тематики слова С(Сл),

2 Функция «часть речи в предложении»,

3 Функция тематической эквивалентности словаря э(а, в) ,

4 Функция тематического ядра $М(!) ,

5 Функция сателлитов Б(Пр, Сл) ,

6 Функция расстояния (метрика) в пространстве слов,

7 Функция расстояния (метрика) в пространстве бета-моделей

А также задать алгоритмы выполнения следующих операций

8 Построение бета-модели ЕЯТПО,

-12-

9 Агрегирование свойств ЕЯТПО для формирования модели группы

Для определения значения С(Сл) предлагается использовать следующую процедуру Если слово присутствует в одном или нескольких словарях типа Ле|ф .значением тематики слова является совокупность значений слова по словарям Возможные коллизии и способы их разрешения рассмотрены в разделе 3 1 диссертации Если же слово отсутствует в словарях, предлагается использовать метод контент-анализа в комбинации с предложенными в данной работе бета-моделями текста

Пусть А и В - исследуемые слова, отсутствующие в словарях Пусть -

событие присутствия слова А выборке текстов на тематику ^ Тогда отнесение слова

А к тематике 1о определяется из соотношения ^ рИ-«<,)/сл(1,)=1,,)), ИМ«)".); Предложенный способ определения тематики отличается возможностью применения словарей Для вычисления значения ЧР(Сл) применяются методы, описанные ЮД Апресяном [Апресян, Богуславский, Иомдин и др 1989] Для словарных слов применяются данные морфологического словаря А А Зализняка, для новых слов используется открытый морфоанализатор А Коваленко, детально описанный в [Коваленко 1999, Коваленко 2002]

Для расчета значений функции тематической эквивалентности словаря э(л,В) применяется принцип расчета эквивалентности по числу и длине синонимических цепочек между парой сопоставляемых слов При расчете применяется ряд настроечных параметров, принципы и алгоритмы расчета которых приведены в разделах 2 3 4 и 3 3 диссертации

Функция тематического ядра текста 8М(Б) должна выделять список слов текста, определяющих его тематику в наибольшей степени Согласно предложенной модели текста, к тематическому ядру текста относятся все существительные, употребленные в именительном падеже, а также все сокращения и устойчивые сочетания слов, которые следует рассматривать как одно слово Алгоритм вычисления и

алгоритм вычисления настроечных параметров приведены в диссертации

Одним из наиболее сложных является вопрос о нахождении связанных слов (слов-сателлитов) в предложении 8(Пр, Сл) Построить точную функцию Б без понимания текста на уровне прагматики это невозможно [Апресян 1989, Богуславский 1992] («Эти типы стали есть в прокатном цехе», «Косил косой косой косой») Возможна только многозначная функция 8 В работе для решения этой задаче предложен и использован метод, основанный на анализе структуры предложений языка и выделений правил связности Трудоемкость построения функции Б для предложе-

-13-

ния складывается из вычисления функции ЧР для каждого слова и проведения голосования правил связности методом комитетов [Мазуров ¡990].

Значением функции является список вариантов списков связанных слов. На практике ¡акая наиболее общая модель многозначной функции сателлитов учитывает все особенности естественных языков.

Функция расстояния в пространстве слов использует ранее определенные функции 5 и Э и приводится к ранее рассмотренной функции Э между элементами. Бета-модель текста строится поочередно для каждого уровня бета-модели с применением рассмотренных функций Б, БИ, ЧР. Алгоритм построения каждого уровня рассмотрен в соответствующем разделе диссертации.

Вычисление расстояния в пространстве бета-моделей представляет собой основную процедуру классификации и применяется наиболее часто при решении реальных задач. Задача расчета расстояния между И-ИЛИ деревьями традиционно [СЬатрт Р.-А., $о!поп С. 2003, ОЬесНга 2005] рассматривается как совокупность двух задач; выбора оптимального сопоставления к собственно расчет расстояния. К расчету расстояния применен тривиальный подход: расстояние между парой бета-моделей равно сумме расстояний между парами сопоставляемых слов. Выбор сопоставления бета-моделей должен удовлетворять ограничениям, требующим сопоставлять пары из одних и тех же подгрупп каждого уровня. Построение (¿^

является успешным, если удается найти сопоставление терминальных вершин бета-моделей пары текстов.

Задача оптимального сопоставлений заключается в выборе допустимой комбинации, для которой сумма расстояний в парах минимальна. В диссертации предложен алгоритм поиска сопоставления, дающего наилучшие результаты. Разработанный алгоритм гарантированно найдет оптимальное сопоставление за конечное число шагов.

Таким образом, перечисленные задачи решены в диссертации, приведены оценки рекомендуемых значений констант, для алгоритма расчета расстояния в пространстве бета-моделей как для наиболее часто используемого при решении задачи показано, что он находит наименьшее расстояние за ограниченное время. Доказано,

что алгоритм агрегирования моделей группы позволяет применять жадный алгоритм многоуровневой классификации

В четвертой главе описана «Автоматизированная система классификации объектов», показано решение реальных задач с ее применением, оценено время решения задач, показано превосходство предлагаемых алгоритмов над известными аналогами

Автоматизированная система классификации по естественным текстовым признакам ЕЯТПО (далее - АС КЕТА) разработана с использованием технологии объектно-ориентированного анализа Широта и универсальность постановки задачи, а также рассматриваемых сфер применения требует разработки программного обеспечения с применением средств и технологий, обеспечивающих максимальные возможности повторного использования и развития моделей и алгоритмов для любого класса задач Система построена с применением ставшей традиционной для крупных и расширяемых приложений трехуровневой архитектуры (данные и алгоритмы работы с ними, логика принятия решения, интерфейс) Данная архитектура позволяет обеспечить высокую степень унификации программных и технических решений, а также обеспечить независимость реализации каждого из уровней

На уровне данных присутствует общее хранилище первичной информации и базовые алгоритмы обработки данных

Основной уровень программной реализации включает модули принятия решения о классификации Подсистема классификации осуществляет две стадии работы классификатора обучающую и рабочую, подсистема работы с моделью ЕЯТПО реализует основные функции построения и сопоставления признаков, а также осуществляет решение задач, специфичных для языка

Общая архитектура АС КЕТА представлена на рисунке

Особое внимание следует обратить на дополнительные банки данных, отнесенные к уровню логики классификации

Банк данных о языке содержит перечень правил для определения значения функции ЧР(Сл), морфологические таблицы Зализняка, данные об алфавите, перечень пробельных символов и тому подобное Такие банки данных могут быть созданы и поддерживаемы для различных языков и задач

Банк данных задачи содержит информацию, применяемую при построении и оценке моделей, специфичную для данной задачи дополнительные словари Вехр и Озуп, список пробельных символов

Уровень интерфейса предусматривает возможность реализации программного

комплекса в \Утс1о\У8-интерфейсе как самостоятельного приложения и внедрения

- 15-

'/ронмь 3. ИуП^сФ»1*

I

У-

Кгаслих»

непосредственно на рабочих местах, или в виде веб-приложения для осуществления широкого доступа к в г,{числительным и информационных ресурсам системы. Интерфейс обмена данных предназначен для внедрения КЁТА как подсистемы CRP или CRM-системы и пакетной обработки данных.

Описанная архитектура основана на стандартной для крупных приложений трехуровневой структура и обладает следующими особенностями: применение предложенной и описанной в Главе 2 модели; реализация новых алгоритмов, описанных в Главе 3; модульность; расширяемость на уровне банка данных; независимость от языка; наличие подготовленных механизмов встраивания системы в состав крупных информационных комплексов.

Задача классификации по ОКОФ имеет ряд особенностей: наличие технических сокращений, отсутствующих в словарях; значительное число слов, набранных латиницей, являющихся названиями производителей; значительное число объектов, ГЯТПО которых очень кратки и содержат только марку изделия (примеры: LS-17, IBM Pentium4); значительное число применяемых знаков препипания, которые по сути являются пробельными

символами; значительное число опечаток в таблицах; значительное число неологизмов и составных слов (птицецех, мелькомбинат).

Общая постановка задачи и описанный метод решения не учитывает этих особенностей. Однако в структуре системы КЕТА есть возможность формировать бан-

-J6-

Модугъаналкм мДОчк

paCotv с uoäftf«Jü ЁЯТГО

бц)»1н«ш1еАи Ikcipuf 1МрЧ»ПА

с кадеты ело», Оысгрык nopipeiOft.

<

1умо** вбр*бвт»4 дриад:

интерфейсы к ¡цжыгешяи /лнных. tyf+zjm*

ки данных, специфичные для задачи. При реализации классификатора по ОКОФ на базе системы КЕТА были созданы и использованы следующие информационные элементы (в скобках указан тип словаря, в виде которого представляется информация): таблица значений технических сокращений (Вехр); таблица близости производителей изделий их типам (Рзуп); таблица соответствий марок изделий их типам (ОБуп); таблица распространенных опечаток (1}ехр); таблица пробельных символов; таблица значений сокращений (Оехр).

Таблица - Результаты экспериментов.

Эксперимент Средняя точность распознавания аналога Средняя точность распознавания предлагаемого алгоритма т CT" Щ

Верхний уровень 0,724 0,756 0,00880 0,7405 0,7715

Нижний уровень 0,321 0,658 0,009387 0,6420 0,6740

Реальные данные 0,522 0,831 0,0968 0,7797 0,8823

EI IAO 0,870 0,75 0,008 0,7352 0,7648

ОКОФ 0,310 0,748 0,10544 0,6944 0,8016

ОКОФ - общероссийский классификатор основных фондов. Представляет собой иерархическое дерево групп объектов, включающее 5 уровней и около 11000 листов - элементов последнего уровня.

При работе над темой диссертационного исследования использовались реальные наборы данных, составленные по таблицам основных фондов ВУЗов ЮФО Средняя доля распознавания и рассчитанные величины (0ив2) границ доверительных интервалов для проведенных экспериментов приведены в таблице «Результаты экспериментов»

Таким образом, с уверенностью, характеризуемой вероятностью попадания в доверительный интервал 0,9 можно утверждать, что случайно выбранный набор данных при обработке предлагаемым алгоритмом даст долю ошибок, не выходящую за пределы доверительного интервала из таблицы «Результаты экспериментов»

В целом предлагаемый классификатор показал результаты, превосходящие по качеству аналоги в части специфичных для него задач, показал применимость для решения смежных с рассмотренной задач классификации по ЕНАО, показал значительное (на два порядка) сокращение трудоемкости по сравнению с ручной классификацией Таким образом, построенный классификатор удовлетворяет всем требованиям, вытекающим из цели исследования и сформулированным ранее Основные положения, выносимые на защиту:

- новое описание текстового признака объекта классификации, отличающееся учетом явлений синонимии, морфологии, синтаксиса,

- метрика в пространстве описаний текстовых признаков объектов,

- подход к классификации объектов, описанных текстовыми признаками, по многоуровневым иерархическим классификаторам,

- архитектура и функционирование «Автоматизированной системы классификации объектов»

Основные результаты и выводы.

1 Описана постановка задачи многоуровневой классификации, отличающаяся от известных основанием классификации (тематическая близость текстовых признаков), наличием описаний методов учета языковых явлении (морфология, синонимия, грамматика)

2 Предложена модель, отличающаяся учетом особенностей естественно-языковых признаков, разработаны алгоритмы расчета близости слов и текстов, алгоритм построения моделей текстовых признаков объектов классификации, ряд вспомогательных алгоритмов

3 Предложенная модель и разработанные алгоритмы реализованы в виде автоматизированной системы «Классификация по естественным текстовым атрибутам»

4 Система была исследована на решении модельных задач, подготовленных на основе реальных данных Точность работы системы при классификации по ОКОФ составила от 74% до 83% в разных экспериментах

5 Созданная автоматизированная система «Классификация по естественным текстовым атрибутам» имеет широкий спектр применения, защищена Свидетельством о регистрации в ОФАП № 8210 от 26 апреля 2007 года

Полученные результаты позволяют повысить эффективность решения задачи

классификации по многоуровневым классификаторам на основании учета тематической близости естественно-языковых признаков

Опубликованные работы по теме диссертации

1 Дворянкин A M, Овчинников С А Разработка моделей и алгоритмов для решения задачи автоматизированной классификации объектов с учетом естественно-языковых атрибутов // Изв ВолгГТУ межвуз сб науч ст №1 (27)/ ВолгГТУ - Волгоград, 2007. [Сер Актуальные проблемы управления, вычислительной техники и информатики в технических системах Вып 1]/- с 44-48

2 Овчинников, С А Алгоритм автоматической рубрикации ресурсов на основе применения естественно-языковых метрик /С А Овчинников //Научная сессия МИФИ-2006 сб науч тр Интеллектуальные системы и технологии /Моек игок -физ ин-т (гос ун-т) и др - M , 2006 - С 200-201

3 Овчинников С А Разработка алгоритмов построения и оценки качества кластеризации в задачах извлечения знаний из баз данных на основе алгоритма Кохонена // "Информационно-измерительные и управляющие системы", 2004, № 3, т 2, с 32-39

4 Овчинников, С А Модели и алгоритмы автоматической классификации объектов, описанных естественно-языковыми атрибутами / CA Овчинников //Информационные технологии в образовании, технике и медицине матер междунар конф , Волгоград, 23-26 октября 2006 г /ВолгГТУ и др - Волгоград,2006-С 166-167

5 Овчинников, С А Разработка моделей и алгоритмов для решения задачи автоматизированной классификации объектов с учетом естественно-языковых атрибутов / С А Овчинников, A M Дворянкин //Технологии Microsoft в теории и практике программирования тр Всерос конф студ, аспир и мол ученых Центр регион Москва, 2-3 марта 2006 г /МГТУ им H Э Баумана - M, 2006 -С 129-130

t

6 Овчинников, С А Расчет семантической эквивалентности понятий Естественно-языковые метрики / С А Овчинников //Технологии Microsoft в теории и практике программирования, матер конф, Нижний Новгород, 21-22 марта 2006 г /Нижегород гос ун-т им H И Лобачевского - H Новгород, 2006 -С 232-233

7. Овчинников С А Разработка моделей и алгоритмов для решения задачи автоматизированной классификации объектов с учетом естественно-языковых атрибутов / Овчинников С.А , Дворянкин A M //Технологии Microsoft в теории и практике программирования тр Всерос конф студ, аспир и мол ученых Центр регион - M , 2006 - 129-130с

8 Свид об офиц per программы для ЭВМ № 8210 Обучаемый автоматизированный классификатор объектов по текстовым данным - №8210, Заяв 26 04 2007 опубл 26 04 2007 ОФАП 2007

Подписано в печать /8 04 2007 г Заказ № 62 7 Тираж 100 экз Печ л 1,0 Формат 60 х 84 1/16 Бумага офсетная Печать офсетная

Типография РПК «Политехник» Волгоградского государственного технического университета 400131, г Волгоград, ул Советская, 35

Оглавление автор диссертации — кандидата технических наук Овчинников, Степан Александрович

АННОТАЦИЯ.

ВВЕДЕНИЕ.

ПЕРЕЧЕНЬ СОКРАЩЕНИЙ, УСЛОВНЫХ ОБОЗНАЧЕНИЙ, СИМВОЛОВ И

ТЕРМИНОВ.

ГЛАВА 1. ОБЗОР МОДЕЛЕЙ И АЛГОРИТМОВ КЛАССИФИКАЦИИ ОБЪЕКТОВ.

1.1 Введение.

1.2 Содержательная постановка задачи классификации.

1.3 Понятие классификации. Разновидности классификаторов.

1.4 Признаки.

1.5 Функция расстояния (метрика) в пространстве признаков.

1.6 Модели текста в методах классификации.

1.7 Цели исследования.

ГЛАВА 2 МОДЕЛЬ ДЛЯ ПОСТАНОВКИ И РЕШЕНИЯ ЗАДАЧИ КЛАССИФИКАЦИИ ОБЪЕКТОВ, ОПИСАННЫХ ТЕКСТОВЫМИ ПРИЗНАКАМИ. МОДЕЛЬ АНАЛИЗА ТЕМАТИЧЕСКОЙ БЛИЗОСТИ ТЕКСТОВ.

2.1 Основные определения.

2.2 Постановка задачи классификации в общем виде.

2.3 Модель анализа тематической близости.

2.4 Постановка задачи классификации на основе анализа близости текстовых признаков.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Овчинников, Степан Александрович

4.2 Архитектура автоматизированной системы КЕТА. Аспекты реализации.82

4.3 Представление данных в системе КЕТА.84

4.4 Решение задачи классификации основных фондов.88

4.5 Расчет доверительных интервалов серии экспериментов. Оценка экспериментальных данных.101

4.6 Основные результаты и выводы по главе 4.102

ЗАКЛЮЧЕНИЕ.102

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ.104

ПРИЛОЖЕНИЕ А. ПОНЯТИЯ КЛАССИФИКАЦИИ. ИСТОРИЧЕСКИЕ ПРИМЕРЫ КЛАССИФИКАТОРОВ.117

ПРИЛОЖЕНИЕ Б. ОПРЕДЕЛЕНИЯ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ПОНЯТИЙ

126 3

ПРИЛОЖЕНИЕ В. ТЕМАТИЧЕСКИЙ РУБРИКАТОР ПОИСКОВОЙ СИСТЕМЫ, ОСНОВАННЫЙ НА ТЕМАТИЧЕСКОЙ БЛИЗОСТИ ТЕКСТОВЫХ

ПРИЗНАКОВ ОБЪЕКТОВ.130

ПРИЛОЖЕНИЕ Г. МНОГОУРОВНЕВЫЕ СПЕЦИАЛЬНЫЕ КЛАССИФИКАТОРЫ, ОСНОВАННЫЕ НА ТЕМАТИЧЕСКОЙ БЛИЗОСТИ

ТЕКСТОВЫХ ПРИЗНАКОВ ОБЪЕКТОВ КЛАССИФИКАЦИИ.132

ПРИЛОЖЕНИЕ Д. АНАЛИЗ ТАБЛИЦЫ ОСНОВНЫХ ФОНДОВ.136

ПРИЛОЖЕНИЕ Е. ПРОТОКОЛ ЭКСПЕРИМЕНТОВ.138

Аннотация

Документ представляет собой диссертацию на соискание степени кандидата технических наук по специальности «Системный анализ, управление и обработка информации». Работа посвящена разработке новых моделей и алгоритмов классификации объектов на основе анализа тематической близости значений естественно-языковых признаков.

Введение

Актуальность темы исследования

В настоящее время в различных областях человеческой деятельности накоплено огромное количество информации о различных материальных и нематериальных сущностях, их свойствах, поведении и связях [50][120]. Работа любого эксперта с набором понятий и сущностей всегда строится на использовании классификаций (на данном этапе будем называть классификацией способ объединения объектов в группы по их близости в рассматриваемой предметной области).

Построение классификаторов и механизмов классификации является хорошо известной задачей искусственного интеллекта и на протяжении многих лет является одним из наиболее востребованных и интенсивно развивающихся разделов соответствующей области знания [П4][75][41]. Классификатор объектов характеризуется качеством классификации и сложностью алгоритма распознавания новых объектов. Меры качества классификации традиционно делят на внешние (экспертные) и внутренние (меры, вычисляемые на основе анализа разделения объектов по группам) [67].

Наряду с наборами данных, содержащими одни только числа, все больший вес в принятии решений приобретают данные сложных, нетривиально интерпретируемых типов, главным из которых является текст. Все чаще важная для анализа информация представлена в виде текстов на естественном языке [50][59][60][61].

Отметим, что наиболее часто в реальных задачах речь идет о классификации наименований или описаний объектов.

Современные задачи классификации объектов тесно связаны с имеющимися классификаторами. Так, например, общее количество объектов, которые подлежат классификации по общероссийскому классификатору основных фондов ОКОФ, составляет более 1 миллиарда в настоящий момент и порядка 40 миллионов обновляется ежегодно (материалы сайта Госкомстата России gks.ru за 2004

2005 годы [29]). При этом классификатор ОКОФ содержит более 11000 групп объектов, и размерность задачи абсолютно исключает ручное выполнение такой классификации как по техническим, так и по экономическим соображениям.

Построение эффективной системы управления сферой образования, согласно концепции информационного обеспечения индустрии образования программы «Научное, научно-методическое, материально-техническое и информационное обеспечение системы образования» (Поляков 1999) также невозможно без разработки единой системы учета и классификации объектов, описанных текцНи стовыми признак [109][110][111].

Очевидно, что подобные задачи классификации малоформализованной информации могут решаться только с помощью автоматизированных систем (Поляков 2001 [111], Поспелов 1981 [112]).

Однако существующие модели естественного языка и алгоритмы анализа текстов на естественном языке, как правило, направлены на анализ текстов путем построения модели заложенных в тексте знаний. Даже наиболее развитые модели текста (Апресян 1989 [20], Мельчук 1965 [79], Жолковский 1967 [64], Растье 1990 [60], Красилов 1961 [59]) не позволяют решать задачу классификации наименований с требуемым уровнем эффективности, так как либо чрезвычайно сложны и специфичны, либо не имеют алгоритмического обеспечения предлагаемых в них методов.

Естественный язык как объект исследования рассматривается в различных предметных областях, таких как логика, аналитическая философия, филология и герменевтика как наука об интерпретации текстов [40], структурная лингвистика, семиотика как наука о знаковых системах [36], языкознание.

Несмотря на большое количество разработанных лингвистических моделей и методов классификации текстов (Поспелов 1973 [120]), задача анализа текстов на естественных языках решается недостаточно хорошо [24]. Таким образом, актуальной является задача разработки и внедрения алгоритмов классификации и кластеризации объектов, в описании которых присутствуют естественноязыковые признаки.

Цель работы

Целью работы является повышение эффективности выполнения классификации объектов, описанных естественно-языковыми признаками на основе тематической близости за счет разработки и применения новой модели, новых метрик в пространствах текстовых признаков, алгоритмов многоуровневой классификации. Под повышением эффективности понимается сокращение трудоемкости относительно ручной классификации при качестве классификации, не уступающем автоматизированным аналогам.

Для достижения данной цели были поставлены и решены следующие задачи:

- исследовать подходы к сравнению текстовых признаков, провести обзор моделей, алгоритмов и систем классификации на основании тематической близости текстовых признаков;

- описать особенности рассматриваемого класса задач, постановку задачи, описать модель представления текста для задачи анализа тематической близости, сформулировать задачу классификации с применением модели текстового признака;

- разработать алгоритмы решения задачи классификации на модели, в том числе алгоритмы вычисления расстояния в пространстве текстовых признаков;

- реализовать модели и алгоритмы в программном комплексе, проверить работу модели и алгоритмов на реальных задачах.

Методы исследований

Для решения поставленных задач были использованы методы системного анализа, методы искусственного интеллекта, методы интеллектуального анализа данных, а также применялись положения теории объектно-ориентированного проектирования программных систем и теории проектирования реляционных баз данных.

Научная новизна

Научная новизна работы заключается в следующем:

- предложено описание текстового признака объекта классификации, отличающееся от известных возможностью представления множества вариантов связей слов в предложениях, синонимии, тематической близости слов и позволяющее рассчитывать метрику в пространстве текстовых признаков, описывающем группы специальных иерархических рубрикаторов с учетом явления многозначности слов и вариативности описаний объектов классификации различными экспертами;

- предложена новая метрика для текстовых признаков объектов классификации, отличающаяся от известных возможностью построить жадный алгоритм выбора наиболее близких групп, построен алгоритм поиска оптимального сопоставления моделей текстовых признаков объектов классификации;

- предложен новый подход к оценке тематической близости понятий, отличающихся от известных совместным использованием словарей синонимов, толковых словарей, методов контент-анализа и позволяющий наполнять нужной информацией систему автоматизированной классификации, осуществлять гибкую настройку алгоритмов с учетом специфики задачи;

- впервые модифицирован подход к многоуровневой классификации, отличающийся построением агрегированных описаний групп по описаниям входящих в группы объектов с возможностью вычисления расстояния по методу ближайшего соседа;

Практическая ценность

Практическая ценность работы заключается в разработке подхода к решению задачи классификации объектов по специальным иерархическим классификаторам на основании тематической близости текстовых признаков, решением важной прикладной задачи классификации по классификатору ОКОФ.

Практическая применимость подхода доказана актом о внедрении (Акт № 1 к договору на создание и передачу научно-технической продукции № 57/732-06 от 11 июня 2006 года) и успешным применением к решению задачи классификации основных фондов по общероссийскому классификатору основных фондов.

Достигнуты следующие результаты.

- решены прикладные задачи классификации объектов, описанных естественноязыковыми признаками (ОКОФ);

- описаны и реализованы общие алгоритмы построения бета-моделей текста, реализованы алгоритмы вычисления расстояния в пространствах слов и бета-моделей;

- спроектирована и реализована «Автоматизированная система классификации объектов».

Апробация работы.

Работа имеет следующие внедрения и апробации:

- задача классификации основных фондов на примере ВУЗов ЮФО, система «КЕТА» применялась для классификации реальных наборов данных, обработано более 40 ООО основных фондов;

- портал volga34.ru (ООО «ИНТЕРВОЛГА»), модуль автоматической классификации поступающих ресурсов по многоуровневому рубрикатору (Акт № 1 к договору на создание и передачу научно-технической продукции № 57/732-06 от 11 июня 2006 года);

- программа зарегистрирована в Отраслевом фонде алгоритмов и программ (Свидетельство о регистрации №8210 от 26.04.2007).

Публикации

Основное содержание диссертации нашло отражение в 7 опубликованных научных работах, в том числе в 2 статьях в периодических и научно-технических изданиях, выпускаемых в Российской Федерации, в которых ВАК рекомендует публикацию основных научных результатов диссертаций; в одном свидетельстве об официальной регистрации программы для ЭВМ.

Структура и объем работы

Диссертация состоит из введения, четырех глав, выводов и приложений. Диссертация содержит 116 страниц основного текста, 13 рисунков, 80 формул. Библиографический список включает 138 наименований. Общий объем работы -143 страницы.

Заключение диссертация на тему "Модели и алгоритмы классификации объектов по специальным иерархическим классификаторам на основании тематической близости текстовых признаков"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Описана постановка задачи многоуровневой классификации, отличающаяся от известных основанием классификации (тематическая близость текстовых признаков), наличием описаний методов учета языковых явлений (морфология, синонимия, грамматика).

2. Предложена модель, отличающаяся учетом особенностей естественноязыковых признаков, разработаны алгоритмы расчета близости слов и текстов, алгоритм построения моделей текстов языковых, ряд вспомогательных алгоритмов.

3. Предложенная модель и разработанные алгоритмы реализованы в виде автоматизированной системы «Классификация по естественным текстовым признакам».

4. Система была исследована на решении модельных задач, подготовленных на основе реальных данных. Точность работы системы при классификации по ОКОФ составила от 74% до 83% в разных экспериментах.

5. Созданная автоматизированная система «Классификация по естественным текстовым признакам» имеет широкий спектр применения, защищена Свидетельством о регистрации в ОФАП № 8210 от 26 апреля 2007 года.

В целом полученные результаты позволяют эффективность решения задачи классификации по многоуровневым классификаторам на основании учета тематической близости естественно-языковых признаков.

Заключение

Библиография Овчинников, Степан Александрович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. An intrusion-detection model, D. E. Denning, 1987, IEEE Transactions on Software Engineering, Vol. SE-13(No. 2):222-232 . Электронный pecypc.-[1999].- Режим доступа: http://www.cs.georgetown.edu/~denning/infosec/ids-model.rtf

2. Art В. Owen (Stanford University) Information Retrieval, and the Vector Space Model. . Электронный pecypc.-[1999].- Режим доступа: http://www-stat.stanford.edu/~owen/courses/399/ir4up.pdf

3. Champin P.-A., Solnon C. Measuring the similarity of labeled graphs, 2003.

4. Computer Security Threat Monitoring and Surveillance, James Anderson, 1980, Fort Washington, Pa. Электронный pecypc.-[1999].- Режим доступа: http://csrc.nist.gov/publications/history/ande80.pdf

5. Dear B.L. AI and the Authoring Process // IEEE Expert Magazine, Summer, 1987.-P. 17-23.

6. Dupuis L., Un système morphologique., «Information Storage and Retrieval», 1964, v. 2, № 1, с. 29—41; Мельчук И. А., Автоматический синтаксический анализ, т. 1, Новосибирск, 1964;

7. Effective training Электронный ресурс.-[1999].- Режим доступа: http://spamassassin.apache.0rg/iull/2.6x/dist/d0c/sa-learn.txt

8. Gary Robinson, A statistical approach to the spam problem, 2003, Электронный pecypc.-[1999].- Режим доступа: http://www.linuxjournal.com/article.php?sid=6467

9. Gruber, T.R. (1993). A Translation Approach to PortableOntology Specifica-tion.KnowledgeAcquisition5 : 199-220.

10. Hays D. G., Readings in automatic language processing, N. Y., 1966;

11. Karttunen L. Radical lexicalism.// In Baltin M. And Kroch A. Editors, Alternative Conceptions of Phrase Structure. The University of Chicago Press, Chi. cago. -1989

12. Land A.H., and Doig A.G. An autmatic method of solving discrete programming problems. Econometrica. v28 (1960), pp 497-520.

13. Natalya F. Noy and Deborah L. McGuinness. "Ontology Development 101: A

14. Guide to Creating Your First Ontology". Stanford Knowledge Systems Labora104tory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report SMI-2001-0880, March 2001.

15. References for Graph Similarity Электронный pecypc.-[1999].- Режим доступа: 1. http://www.dbs.informatik.unimuenchen.de/~seidl/graphs/Sammoud О., Solnon С., Ghedira К. Ant Algorithm for the Graph Matching Problem, 2005.

16. The Evolution of Intrusion Detection Systems, Paul Inella, 2001, SecurityFo-cus. Электронный pecypc.-[1999].- Режим доступа: http://www.securityfocus.eom/infocus/l 514

17. Wikipedia, статья «Классификатор» Электронный ресурс.-[1999].- Режим доступа: wikipedia.org/wiki/Классификатор.

18. Wikipedia, статья «Фасетная классификация» Электронный ресурс.-[1999].- Режим доступа: wikipedia.org/wiki/ Фасетнаяклассификация.

19. Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений.-М.: Статистика, 1974

20. Апресян Ю.Д., Богуславский И.М., Иомдин JI.JI., Лазурский А.В., Перцов Н.В., Санников В.З., Цинман JI.JI. Лингвистическое обеспечение системы ЭТАП-2. М„ Наука, 1989,295 с.

21. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности: Справочник. -М.: Финансы и статистика, 1989. -250 с

22. Анализ лексико-семантического варьирования В. В. Виноградов, А. И. Смирницкий, H. Н. Амосова, А. А. Уфимцева, Д. Н. Шмелев

23. Андрусенко Т.Б. Лингвистические структуры в компьютерных учебных средах. Киев: Наукова Думка, 1994. -160 с

24. Анисимов A.B., Марченко A.A., Система обработки текстов на естественном языке. Научно-теоретический журнал "Искусственный интеллект" No.4'2002,, УДК 681.3,

25. Апресян Ю. Д. Избранные труды, том I. Лексическая семантика: 2-е изд., испр. и доп. М.: Школа «Языки русской культуры» РАН, 1995. - VIII е., 472 с.

26. Андреев A.M. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа . Электронный ресурс. .-[1999].- Режим доступа: http ://www. inteltec.ru/publish/articles/textan/RCDL2003. shtml

27. Аристотель. Категории. Пер. А. В. Кубицкого. М. 1939.

28. Батыршин И.З., Халитов Р.Г. Иерархические алгоритмы кластеризации на базе классов толерантности //Исследование операций и аналитическое проектирование в технике.- Казань: КАИ, 1987. С. 105-110

29. Библиографическая информация об общероссийских классификаторах Электронный ресурс.-[1999].- Режим доступа: http://www.gks.ru/metod/OKBIB.htm

30. Блох М.Я. Теоретические основы грамматики. М., 1986.

31. Блумфилд JL, Язык, пер. с англ., М., 1968

32. Большая советская энциклопедия : в 30 т. / гл. ред. A.M. Прохоров. М. : Сов. энцикл., 1970-1981. -30 т.

33. Большой энциклопедический словарь. -2-е изд., перераб и доп. -М.: «Большая Российская энциклопедия»; СПБ.: «Норинт», 2002. 1456 с.

34. Бородкин Л.И. Математические методы и компьютер в задачах атрибуции текстов. В сб. (От Нестора до Фонвизина. Новые методы определения авторства, под редакцией Л.В. Милова. М., "Прогресс", 1994)

35. Браверман Э.М., Мучник И.Б. Структурные методы в обработке эмпирических данных. М.: Наука, 1983.

36. Вагнер Г. Основы исследования операций. -М.: Мир, 1972. -210 с

37. Вентцель Е.С. Исследование операций: задачи, принципы, методология. -М.: Наука, 1988.-250 с

38. Волоцкая 3. М., Формообразование при синтезе русских слов, в кн.: Сообщения отдела механизации и автоматизации информационных работ, в. 2 — Лингвистические исследования по машинному переводу, М., 1961, с. 169—194.

39. Гальперин И. Р. Текст как объект лингвистического исследования. М.: Наука, 1981.- 140 с

40. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения (Вступительная статья)// Новое в зарубежной литературе. М.: «Прогресс». Вып. XXIV. Компьютерная лингвистика. Под ред. Городецкого Б.Ю. С. 5-31

41. Губин М.А. Модели и методы представления текстового документа в системах информационного поиска. . Электронный ресурс.-[ 1999].- Режим доступа: http://gubin.spb.ru/articles/thesis.pdf

42. Диссертация на тему «Методы статистического анализа космических радиосигналов». Электронный ресурс.-[1999].- Режим доступа: http://www.rsrea.ru/materials/nauka/a220806.pdf

43. Дюран Б., Оделл П. Кластерный анализ: Пер. с англ. -М.: Статистика, 1977. -125 с

44. Елисеева И.И., Рукавишников В.О. Группировка, корреляция, распознавание образов: Статистические методы классификации и измерения связей. М.: Статистика, 1977. - 143с.

45. Елисеева И.И Общая теория статистики : Учеб. для вузов по направлению и специальности "Статистика". / И. И. Елисеева, М. М. Юзбашев, 479,1. с. ил. 21 см, 4-е изд. М. Финансы и статистика 1999

46. Жамбю М. Иерархический кластер-анализ и соответствия. М: Финансы и статистика, 1988. - 342 с

47. Жолковский А. К., Мельчук И. А., О семантическом синтезе, в сборнике: Проблемы кибернетики, в. 19, М., 1967, с. 177—238

48. Журавлев Ю.И. Избранные научные труды. Изд. Магистр, 1999.

49. Загоруйко Н.Г. Методы распознавания и их применение. Сов. Радио, М., 1972 г.

50. Загоруйко Н.Г., Налетов А.М., Гребенкин И.М. На пути к автоматическому построению онтологии // Труды международной конференции Диа-лог'2003

51. Заде JI.A. Размытые множества и их применение в распознавании образов и кластер-анализе. В кн.: Классификация и кластер /Под ред. Дж.Вэн Райзина.- М: Мир, 1980.- С. 208-247

52. Зайченко Ю.П. Исследование операций. Электронный ресурс.-[1999].-Режим доступа: http://iasa.org.ua/iso.php?lang=rus

53. Зайченко Ю.П. Самообучение в интеллектуальных системах. Постановка задачи кластер-анализа. Критерии и метрики кластер-анализа. . Электронный ресурс.-[1999].- Режим доступа: http://iasa.org.ua/tpr.php?lang=eng&ch=2&sub=4

54. Зайченко Ю.П. Постановка задачи распознавания образов . Электронный ресурс.[ 1999].- Режим доступа: http://iasa.org.ua/tpr.php?lang=ukr&ch=l&sub=3

55. Зализняк A.A. Обратный (инверсионный) словарь русского языка. М.: Русский язык, 1977

56. Иванченко А.Г. Персептрон системы распознавания образов.// К.: Нау-кова думка, 1972

57. Информатика в семи томах. A.A. Красилов,Том 4. Представление знаний.

58. Интерпретирующая семантика /Франсуа Растье; Пер. с фр., примеч., предметно-именной указ. А.Е.Бочкарева,- Нижний Новгород: ДЕКОМ, 2001,- 367 е.: рис.- Доп. тит. л. на фр. яз.- Указ.с. 342-360.- ИСБН 5-89533-041-Х

59. Исследование операций : Нечет, оптимизация : Учеб. пособие для вузов по спец. "Автоматизир. системы обраб. информ. и управления" и "Прикл. математика". / Ю. П. Зайченко, 191 с. ил. 22 см, Киев Выща шк. 1991

60. Калинин A.A. Применимость Байесовского классификатора для задачи определения спама . Электронный ресурс.-[1999].- Режим доступа: http://www.spamtest.ru/document.html?context=15932&discuss=19230&retur п=1

61. Жолковский А. К., Леонтьева Н. Н., Мартемьянов Ю. С., О принципиальном использовании смысла при машинном переводе, в кн.: Машинный перевод, в. 2, М., 1961, с. 17—46

62. Иорданская JL Н., Автоматический синтаксический анализ, т. 2, Новосибирск, 1967;

63. Когаловский М. Р. Перспективные технологии информационных систем. М.: ДМК Пресс; М.: Компания АйТи, 1995. - 288 с.

64. Классификация и кластер /Под ред. Дж.Вэн Райзина М: Мир, 1980 - 389 с

65. Коваленко А. Вероятностный морфологический анализатор русского и украинского языков/ "Системный администратор" № 1, Октябрь 2002

66. Коваленко А. Вероятностный морфологический анализатор русского и украинского языков. Электронный ресурс.-[1999].- Режим доступа: http://linguist.nm.ru/stemka/stemka.tar.gz

67. Кондильяк, Трактат о системах, Соцэкгиз, 1938, стр. 3

68. Корбут A.A., Финкельштейн Ю.Ю. Дискретное программирование М. Наука. Гл. ред. физ.-мат. лит. 1969.

69. Костомаров М. Н. Стандартный язык описания информации о финансах, документах и показателях. ОКОК Электронный ресурс.-[1999].- Режим доступа: http://document.rU/readingroom/secretar/2000/3/al 5.pdf

70. Красилов А.А.ИНФОРМАТИКА В СЕМИ ТОМАХ, Том 2. Информатика смысла (Машинная лингвистика), Москва 1997 2003.

71. Кузнецов И.П. Механизмы обработки семантической информации. М.: Наука, 1978

72. Кузнецов О.П., Адемсон-Вельский Г.М. "Дискретная математика для инженера", М, "Энергоатомиздат", 1988г.

73. Мазуров Вл.Д. Метод комитетов в задачах оптимизации и классификации. Москва: Наука, 1990. -248 с.

74. Мельчук И. А., Морфологический анализ при машинном переводе (преимущественно на материале русского языка), в сборнике: Проблемы кибернетики, в. 6, М., 1961, с. 207—276;

75. Мальковский М.Г. Диалог с системой искусственного интеллекта. -М.: Изд-во МГУ, 1985.-214 с

76. Мальковский М.Г. Программно-информационное обеспечение адаптивных систем общения с ЭВМ на естественном языке. -М.: МГУ /Автореферат дисс. на соискание уч. степ, доктора физико-математических наук. 1990 г. - 34 с.

77. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. -176 с

78. Марусенко М.А., Атрибуция анонимных и псевдонимных литературных произведений методами теории распознавания образов. -Д.: ЛГУ, 1990. -164 с

79. Мельчук И. А., Порядок слов при автоматическом синтезе русского текста (предварительное сообщение), «Научно-техническая информация», 1965, № 12, с. 36-44

80. Мосин В.Н. Общие сведения о статистических критериях. . Электронный ресурс.-[1999].- Режим доступа: http://www.ergonomic-design.com/mathematics/criteriaintro.htm

81. Метрики в классификации: Электронный ресурс.-[1999].-Режим доступа: http://www.metric.ru/publications.asp?temno=301 &obno=305

82. Мешалкин Л.Д. Локальные методы классификация. М.: МГУ, 1969, авп.1.-с.58-78

83. Моделирование языковой деятельности в интеллектуальных системах. Под ред. А.Е.Кибрика и А.С.Нариньяни. М.: Наука, 1987

84. Налетов A.M. Взаимодействие систем анализа текстов и построения онтологии //Научная сессия МИФИ-2005: сб. науч. тр. /Моск. инж.-физ. ин-т (гос. ун-т) и др.- М., 2005.

85. Нариньяни A.C. Модель или алгоритм: новая парадигма информационной технологии //Информационные Технологии, 1997, с.11-16

86. Нариньяни A.C. Недоопределенность в системах представления и обработки знаний //Известия АН СССР. Техническая кибернетика. 1986. № 5. -С. 3-28

87. Обзор методов кластерного анализа. Лекции Института искусственного интеллектаhttp://www.intuit.ru/department/database/datamining/13/datamining13.html

88. Общероссийский классификатор информации об общероссийских классификаторах Электронный ресурс. .-[2007].- Режим доступа: http://194.226.82.76/government/governmentactivity/rfgovernmentdecisions/ar chive/2003/l 1 /12/imported-news 12282.htm

89. Овчинников С.А. Разработка алгоритмов построения и оценки качества кластеризации в задачах извлечения знаний из баз данных на основе алгоритма Кохонена // "Информационно-измерительные и управляющие системы", 2004, № 3, т. 2, с. 32-39

90. Распопов И. П., Актуальное членение предложения, Уфа, 1961

91. Свидетельство о регистрации АС «КЕТА» в ОФАП №8210 от 26.04.2007.

92. Петренко В.Ф. Введение в экспериментальную психосемантику: исследование форм репрезентации в обыденном сознании М.: Изд-во МГУ, 1983.- 177 с

93. Петренко В.Ф. Психосемантика сознания М.: МГУ, 1988. - 208 с

94. Павлинов И.Я., Зоологический музей МГУ им. М.В. Ломоносова Основные подходы в биологической систематике

95. Поспелов Г.С. Тематика. . Электронный ресурс.-[1999].- Режим доступа: http://slovari.yandex.ru/art.xml?art=litenc/leb/leb-2301 .htm&encpage=litenc

96. Процедуры и алгоритмы формирования комплексных программ / Г. С. Поспелов, В. А. Ириков, А. Е. Поспелов, В. А. Ириков, А. Е. Курилов ; Под ред. Г. С. Поспелова, 422,1. с. ил. 23 см, М. Наука 1985.

97. Положение о разработке, принятии, введении в действие, ведении и применении общероссийских классификаторов технико-экономической и социальной информации в социально-экономической области Электронный ресурс.-[1999].- Режим доступа:

98. Поляков A.A. Концепция создания интегрированной автоматизированной информационной системы Минобразования России. -М. 2000.

99. О.Поляков A.A. Концепция, информационное обеспечение индустрии образования программы «Научное, научно-методическое, материально-техническое и информационное обеспечение системы образования». М, 1999.

100. Поспелов Д.А. Логико-лингвистические модели в системах управления. -М.,1981

101. Искусственный интеллект основа новой информационной технологии / Г. С. Поспелов ; АН СССР, 278,1. с. ил. 17 см, М. Наука 1988

102. Искусственный интеллект прикладные системы / Г. С. Поспелов, Д. А. Поспелов, 48 с. ил. 24 см, М. Знание 1985

103. Процедуры и алгоритмы формирования комплексных программ / Г. С. Поспелов, В. А. Ириков, А. Е. Поспелов, В. А. Ириков, А. Е. Курилов ; Под ред. Г. С. Поспелова, 422,1. с. ил. 23 см, М. Наука 1985

104. Прикладная статистика: Классификация и снижение размерности: Справочник/ Под ред. С.А.Айвазяна. -М.: Финансы и статистика, 1989. 450 с

105. Рубанов Л.И. Метод классификации словаря для помехоустойчивой системы машинного понимания естественного языка //Известия РАН. Техническая кибернетика. 1991. № 5. С. 84 - 93

106. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. М.: Наука, 1989

107. Саати Т. Метод анализа иерархий. М., 1993.

108. Сборник статей / Поспелов Г. С. ; Рос. акад. наук, Вычисл. центр, 45 с. граф. 20 см, М. ВЦ РАН 1997

109. Сепир Э., Язык. Введение в изучение речи, пер. с англ., М., 1934;

110. Смирнов И., Безносюк Е., Журавлёв А. Психотехнологии: Компьютерный психосемантический анализ и психокоррекция на неосознаваемом уровне. М.: Издательская группа "Прогресс" - "Культура", 1995. - 416 с

111. Список основных общероссийских классификаторов в со-ставе ОКОК Электронный ресурс.-[1999] .-Режим досту-па: http://www.pcpi.ru/manage/page?tid=764400063&nd=842502301&prevDoc= 842502301

112. Станислав Лем "Сумма технологии", М./СП6., Terra Fantastica, 2002.

113. Стакан твердая или жидкая часть текста? Электронный ресурс.-[1999].-Режим доступа: 1. http://exlibris.ng.ru/philology/4glass.html/

114. Сулейманов Д.Ш. О семантическом анализе текстов в АОС Сб. научных тр. Вероятностные методы и кибернетика. -Вып. 20. Казань: Изд-во Казан. ун-та, 1984. - С. 106-116. статья

115. Тема документа. Электронный ресурс.-[1999].- Режим доступа: http://slovari.yandex.ru/art.xml?art=glnatural/232/232505.HTM&encpage=g lnatural&mrkp=%26text%3D%25F2%25E5%25EC%25E0%26reqtext%3D% 25F2%25E5%25EC%25E0%253A%253A470%26%26isu%3D2

116. Типология и классификация в социологических исследованиях. Отв. ред. В.Г.Андреенков, Ю.Н.Толстова. М.: Наука, 1982 296с.

117. Тришин В.Н. "О некоторых проблемах, связанных с учетом, переоценкой и налогообложением основных фондов" // Журнал "Вестник ассоциации "Русская оценка", 2001г., №4, стр.40-56.

118. Ш.Тришин В.Н. Что есть отчет об оценке основных средств предприятия, Московский оценщик, N6(37), декабрь 2005, стр.11-21

119. Ш.Тришин В.Н., Шатров М.В. Проблемы идентификации машин и оборудования в автоматизированных системах обеспечения оценочной деятель-ности//Вопросы оценки. 1997. №1.

120. Ш.Тришин В.Н., Шатров М.В. Система информационной поддержки оценщика ASIS (Appraiser Support Info Systemy/Инвестиции в России. 1995. №5.

121. Уоссермен Ф. Нейрокомпьютерная техника. М.: Мир, 1992

122. Факторный, дискриминантный и кластерный анализ: Пер с англ./Дж. -О.Ким, Ч.У.Мьюллер, У.Р.Клекка и др.; Под ред. И.С.Енюкова. М.: Финансы и статистика, 1989. - 215с.

123. Хакен Г. Синергетика / под ред. Ю.Л. Климонтовича, С.М. Осовца: пер. с англ.-М.: Мир, 1980.- 404с.

124. Шаров С.А. Средства компьютерного представления лингвистической информации.

125. Шатров М.В., Тришин В.Н., Малинин А.А. "Программная система ПиК-97 и некоторые вопросы переоценки на 1.01.97 г." // Бюллетень "Российский оценщик", 1997, №10-11, стр. 12-16.

126. Э.В. Попов. Общение с ЭВМ на естественном языке. М:, Наука, 1986

127. Экспертные системы для персональных компьютеров: методы, средства, реализации: Справочное пособие / Крисевич B.C., Кузьмич JI.A., Шиф А.М.и др. Минск: Выш.шк., 1990. -197 с

128. Электронные образовательные информационные ресурсы (справочное издание для профессиональных учебных заведений) под общей редакией д.т.н., профессора Полякова A.A. Авторы: Седякин В.П., Каптерёв А.И., Шлыкова О.В. -М.: Янус-К, 2003. 168 с.

129. Янковой А.Г. Многомерный анализ в системе STATISTICA. Одесса: Оптимум, 2001, 216 с.