автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных

кандидата технических наук
Солодков, Алексей Юрьевич
город
Саратов
год
2006
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных»

Автореферат диссертации по теме "Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных"

На правах рукописи

СОЛОДКОВ Алексей Юрьевич

МАТЕМАТИЧЕСКИЕ МОДЕЛИ И МЕТОДЫ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ В ХРАНИЛИЩАХ ДАННЫХ

Специальность 05.13.18 -Математическое моделирование,

численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени кандидата технических наук

Саратов 2006

Работа выполнена в ГОУ ВПО «Саратовский государственный технический университет»

Научный руководитель: кандидат технических наук, профессор

Каримов Равиль Нургалиевич

Официальные оппоненты: доктор технических наук, профессор

Кушников Вадим Алексеевич

кандидат технических наук, доцент Квятковская Ирина Юрьевна

Ведущая организация:

Тамбовский государственный технический университет

Защита состоится «3» ноября 2006г. в 13 часов на заседании диссертационного совета Д 212.242.08 при ГОУ ВПО «Саратовский государственный технический университет» по адресу: 410054, г. Саратов, ул. Политехническая 77, Саратовский государственный технический университет, ауд. 1/319.

С диссертацией можно ознакомиться в научно-технической библиотеке ГОУ ВПО «Саратовский государственный технический университет».

Автореферат разослан « октября 2006 года

Ученый секретарь диссертационного совета

А.А. Большаков

АСЯЪЧ

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. Хранилище данных - это предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. Впервые концепция информационных систем с хранилищем данных была предложена специалистами фирмы ШМ. Чрезвычайная сложность и, как следствие, высокая стоимость таких систем до середины 90-х годов XX века препятствовали их коммерческому внедрению. Основной вклад в становление технологии создания хранилищ данных внесли Барри Девлин, Уильям Инмон и Ральф Кимбал. В России разработкой и внедрением хранилищ данных занимается ряд компаний, таких как Intersoft Lab, Data Integration Software, РДТЕХ, Tomik, Трисофт, РЕЛЭКС и Аналитические технологии.

Наполнение хранилищ, как правило, осуществляется информацией из нескольких оперативных источников данных. Наибольшую популярность приобрели базы данных. К сожалению, не все организации могут позволить себе разработку или, впоследствии, поддержку качественных систем хранения и обработки информации. Человеческий фактор и частичное отсутствие контроля данных на вводе либо неадекватная модель проверки информации приводят к появлению искажений в данных. Опечатки и пропуски присутствуют практически во всех реквизитах сохраненных объектов, в том числе и в идентификационных наборах. Основной причиной появления искажений является человеческий фактор на этапе ввода информации в базы данных. Такая ситуация типична, например, для правоохранительных органов, по роду деятельности которых необходима информация из многих разнообразных источников, зачастую содержащих искаженные данные.

Построение информационных хранилищ, то есть интегрирование имеющихся баз данных с учетом возможных искажений, является в настоящее время трудной задачей. При этом наиболее трудный этап формирования хранилища -очистка данных. На этом этапе наиболее трудной задачей является идентификация объектов, имеющих опечатки, пропуски и другие искажения.

Механизмы идентификации объектов в продуктах коммерческих фирм реализованы с использованием различного математического аппарата. Как правило, разработчики не раскрывают алгоритмы, которые реализованы в программных продуктах. Однако по некоторым публикациям можно получить представление об используемых методах. Например, ООО «Аналитические технологии» в многомерном хранилище данных Deductor Warehouse использует нейронные сети. Компания РЕЛЭКС в основу идентификации в объектно-ориентированном хранилище данных «НЕВОД» использовала элемента нечеткой логики. В большинстве программного обеспечения алгоритмы идентификации используют аппарат обучения с учителем и различные справочники, которые формируются в процессе обучения. Такой подход имеет несколько недостатков. Во-первых, значительно различающиеся источники информации требуют персонального дополнительного обучения сети либо изменения функций принадлежности, что является весьма сложной и самостоятельной задачей. Во-вторых, идентификация, основанная на опорных справочниках, предъявляет высокие требования к их содержимому и влечет

РОС. НАЦИОНАЛЫ! \<Г БИБЛИОТЕКА С.-Петербург ^

ОЭ гообакй"^

ложные выводы при наличии ошибок. Третьим недостатком является высокая трудоемкость при заполнении справочников и адаптации системы.

Из сравнительного анализа характеристик объектов, содержащихся в хранилище, можно сделать следующие выводы: содержимое вденгификационных реквизитов объектов, как правило, не подчиняется правописанию слов русского языка. Поэтому использовать для них справочники либо пытаться формализовать правила русского языка нецелесообразно. Искажения присутствуют во всех базах данных, поэтому использовать одну из них за эталон не удастся. Опечатки в идентификационных реквизитах априори не позволяют осуществлять идентификацию объектов на точном равенстве одного реквизита. Эксперты предметной области, основываясь на собственных, субъективных результатах близости некоторых реквизитов уверенно идентифицируют объекты. Следовательно, необходим адаптивный математический аппарат идентификации объектов по совокупности результатов сравнения реквизитов, основанных на степени сходства значений.

В связи с этим диссертационная работа посвящена разработке математических моделей объектов, имеющих множество реквизитов, и методов их идентификации, не чувствительных к качеству исходных данных.

Целью диссертационной работы является повышение информационной достоверности хранилищ на основе разработки математических моделей и методов предварительной обработки данных и идентификации объектов нечисловой природы.

Для достижения поставленной цели в работе решались задачи:

- выбора и обоснования метода сравнения строк по сходству;

-разработки классификатора строковых реквизитов с получением как

символьных, так и числовых результатов сравнения;

. -построения математической модели реквизита, имеющего сложную внутреннюю семантическую структуру;

- выбора и обоснования методов идентификации объектов по совокупности результатов сравнений реквизитов;

- апробации метода идентификации в задаче интеграции различных баз данных в единое информационное пространство.

Научная новизна:

- получены результаты анализа,эффективности основных методов нечислового сопоставления реквизитов объектов, что позволило предложить эвристический подход для комплексного решения задачи идентификации объектов нечисловой природы в хранилищах данных;

-создан классификатор строковых данных, синтезирующий результат близости реквизитов, устойчивый к искажениям, как в символьной, так и в числовой форме, отличающийся прозрачной схемой построения и не требующий эталонных наборов информации;

-разработана математическая модель реквизита, имеющего сложную, жестко не заданную семантическую структуру, которая основана на фреймах, что позволило повысить точность сравнения подобных реквизитов;

- создан метод идентификации, основанный на совокупности символьных результатов работы классификаторов по сравнению реквизитов, моделях пред-

ставления знаниях экспертов о предметной области и возможных ситуациях в форме деревьев принятия решений;

-разработана геометрическая модель различий объектов, используемая для идентификации объектов нечисловой природы, и набор соответствующих ей адаптивных алгоритмов для автоматического выбора состава и порядка сравнения наиболее информативных реквизитов.

Методы исследования. В диссертационной работе применяются методы математического моделирования и искусственного интеллекта, теория графов, аппарат статистического анализа, объектно-ориентированного программирования.

Достоверность и обоснованность результатов диссертационного исследования определяется корректным применением исследованных методов и подтверждается результатами вычислительного эксперимента, успешным внедрением разработанных алгоритмов и программных средств в нескольких организациях и предприятиях.

На защиту выносятся:

1. Классификаторы нечисловых реквизитов, в том числе имеющих сложную семантическую структуру на основе математической модели, генерирующие символьный либо числовой результат сравнения.

2. Метод проверки идентичности двух объектов на основе деревьев принятия решений и совокупности полученных результатов классификаторами по отобранным для идентификации реквизитам.

3. Математическая модель и метод идентификации нечисловых объектов, инвариантный по отношению к наличию пропусков и опечаток в данных с автоматической адаптацией набора реквизитов для сравнения.

4. Методика внедрения разработанного математического обеспечения при создании хранилища данных на примере Управления Федеральной службы налоговой полиции Российской Федерации (УФСНП РФ) по Саратовской области.

Практическую значимость имеют:

-универсальный программный комплекс для системы управления базами данных ORACLE, предназначенный для идентификации нечисловых объектов, таких как юридические и физические лица, документы;

-хранилище данных, содержащее информацию из нескольких баз данных контролирующих органов Саратовской области, полученное с применением разработанных математических моделей и методов идентификации объектов;

-процедура корректной выборки информации по юридическим лицам, присутствующим в двух различных базах данных по дополнительно наложенным условиям.

Внедрение. Созданный метод идентификации успешно применен в УФСНП РФ по Саратовской области, при решении задачи построения хранилища данных по информации из нескольких баз данных государственных контрольных органов Саратовской области, что подтверждено полученным актом внедрения.

Апробация работы. Основные теоретические положения и практические результаты работы обсуждались и докладывались на V молодежной научно-технической конференции «Наукоемкие технологии и интеллектуальные системы 2003» (Москва, 2003), Всероссийской научно-практической конференции «Технологии Интернет - на службу обществу» (Саратов, 2003), XVI Междуна-

родной научной конференции «Математические методы в технике и технологиях» (Ростов-на-Дону, 2003), Всероссийской научной конференции «Сложные системы. Анализ, моделирование, управление» (Саратов, 2004).

Публикации. Основные положения диссертации отражены в 7 публикациях, в том числе в 1 статье в журнале «Системная интеграция», рекомендованном ВАК. Без соавторов опубликовано 2 работы.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованной литературы и приложений. Изложена на 136 страницах, содержит 18 рисунков, 8 таблиц, список используемых источников включает 147 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, определены цель и задачи диссертационной работы. Приведены основные результаты и положения, выносимые на защиту.

Первая глава посвящена обзору хранилищ и баз данных, очистке информации, методов сопоставления строк и принятия решения, необходимых для построения алгоритма идентификации объектов нечисловой природы.

Анализ реально сложившейся ситуации в базах данных (БД) показал, что нередки случаи искажения одного или нескольких реквизитов записей в разных БД, содержащих информацию об одном и том же объекте. Например, реквизит «наименование» предприятия «СаратовскиеАвиаЛинии» может иметь значение: «Саравиалинии», «Саравиа», «Авиа линии - Саратов», «Аэрофлот», «Маравиа-линии» - ошибка в 1 знаке, «Саравиалниии» - транспозиция соседних символов. Интуитивно понятно, что эти названия относятся к одному и тому же юридическому лицу, однако при точном сравнении строк - они разные. При анализе БД одного из медицинских учреждений г. Саратова обнаружены записи, относящиеся к одному пациенту, при этом значения поля «ФИО» пациента со временем претерпевали следующие изменения:

1. Ахмедов Байрам Юсуф-Оглы 3. Ахмедов Байрам Юсуф оглы

2. Ахмедов Байрам Юсуф Оглы 4. Ахмедов Бейрам Юсуфович

Могут встречаться опечатки, синонимы, сокращения, устаревшие значения, а также ложные сведения. Причины появления несоответствий в данных схематично приведены на рис. 1 и 2. 1

Рис. 1. Причины возникновения искажений в значении реквизита

Рис. 2. Причины появления опечаток

Существует достаточный математический аппарат для анализа и неточного сопоставления строк, например: расстояние редактирования, нахождение наибольшей общей подпоследовательности, метод п-грамм; йпе-деревья, хеширование. Наиболее популярными для неточного сопоставления строк являются методы вычисления расстояния редактирования. Под расстоянием редактирования понимается метрика, определяющая «стоимость» преобразования одной строки в другую. Различают несколько операций, каждая из которых может иметь собственную стоимость: вставка символа, удаление, замена и транспозиция соседних символов. Если придать операциям вставки, удаления и замены вес, равный 1, то минимальная общая цена преобразования задается метрикой Левенппейна. Предпочтение метрике Левенштейна отдано многими разработчиками, исходя из двух факторов. Во-первых, расстояние Левенштейна формализует интуитивное понятие об «ошибке» и, во-вторых, существует множество алгоритмов эффективного его вычисления.

Близость строк можно оценить по расстоянию редактирования. Если оно велико, то делается вывод, что строки различны. Если оно мало (1 или 2), то необходим механизм принятия решения, определяющий: является ли различие истинным или это опечатка. На основе подобного анализа всех реквизитов, относящихся к идентифицирующим наборам, требуется создание метода идентификации объекта в целом. Результаты метода не должны искажаться при наличии пропусков в данных.

Для принятия решения по идентификации нечисловых объектов целесообразно воспользоваться алгоритмами, характерными для искусственного интеллекта, которые в целом существенно зависят от предметной области. Выбор таких алгоритмов осуществляет инженер по знаниям, который пишет процедуры применения правил.

Проведен также анализ практических аспектов применения различных методов принятия решений для поставленной задачи идентификации объектов нечисловой природы в БД. Рассмотрены таблицы и деревья принятия решений, фреймовые модели, нейросетевые методы, теория нечетких множеств и генетические алгоритмы. Предпочтение отдано методам многомерного шкалирования и деревьям приняли решений.

Во второй главе описывается разработка математических моделей и методов идентификации объектов нечисловой природы. Объекты реального мира обладают многими реквизитами, отличающимися дуг от друга как по типу: числовые или строковые, так и по структуре, например наименование предприятия

или почтовый адрес. Поэтому необходимо учитывать особенности каждого из реквизитов. Рассматриваются последовательно основные типы встречающихся при идентификации объектов реквизитов и методы, наилучшим образом подходящие для их сравнения.

Классификатор символьных полей, не имеющих сложной внутренней структуры можно представить в ввде кортежа <Ц V, <£ А, У, 2>, где множества слов, входящих в состав С/ = {и,}, » = 1, п - первого реквизита, V = {у^}, у =1, от -

второго реквизита, 5 = ,к = 1,1 - множества стоп-слов для данного реквизита, А -оператор, определяющий нечисловое равенство реквизитов. К стоп-словам относятся слова, самостоятельно не имеющие идентификационной нагрузки.

Далее пороговые значения У - расстояния редактирования, при котором строки (слова) считаются похожими. Если У = 0, похожими являются посимвольно равные строки; Ъ - суммы равных и похожих слов, входящих в сравниваемые строки, при котором они считаются похожими. Вычленим из рассмотрения стоп-слова, Пусть

= = = (!) Г = К/5 = { у;},м- = 1Т7. (2)

где /' и у" - количество слов в строках V и V соответственно. Под операцией «/» здесь понимается операция вычитания множеств. Тогда количество посимвольно равных слов будет равно

' = (3)

где

\\,еслии'ч =у;, [О, иначе. Количество похожих слов равно

Р = (5)

где

[X если 0 < ¿У,

[О, иначе.

Здесь под подразумевается расстояние редактирования с учетом

транспозиции соседних символов с единичным весом. Результат сравнения реквизитов вычисляется по следующей формуле:

"=", если

"и", если г + рЪ.2,

О)

"#",если г + р<2, "_", если ¡7 = 0 или М = 0,

А(и,Г,8) =

где "=" - строки посимвольно равны, "я" - сравниваемые строки похожи, "#" - не равны и не похожи, "_" - отсутствует одна или обе строки. В случае, когда нужен числовой результат:

0, если г >2,

1, если г +

A(U,V,S) =

(8)

2, если г + p<Z,

2, если U = 0 или М = 0.

Параметры Y, Z задаются оператором или экспертами предметной области на основе анализа представленных данных или методом подбора. Параметр Z можно вычислять автоматически по формуле

Z= min (q, w). (9)

Однако вычислительные эксперименты не показали улучшения точности сравнения при автоматическом вычислении значения Z. Поэтому целесообразнее вручную подбирать наиболее подходящее значение на основе проведения ряда экспериментов.

Классификатор для символьных полей со сложной внутренней структурой в общем виде можно представить как процедуру, состоящую из двух этапов. Первый - построение математической модели реквизита и разработка метода разложения информации на семантические составляющие. Второй - попарное сравнение соответствующих составляющих реквизита и вывод по реквизиту в целом.

Наиболее удобно на первом этапе использовать фреймовые математические модели. В соответствии со структурой реквизита создается протофрейм, содержащий все составляющие реквизита. Экзофреймы могут содержать заполненными лишь некоторые из свойств. Методы сравнения экзофреймов Moiyr быть различными и существенно зависят от физического смысла, а также от структуры информации, сохраненной в сравниваемом поле. Пример классификатора описан ниже.

Числовые поля обычно рассматривают, не учитывая физический смысл информации, что не всегда допустимо. Ряд этих полей с содержательной смысловой нагрузкой следует отнести к номинальной или порядковой шкале, например ИНН, ОКПО, расчетный счет для юридических лиц, ISBN для литературы, серия и номер паспорта физического лица, номер дома. Арифметические операции со значениями таких полей не имеют смысла.

Априори неверно, когда нечисловые данные, например почтовый индекс, хранятся в БД в числовых полях, так как категориальные данные числами не являются. Соответственно храниться и обрабатываться они должны как строковые. Если информация относится к номинальной шкале, а в источнике данных хранится в числовом поле, то необходимо при импорте в хранилище преобразовать ее к строковому типу. Наличие числового формата при вводе информации вносит искажения. Например, значение реквизита должно быть «126», однако из-за опечатки в БД хранится «16». Сравнивая эти значения на основе точного равенства, получим числовую оценку существенного различия этих двух реквизитов. Приняв поля, значения которых состоят из чисел, и числовые поля как строковые и сравнив их классификатором символьных полей, не имеющих сложной внутренней структуры, получим результат «« », что является более близким к истине.

Многие объекты реального мира обладают одним или несколькими однозначно идентифицирующими реквизитами. Из всех возможных подходов к идентификации объектов на практике наиболее эффективными оказались деревья принятия решений и структурные методы. Если импортируется информация из БД, структура и качество данных которой заранее известны, целесообразно воспользоваться деревьями принятия решений. В случае, если имеется несколько источников информации, структура и качество данных в которой меняются со временем, целесообразно, воспользовавшись структурными методами принятия решений, создать универсальный алгоритм, инвариантный к БД и адаптивно выбирающий реквизиты для сравнения. Оба подхода подробнее описаны в третьей главе на конкретном примере.

Третья глава содержит описание результатов применения предложенных методов для идентификации юридических лиц при решении задачи построения хранилища данных УФСНП РФ по Саратовской области по БД, полученных из различных государственных органов и коммерческих предприятий.

В общем виде рассматриваемое хранилище данных является набором схем данных в СУБД Oracle. Основная схема данных с именем IDB состоит из отношений, содержащих объекты хранилища. Относительно юридических лиц, на примере которых описано применение разработанных моделей и методов идентификации, информация хранится в таблице IDB.FIRM (см. табл. 1), и в наборе отсылочных таблиц с формализованными именами ШВ.П)В_{Имя схемы БД} (см. табл. 2).

Таблица 1

№ п/п Наименование поля Описание поля Тип данных Длина поля

1. Finn id Первичный ключ таблицы Varchar2 30

2. Fname Полное наименование Varchar2 300

3. Name Краткое наименование Varchai2 100

4. ОКРО Код ОКПО Varchai2 8

5. INN Код ИНН Varchar2 10

б. KPP Код КПП Varchar2 9

7. UrAddr Юридический почтовый адрес Varchar2 200

8. FactAddr Фактический почтовый адрес Varchar2 200

9. MainRS Главный расчетный счет в банке Varchar2 20

Таблица 2

Отсылочная таблица (таблица ГОВ.ГОВ Имя схемы БД 1)

№ п/п Наименование поля Описание поля Тип данных Длина поля

1. То ГОВ Ссылка на объект в схеме ШВ Varchar2 30

2. To_DB Ссылка на объект в схеме {Имя схемы БД} Varchar2 30

Совместно с экспертами предметной области для идентификации юридических лиц отобраны следующие реквизиты: ОКПО (Общероссийский классификатор предприятий и организаций), ИНН/КПП (Идентификационный номер налогоплательщика/ Код причины постановки), Наименование ЮЛ, Почтовый

адрес, Расчетный счет в банке, Регистрационный номер в Администрации, серия и номер лицензии.

Перечисленные реквизиты, отобранные экспертами для идентификации, кроме почтового адреса, не имеют сложной внутренней структуры и сравниваются описанным выше классификатором. Для почтового адреса (см. табл.3) приведены математическая модель почтового адреса и алгоритм сравнения. Наиболее удобно представить адрес в виде фрейма, состоящего из ряда слотов, которые содержат семантически одинаковые подстроки, набора эвристик, с помощью которых производится разбиение на подстроки, и ограничений на содержимое слотов. В качестве опорной базы данных, используемой для отнесения слова к той или иной адресной составляющей, используется Ведомственный классификатор адресов России (КЛАДР), доступный для свободного скачивания с WEB сайта Федеральной налоговой службы России (http://www. nalos.ru).

Таблица 3

Протофрсйм почтового адреса_

Имя слота Фасет

Индекс Состоит из цифр. Длина равна 6 ± 1.

Тип региона [«Республика», «край», «область», «Автономный округ», «Респ.», «кр.», «обл.», «АО», ...], значение предшествует или находится после имени региона

Регион

Тип населенного пункта [«город», «село», «поселок», «поселок городского типа», «г.», «е.», «п.», ...], значение предшествует или находится после имени населенного пункта

Имя населенного пункта

Тип поселка [«поселок», «микрорайон», ...], значение предшествует или находится после имени поселка

Название поселка

Тип местоположения [«улица», «площадь», «проезд», «шоссе», ...], значение предшествует или находится после имени местоположения

Название местоположения

Номер дома

Строение, корпус

Квартира, офис

Соп81гиеРоз1Аск1гезз(Ас1с1г) Процедура заполнения фрейма данными из строки

СотрагеРоз^ёге8з(Ле£н№и7иа() Функция сравнения двух фреймов

Деревья принятия решений. В результате анализа выявлено, что из имеющихся реквизитов ОКПО встречается в БД чаще и содержит меньше ошибок/опечаток. В связи с этим реквизит ОКПО перенесен в корень дерева. Вторым в рейтинге встречаемости в БД является ИНН. Проведены эксперименты, результаты которых оценены экспертами предметной области. Построено дерево принятия решений по идентификации юридических лиц. После проведения оптимизации получен окончательный вид дерева, приведенный на рис. 3. Однако полученное дерево оказалось оптимальным не для всех имеющихся БД, которые включались в состав хранилища. Связано это с различиями БД по метаданным и качеству

присутствующей информации. Например, в интегрируемой БД отсутствует поле ОКПО либо поле есть, но значения заполнены с опечатками, или отсутствуют.

Различные БД имеют отличающиеся друг от друга наборы уникальных реквизитов. Ситуацию зачастую осложняет большое количество пропусков или опечаток в тех реквизитах, по которым предполагается проводить идентификацию. Следовательно, необходим метод, который будет анализировать имеющиеся данные и самостоятельно выбирать реквизиты для принятия решений.

Структурный метод принятия решений. Воспользуемся методами многомерного шкалирования. Как описано выше, реквизиты, участвующие в процессе идентификации, заранее отобраны экспертами предметной области. Отобранные реквизиты сохраняются в виде массива данных (табл. 4), содержащего наименования реквизитов и их идентификационную значимость. Если значение реквизита хотя бы одного из объектов равно пустой строке, данный реквизит исключается из рассмотрения.

Таблица 4

Идентификационная значимость реквизитов_

№ п/п Реквизит Вес реквизита

1 ОКПО 1

2 ИНН 0.8

3 КПП 0.2

4 Наименование 0.5

5 Почтовый адрес 0.5

6 Расчетный счет в банке 1

7 Регистрационный номер в Администрации 1

8 Серия и номер лицензии 1

Для построения факторного пространства отбираются только независимые признаки. На осях факторного пространства откладываем расстояние между двумя объектами по соответствующим реквизитам. Получаем многомерное пространство расстояний между объектами, геометрическая интерпретация которого приведена на рис. 4.

Наименование

ОКП

Aflpi

'i ■ til i i— 1 ■ г з

Расчетный счет

ИНН/КПП

Рис. 4. Геометрическая интерпретация пространства различий

Для определения расстояния между реквизитами используем разработанные ранее классификаторы.

Обычно в факторном пространстве используют метрику Минковского, согласно которой расстояние между объектами вычисляется по формуле

Мр

где Хц - 1-я координата у'-го объекта, ар - константа Минковского.

Для использования при идентификации объектов нечисловой природы перепишем метрику Минковского в следующем виде:

1/2

где 01, и 02, - значение i-ro реквизита объектов 01 и 02 соответственно.

Необходимым условием идентичности объектов является попадание вычисленной метрики d в доверительный интервал, который на рис. 4 изображен в виде сферы. При использовании формул (8), (11), два объекта идентичны, если d < 1.

Достаточным условием идентичности будем считать попадание в доверительный интервал с диаметром 0,5 любых двух реквизитов, имеющих идентификационные веса, равные 1, из табл. 4.

Отсортируем реквизиты по уменьшению сначала идентификационных весов, затем частоты появления уникальных значений. В результате получается оптимальный порядок сравнения реквизитов, что совместно с критерием достаточности позволяет достигнуть минимальных вычислительных затрат.

В четвертой главе описана реализация разработанных в рамках диссертационной работы методов, проведено сравнение полученных алгоритмов с традиционными, используемыми для решения подобных задач.

При решении практической задачи построения хранилища разработанный алгоритм показал устойчивость к «шумам» в данных.

На языке PL/SQL создан пакет IDB, который включает набор процедур и функций для нечислового сравнения строк, проверки корректности контрольной суммы в ИНН, а также некоторые средства для отслеживания текущего состояния процесса интеграции. Для ускорения процесса идентификации некоторые

(10)

2

(П)

особо требовательные к процессорному времени процедуры и функции реализованы на языке С++.

Апробация разработанного алгоритма идентификации производилась на сервере BULL Express 5800 со следующими техническими характеристиками: Dual Pentium Ш Xeon 800MHz, 512 MB RAM, 5x17GB SCSI HDD, объединенных в один дисковый массив (RAID level 5) с помощью аппаратного RAID контроллера Mulex (32MB cache). Используемые БД, включая хранилище данных, находились на одном физическом сервере под управлением СУБД ORACLE 8.1.7 Enterprise Edition, операционная система Windows 2000 Advanced Server.

Проведенные эксперименты показали скорость идентификации, равную 500 000 пар записей в час. В случае острой необходимости можно ускорить процесс идентификации, применив фильтры в виде нечетких индексов Russian Context Optimizer от компании "Гаранг-Парк-Интернет". Фильтры позволяют сравнивать текущий объект не со. всеми объектами в хранилище, а только с теми, которые каким-то параметром похожи не него, например, по наименованию. Однако не рекомендуется прибегать к данному приему в силу того, что в полях, по которым производится фильтрация, могут быть искаженные данные. В этом случае возможно исключение сравнения объекта с другим объектом, которые в идеале должны быть идентифицированы как равные. Эксперименты показали, что при использовании фильтров полученный результат практически не отличается от полного перебора обоих БД. Такой подход можно использовать для быстрой интеграции БД, когда необходим срочный результат. Затем можно запустить алгоритм более глубокого анализа БД и исправить ошибки в случае их обнаружения.

ЗАКЛЮЧЕНИЕ

Основные результаты диссертационной работы:

1.Проведен анализ свойств объектов нечисловой природы, методов обработки символьной информации, а также принятия решений по идентификации объектов, что позволило выявить ключевые направления исследования и создать комплексный подход к предварительной обработке и идентификации таких объектов.

2. Предложены модели представления и методы обработки различных реквизитов объектов баз данных и реализующие их алгоритмы наиболее часто используемых реквизитов с учетом их структуры и семантики. Созданы классификаторы формирования как символьного, так и регулярного результатов сравнения реквизитов.

3. Созданы методы идентификации объектов нечисловой природы, построенные на основе экспертных оценок и вывода с помощью обработки совокупности результатов сравнения реквизитов разработанными классификаторами.

4. Разработанные методы идентификации объектов улучшают результаты идентификации объектов в БД с опечатками и пропусками данных, что позволяет создавать надежные хранилища, инте|рация информации в которых основана на корректных выборках данных по объектам, находящимся в двух и более БД, производить поиск дублированных объектов в одной БД.

5. Достоверность и практическая ценность результатов, полученных в диссертационном исследовании, подтверждена актом внедрения в работу УФСНП РФ по Саратовской области.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Солодков, А. Ю. Алгоритмы идентификации объектов в базах данных / А. Ю. Солодков И Системная интеграция. - 2004. - № 12 (90). - С. 52-56.

2. Солодков, А. Ю. Анализ сложно - структурированных строковых полей в базах данных / А. Ю. Солодков И Сложные системы. Анализ, моделирование, управление : сб. науч. ст. Всерос. науч. конф. / СГТУ. - Саратов, 2005. - С. 84-85.

3. Солодков, А. Ю. Идентификация сложных лингвистических объектов в базе данных / Р. Н. Каримов, Д. В. Елисеев, А. Ю. Солодков // Электротехнические комплексы и силовая электроника. Анализ, синтез и управление : межвуз. науч. сб. / СГТУ. - Саратов, 2003. - С. 30-34.

4. Солодков, А. Ю. Идентификация сложных объектов нечисловой природы в СУБД с наличием ошибок и пропусков данных / А. Ю. Солодков // Наукоёмкие технологии и интеллектуальные системы : сб. науч. ст. V молодёжной науч,-техн. конф. / МГТУ им. Баумана. - М., 2003. - Ч. 2. - С. 155-157.

5. Солодков, А. Ю. Построение информационно - поисковых систем с нечётким шаблоном поиска / Р. Н. Каримов, Д. В. Елисеев, А. Ю. Солодков // Технологии Интернет - на службу обществу : сб. науч. ст. Всерос. науч.-практ. конф. / СГТУ. - Саратов, 2003. - С. 50-52.

6. Солодков, А. Ю. Применение фреймовых моделей для автоматической обработки символьной информации / А. Ю. Солодков, А. А. Бойков // Электротехнические комплексы и силовая электроника. Анализ, синтез и управление : межвуз. науч. сб. / СГТУ. - Саратов, 2004. - С. 67-70.

7. Солодков, А. Ю. Распознавание нечисловых объектов в базах данных с учетом ошибок при вводе информации / Р. Н. Каримов, А. 10. Солодков // Математические методы в технике и технологиях : сб. науч. ст. XVI Междунар. науч. конф. / РГАСХМ. - Ростов н/Д, 2003. - Т. 8. - С. 128-129.

Лоеб/) M9W

№2 0 9 3-4

СОЛОДКОВ Алексей Юрьевич

МАТЕМАТИЧЕСКИЕ МОДЕЛИ И МЕТОДЫ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ В ХРАНИЛИЩАХ ДАННЫХ

Автореферат

Ответственный за выпуск Д. А. Кинцель

Корректор Л. А. Скворцова

Лицензия ИД № 06268 от 14.11.01

Подписано в печать 26.09.06 Формат 60x84 1/16

Бум. тип. Усл.-печ.л. 0,93(1,0) Уч.-изд. л. 0,9

Тираж 100 экз. Заказ 389 Бесплатно

Саратовский государственный технический университет 410054, г. Саратов, ул. Политехническая, 77

Отпечатано в РИЦ СГТУ, 410054, г. Саратов, ул. Политехническая, 77

Оглавление автор диссертации — кандидата технических наук Солодков, Алексей Юрьевич

ВВЕДЕНИЕ.

1. ОБЗОР. МЕТОДЫ ХРАНЕНИЯ И УПРАВЛЕНИЯ ДАННЫМИ. МЕТОДЫ НЕТОЧНОГО СОПОСТАВЛЕНИЯ СТРОК.

МЕТОДЫ ПРИНЯТИЯ РЕШЕНИЙ.

1.1. Методы хранения и управления данными.

1.1.1. Базы данных.

1.1.2. Хранилища данных.

1.1.3. Очистка данных.

1.2. Методы неточного сопоставления строк.

1.2.1. Расстояние редактирования.

1.2.2. Нахождение наибольшей общей подпоследовательности.

1.2.3. Метод п-грамм.

1.2.4. Trie-деревья.

1.2.5. Хеширование.

1.3. Методы принятия решений.

1.3.1. Таблицы принятия решений.

1.3.2. Деревья принятия решений.

1.3.3. Фреймовые модели.

1.3.4. Нейросетевые методы.

1.3.5. Теория нечетких множеств.

1.3.6. Генетические алгоритмы.

1.3.7. Структурные методы анализа.

1.4. Выводы.

2. РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ И МЕТОДОВ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ

НА ПРИМЕРЕ ЮРИДИЧЕСКИХ ЛИЦ.

2.1. Алгоритмы сравнения реквизитов объектов.

2.1.1. Символьные поля.

2.1.2. Сложные символьные поля.

2.1.2.1. Наименование объекта.

2.1.2.2. Почтовый адрес.

2.1.3. Числовые поля.

2.2. Алгоритмы сравнения объектов.

2.2.1. Таблицы принятия решений.

2.2.2. Деревья принятия решений.

2.2.3. Структурный метод принятия решений.

2.3. Выводы.

3. ПРИМЕНЕНИЕ АЛГОРИТМОВ ИДЕНТИФИКАЦИИ ЮРИДИЧЕСКИХ ЛИЦ В ЗАДАЧЕ ПОСТРОЕНИЯ ХРАНИЛИЩА ДАННЫХ.

3.1. Выбор класса задач.

3.2. Построение хранилища данных

Управления Федеральной службы налоговой полиции по Саратовской области.

3.2.1. Особенности предметной области. Выбор СУБД.

3.2.2. Входной поток и Метапоток хранилища данных.

3.2.3. Восходящий поток.

3.2.4. Выходной поток.

3.2.5. Выбор реквизитов для принятия решения.

3.2.6. Построение дерева принятия решений.

3.2.7. Структурный метод принятия решений.

3.3. Выводы.

4. РЕАЛИЗАЦИЯ, ЭКСПЕРИМЕНТЫ, ВНЕДРЕНИЕ.

4.1. Оценки эффективности алгоритма.

Сравнение с традиционными методами.

4.2. Описание программной реализации алгоритма идентификации объектов нечисловой природы.

4.3. Технические характеристики.

4.4. Выводы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Солодков, Алексей Юрьевич

Хранилище данных - это предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. Впервые концепция информационных систем с хранилищем данных была предложена специалистами фирмы IBM [43]. Чрезвычайная сложность и, как следствие, высокая стоимость таких систем до середины 90-х годов XX века препятствовали их коммерческому внедрению. Основной вклад в становление технологии создания хранилищ данных внесли Барри Девлин, Уильям Инмон и Ральф Кимбал. В России разработкой и внедрением хранилищ данных занимается ряд компаний, таких как Intersoft Lab, Data Integration Software, РДТЕХ, Tomik, Трисофт, РЕЛЭКС и Аналитические технологии.

Наполнение хранилищ, как правило, осуществляется информацией из нескольких оперативных источников данных [18]. Наибольшую популярность приобрели базы данных. К сожалению, не все организации могут позволить себе разработку или впоследствии поддержку качественных систем хранения и обработки информации. Человеческий фактор и частичное отсутствие контроля данных на вводе либо неадекватная модель проверки информации приводят к появлению искажений в данных. Опечатки и пропуски присутствуют практически во всех реквизитах сохраненных объектов, в том числе и в идентификационных наборах. Основной причиной появления искажений является человеческий фактор на этапе ввода информации в базы данных. Особо остро проблема «загрязненных» данных препятствует созданию хранилища, когда отсутствует возможность повлиять на структуру и качество имеющейся информации. Такая ситуация типична, например, в правоохранительных органах, по роду деятельности которых необходима информация из многих разнообразных источников.

Управление федеральной службы налоговой полиции Российской Федерации по Саратовской области (УФСНП РФ по Саратовской области) регулярно получало БД от сторонних организаций. Для эффективного использования имеющейся информации необходимо было разработать хранилище данных с удобной системой поиска и представления информации. При построении хранилища данных, остро встала проблема наличия опечаток и пропусков данных в имеющихся БД [71, 73, 74, 75, 76, 78]. Разработка методов идентификации юридических лиц при построении информационного хранилища является предметом данной диссертационной работы.

Построение информационных хранилищ, то есть интегрирование имеющихся баз данных с учетом возможных искажений, является трудной задачей. По статистике, при создании хранилищ, этап подготовки и загрузки информации занимает от 60 до 80% рабочего времени. Наиболее трудный этап формирования хранилища - очистка данных. При этом наиболее технологически сложная подзадача - идентификация объектов, имеющих опечатки, пропуски и другие искажения.

Механизмы идентификации объектов в продуктах коммерческих фирм реализованы с использованием различного математического аппарата. Как правило, разработчики раскрывают алгоритмы, которые реализованы в программных продуктах. Однако по некоторым публикациям можно получить представление об используемых методах. Например, ООО «Аналитические технологии» в многомерном хранилище данных Deductor Warehouse использует нейронные сети. Компания РЕЛЭКС в основу идентификации в объектно-ориентированном хранилище данных «НЕВОД» использовала элементы нечеткой логики. В большинстве программного обеспечения алгоритмы идентификации используют аппарат обучения с учителем и различные справочники, которые формируются в процессе обучения. Такой подход имеет несколько недостатков. Во-первых, значительно различающиеся источники информации требуют персонального дополнительного обучения сети либо изменения функций принадлежности, что является весьма сложной и самостоятельной задачей. Во-вторых, идентификация, основанная на опорных справочниках, предъявляет высокие требования к их содержимому и влечет ложные выводы при наличии ошибок. Третьим недостатком является высокая трудоемкость при заполнении справочников и адаптации системы.

В БД задачи идентификации традиционно решаются следующими путями:

- выделяют один или несколько реквизитов, так называемые идентифицирующие наборы (ИН), однозначно определяющих запись в базе данных;

- вводят в состав реквизитов поле, имеющее априори уникальные значения, называемые первичным ключом;

- в некоторых программных комплексах используются комбинации ИН, которые последовательно проверяются до нахождения соответствия значений в совокупности реквизитов.

Все вышеперечисленные методы оперируют точным равенством сравниваемых полей и бессильны при наличии ошибок, пропусков в данных или при несоответствии состава ИН, что приводит к следующим недостаткам:

- невозможности построения целостного хранилища данных,

- низкой достоверности информации в полученном хранилище, что проявляется в ложном слиянии информации от разных объектов, или присутствии нескольких записей, относящихся к одному и тому же объекту.

Решение поставленной задачи основывается, исходя из следующих соображений:

1. Объекты реального мира обладают многими описывающими реквизитами, из которых можно выбрать несколько ИН. Наличие ошибок и пропусков в данных априори не позволяет точно идентифицировать все объекты, основываясь на одном реквизите, или на точном равенстве нескольких реквизитов.

2. Эксперт конкретной предметной области, принимая во внимание особенности этой предметной области, может точно идентифицировать объекты, имеющие опечатки и пропуски в значениях реквизитов.

Разработанный в данной диссертационной работе подход позволяет исключить влияние искаженных данных на идентификацию объектов. В связи с автоматизацией идентификации объектов исключается «человеческий фактор», что существенно повышает достоверность и сокращает время заполнения хранилища данных.

Приведем некоторые задачи, корректное решение которых практически невозможно без разработанных в данной диссертационной работе методов идентификации:

1) построение хранилища данных из нескольких БД;

2) аналитический поиск некоторых ситуаций по двум и более БД;

3) устранение дублирования объектов в рамках одной БД;

4) нахождение ошибочных/противоречивых объектов в БД;

5) разработка информационно-поисковой системы.

Целью диссертационной работы является разработка математических моделей и методов очистки данных и идентификации объектов нечисловой природы в хранилищах данных.

Для достижения указанной цели в работе решены задачи:

- выбор и обоснование метода неточного сравнения строк;

- разработан классификатор строковых реквизитов с получением как числовых, так и эвристических результатов сравнения;

- построена математическая модель реквизита, имеющего сложную внутреннюю семантическую структуру;

- выбор и обоснование методов принятия решения об идентификации объектов по совокупности результатов сравнений реквизитов;

- проверка метода идентификации на задаче интеграции различных баз данных в единое информационное пространство.

Научная новизна:

-получены результаты анализа эффективности основных методов нечислового сопоставления реквизитов объектов, что позволило предложить эвристический подход для комплексного решения задачи идентификации объектов нечисловой природы в хранилищах данных;

-создан классификатор строковых данных, синтезирующий результат близости реквизитов, устойчивый к искажениям, как в символьной, так и в числовой форме, отличающийся прозрачной схемой построения и не требующий эталонных наборов информации;

-разработана математическая модель реквизита, имеющего сложную, жестко не заданную семантическую структуру, которая основана на фреймах, что позволило повысить точность сравнения подобных реквизитов;

-создан метод идентификации, основанный на совокупности символьных результатов работы классификаторов по сравнению реквизитов, моделях представления знаниях экспертов о предметной области и возможных ситуациях в форме деревьев принятия решений;

-разработана геометрическая модель различий объектов, используемая для идентификации объектов нечисловой природы, и набор соответствующих ей адаптивных алгоритмов для автоматического выбора состава и порядка сравнения наиболее информативных реквизитов. Практическую значимость имеют:

- универсальный программный комплекс, для СУБД ORACLE, предназначенный для проведения идентификации нечисловых объектов, таких как: юридические и физические лица, документы;

- хранилище данных, содержащее информацию из нескольких баз данных контролирующих органов Саратовской области, полученный с применением разработанных математических моделей и методов идентификации объектов;

- процедура корректной выборки информации по юридическим лицам, присутствующим в двух различных БД по дополнительно наложенным условиям.

На защиту выносятся:

1. Классификаторы нечисловых реквизитов, в том числе имеющих сложную семантическую структуру на основе математической модели, генерирующие символьный либо числовой результат сравнения.

2. Метод проверки идентичности двух объектов на основе деревьев принятия решений и совокупности полученных результатов классификаторами по отобранным для идентификации реквизитам.

3. Математическая модель и метод идентификации нечисловых объектов, инвариантный по отношению к наличию пропусков и опечаток в данных с автоматической адаптацией набора реквизитов для сравнения.

1. Методика внедрения разработанного математического обеспечения при создании хранилища данных на примере Управления Федеральной службы налоговой полиции Российской Федерации по Саратовской области.

Внедрение

Разработанный метод идентификации был успешно применен в Управлении Федеральной службы налоговой полиции Российской Федерации по Саратовской области при решении задачи построения интегрированного банка данных по информации из нескольких БД государственных контрольных органов Саратовской области. Получен акт внедрения разработанных методов.

Апробация работы

Основные теоретические положения и практические результаты работы обсуждались и докладывались на: V молодежной научно-технической конференции «Наукоемкие технологии и интеллектуальные системы 2003» (Москва, 2003), Всероссийской научно-практической конференции «Технологии Интернет - на службу обществу» (Саратов, 2003), XVI Международной научной конференции «Математические методы в технике и технологиях» (Ростов-на-Дону, 2003), Всероссийской научной конференции «Сложные системы. Анализ, моделирование, управление» (Саратов, 2004).

Публикации. Основные положения диссертации отражены в 8 публикациях, в том числе в 1 статье в журнале «Системная интеграция» рекомендованном ВАК. Без соавторов опубликовано 2 работы.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованной литературы и приложений. Изложена на 136 страницах, содержит 18 рисунков, 8 таблиц, список используемых источников включает 147 наименований.

Заключение диссертация на тему "Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных"

Основные результаты диссертационной работы могут быть сформулированы в следующем виде:

1. Проведен анализ свойств объектов нечисловой природы, методов обработки символьной информации, а также принятия решений по идентификации объектов, что позволило выявить ключевые направления исследования и создать комплексный подход к предварительной обработке и идентификации таких объектов.

2. Предложены модели представления и методы обработки различных реквизитов объектов баз данных и реализующие их алгоритмы наиболее часто используемых реквизитов с учетом их структуры и семантики. Созданы классификаторы формирования как символьного, так и регулярного результатов сравнения реквизитов.

3. Созданы методы идентификации объектов нечисловой природы, построенные на основе экспертных оценок и вывода с помощью обработки совокупности результатов сравнения реквизитов разработанными классификаторами.

4. Разработанные методы идентификации объектов улучшают результаты идентификации объектов в БД с опечатками и пропусками данных, что позволяет создавать надежные хранилища, интеграция информации в которых основана на корректных выборках данных по объектам, находящимся в двух и более БД, производить поиск дублированных объектов в одной БД.

5. Достоверность и практическая ценность результатов, полученных в диссертационном исследовании, подтверждена актом внедрения в работу УФСНП РФ по Саратовской области.

ЗАКЛЮЧЕНИЕ

Библиография Солодков, Алексей Юрьевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Аведьян Э.Д. Алгоритмы настройки многослойных нейронных сетей / Э.Д. Аведьян // Автоматика и телемеханика. - № 4. - 1995. - С. 106-118.

2. Айвазян С.А. Прикладная статистика и основы эконометрики / С.А. Айвазян, B.C. Мхитрян М.: Юнити, - 1998. - С. 1022.

3. Андреев А.Б. Концепция регионального межведомственного банка данных / А.Б. Андреев, Б.Ю. Зинченко, В.И. Белоножкин // Информация и безопасность. 2002г. - №1. - С. 36-39.

4. Арсеньев Б. П. Система автоматизации семантической интеграции распределенных баз данных: дис. . кан. техн. наук / Б.П. Арсеньев. СПб.,- 1997.- С. 167.

5. Арсеньев Б.П. Интеграция распределенных баз данных / Б.П. Арсеньев, С.А. Яковлев. СПб.: Лань, - 2001. - С. 461.

6. Артамонов Р.Г. Алгоритмы клинической диагностики / Р.Г. Артамонов. // Медицинский научный и учебно-методический журнал.- 2002. № 11.-С. 7-20.

7. Благуш П. Факторный анализ с обобщениями / П. Благуш. М.: Финансы и статистика, 1989. - С. 248.

8. Бойцов Л.М. Синтез системы автоматической коррекции, индексации и поиска текстовой информации: дис. . кан. техн. наук / Л.М. Бойцов. М. -2003.-С. 147.

9. Борисов А.Н. Обработка нечеткой информации в системах принятия решений / А.Н. Борисов, А.В. Алексеев. М.: Радио и связь,- 1988.-С. 304.

10. Васильев М.А. Оценка эффективности проектов актов местного самоуправления: методы экспертной оценки / М.А. Васильев. Обнинск: Институт муниципального управления, - 2002. - С. 124.

11. Вороновский Г.К. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности / Г.К. Вороновский, К.В. Махо-тило, С.Н. Петрашев, С.А. Сергеев. Харьков: Основа, - 1997. - С. 212.

12. Гафт М.Г. О построении решающих правил в задачах принятия решений/ М.Г. Гафт, В.В. Подиновский // Автоматика и телемеханика,- 1981.-№6.-С. 128-138.

13. Гафт М.Г. Принятие решений при многих критериях / М.Г. Гафт.- М.: Знание, 1979. - С. 328.

14. Глушков В.М. Введение в АСУ / В.М. Глушков. Киев: Тэхника,- 1974.-С. 320.

15. Горбань А.Н. Нейронные сети на персональном компьютере / А.Н. Гор-бань, Д.А. Россиев. Новосибирск: Наука (Сиб. отделение), 1996. - С. 276.

16. Горбань А.Н. Обучение нейронных сетей / А.Н. Горбань. М.: СП Параграф,- 1990.-С. 159.

17. Гуров В.В. Инфокоммуникации юга России / В.В. Гуров // Журнал Сети и системы связи. -2003г.-№11.-С. 14-22.

18. Долотов Д. Хранилище данных для «Мострансгаза» / Д. Долотов // Журнал Открытые системы. 2003. - №3. - С. 15-17.

19. Дюбуа Д. Теория возможностей / Д. Дюбуа, А. Прад. М.: Радио и связь, - 1990.-С. 288.

20. Дюк В.А. Data Mining интеллектуальный анализ данных / В.А. Дюк // Byte (Россия). - 1999. - №9. - С. 18-24.

21. Емельянов С.В. Многокритериальные методы принятия решений / С.В. Емельянов, О.И. Ларичев. М.: Знание. - 1985. - С. 458.

22. Еремеев А.П. Параллельная модель для продукционной системы табличного типа / А.П. Еремеев // Изв. АН СССР, Техническая кибернетика. -1990.-№5.-С. 171-180.

23. Еремеев А.П. Продукционная модель представления знаний на базе языка таблиц решений / А.П. Еремеев // Изв. АН СССР Техническая кибернетика. 1987. - №2. - С. 196-207.

24. Ермаков А.Е. Ассоциативная модель порождения текста в задаче классификации / А.Е. Ермаков, В.В. Плешко // Информационные технологии. -2000.-№12.-С. 30-35.

25. Ермаков А.Е. Компьютерная лингвистика и анализ текста / А.Е. Ермаков // http://www.metric.ru/publications.asp?obno=305

26. Ермаков А.Е. Лингвистическая модель для компьютерного анализа тональности публикаций СМИ / А.Е. Ермаков, С.Л. Киселев // Компьютерная лингвистика и интеллектуальные технологии: труды Междунар. конференции Диалог'2005. М.: Наука, - 2005. - С. 312-313.

27. Ермаков А.Е. Морфологический анализатор основа поисковых систем/ А.Е. Ермаков // Компьютерные Вести. - 2004. - №15. Оhttp://kv.by/index2004154301.htm)

28. Ермаков А.Е. Синтаксический разбор в системах статистического анализа текста / А.Е. Ермаков, В.В. Плешко // Информационные технологии. -2002.-№7.-С. 15-17.

29. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры / А.Е. Ермаков // Информационные технологии. 2000. -№11.-С. 58-64.

30. Заде JI.A. Основы нового подхода к анализу сложных систем и процессов принятия решений / JI.A. Заде. М.: Математика сегодня,- 1974.-С. 249

31. Заде JI.A. Понятие лингвистической переменной и ее применение к принятию приближенных решений / JI.A. Заде. М.: Мир. - 1976. - С. 167.

32. Закревский А.Д. ЭКСИЛОР экспертная система логического распознавания / А.Д. Закревский // Управляющие системы и машины. - 1992. -№5/6.-С.118-125.

33. Иберла К. Факторный анализ / К. Иберла. М.: Статистика,- 1980.-С. 398.

34. Ивахненко А.Г. Персептроны / А.Г. Ивахненко. Киев : Наукова думка,- 1974.-С. 276.

35. Итоги науки и техники. Сер. Физ. и матем. модели нейронных сетей / под ред. А.А. Веденова. М.: ВИНИТИ, - 1990-1992. - Т. 1-5.

36. Керниган Б. Практика программирования / Б. Керниган, Р. Пайк. СПб.: Невский диалект, 2001. - С. 288.

37. Кини Р.Л. Принятие решений при многих критериях: предпочтения и замещения / Р.Л. Кини, X. Райфа. М.: Радио и связь, - 1981. - С. 560.

38. Киселев М. Средства добычи знаний в бизнесе и финансах / М. Киселев, Е. Соломатин // Открытые системы. 1997. - №4. - С. 41-44.

39. Кнут Д. Сортировка и поиск / Д. Кнут. М.: Вильяме, - т. 3.- 1978.-355 с.

40. Конолли Т. Базы данных. Проектирование, реализация и сопровождение. Теория и практика / Т. Конолли, К. Бегг, А. Страчан. М.: Вильяме, -2000.-С. 1120.

41. Кормен Т. Алгоритмы: построение и анализ / Т. Кормен, Ч. Лейзерсон, Р. Ривест. М.: МЦНМО, - 2001. - С. 1296.

42. Кофман А. Введение в теорию нечетких множеств / А. Кофман.- М.: Радио и связь, 1982. - С. 432.

43. Кохонен Т. Ассоциативная память / Т. Кохонен. М.: Мир,- 1980.-С. 250.

44. Кохонен Т. Ассоциативные запоминающие устройства / Т. Кохонен. -М.: Мир,- 1982.-С. 384.

45. Кречетов Н. Продукты для интеллектуального анализа данных / Н. Кречетов // Рынок программных средств. 1997. - №14-15. - С. 32-39.

46. Лаборатория BaseGroup. Очистка и разбор текста// http://www.basegroup.ru/tasks/parsing.htm.

47. Ларичев О.И. Качественные методы принятия решений / О.И. Ларичев, Е.М. Мошкович. М.: Физматлит, - 1996. - С. 217.

48. Левченко В.И. Матричное представление нечетких предикатов и его приложение в экспертных системах / В.И. Левченко, А.А. Савинов // Изв. АН СССР. Техническая кибернетика. 1993. - №5. - С. 125-140.

49. Липинский Г.В. Russian Context Optimizer: путь к возможностям Oracle interMedia в русскоязычных базах данных / Г.В. Липинский // Доклад на XII конференции АПО/ROUG, 1 сент. 2000г. - Обнинск. - С. 42-50.

50. Литвак Б.Г. Экспертная информация: методы получения и анализа / Б.Г. Литвак.-М.: Радио и связь, 1981. - С. 305.

51. Лоби Дж. Логические таблицы принятия решения / Дж. Лобби. М.: Прогресс,-1971.-С. 139.

52. Лодыженский Г. Шлюзы как средство интеграции баз данных. Практический подход / Г. Лодыженский // Открытые системы 1999. - №02.

53. Мазов Н.А. N-граммные методы обработки текстовой информации / Н.А. Мазов. Новосибирск: Объединенный институт геологии, геофизики и минералогии Сибирского отделения РАН, - 1995. - С. 180.

54. Месси Дж. Л. Введение в современную криптологию / Дж. Л. Месси // ТИИЭР. 1988. - №5. - т.76.- С. 24-42.

55. Минский М. Персептроны / М. Минский, С. Пайперт. -М.: Мир,-1971.-С. 276.

56. Минский М. Фреймы для представления знаний / М. Минский. -М.: Мир,-1979.-С. 198.

57. Миркин Б.Г. Проблема группового выбора / Б.Г. Миркин. М.: Наука, - 1974.-С. 95.

58. Нечеткие множества в моделях управления и искусственного интеллекта / под ред. Д.А. Поспелова. М.: Наука, -1986. -С. 312.

59. Нечеткие множества и теория возможностей: последние достижения. / под. ред. P.P. Ягера. М.: Сов. Радио, -1986. - С. 408.

60. Орлов А.И. Нечисловая статистика / А.И. Орлов. М.: МЗ-Пресс, -2004.-С. 295.