автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Модель и метод информационной безопасности банка при оценке платежеспособности заемщика

кандидата технических наук
Мукашев, Илья Всимович
город
Санкт-Петербург
год
2013
специальность ВАК РФ
05.13.19
Автореферат по информатике, вычислительной технике и управлению на тему «Модель и метод информационной безопасности банка при оценке платежеспособности заемщика»

Автореферат диссертации по теме "Модель и метод информационной безопасности банка при оценке платежеспособности заемщика"

МУКАШЕВ ИЛЬЯ ЕСИМОВИЧ

Модель и метод информационной безопасности банка при оценке платежеспособности заемщика

Специальность:

05.13.19.-Методы и системы защиты информации, информационная

безопасность

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

5 ДЕК 2013

Санкт-Петербург - 2013

005543248

005543248

Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики» (НИУ ИТМО) на кафедре информатики и прикладной математики (ИПМ)

Научный руководитель:

Немолочнов Олег Фомич,

доктор технических наук, профессор, профессор кафедры ИПМ НИУ ИТМО

Официальные оппоненты: Минаков Владимир Федорович,

доктор технических наук, профессор, профессор кафедры информатики ФГБОУ ВПО «Санкт-Петербургского государственного экономического университета»

Ефимов Вячеслав Викторович

кандидат технических наук, доцент, Заместитель директора по науке ООО НИИСА

Ведущая организация

Ленинградское отделение Центрального научно-исследовательского института связи

Защита состоится 23 декабря 2013 г. в 15-50 на заседании диссертационного совета Д.212.227.05 при НИУ ИТМО по адресу: 197101, Санкт-Петербург, Кронверкский пр., д.49.

С диссертацией можно ознакомиться в библиотеке НИУ ИТМО Автореферат разослан 22 ноября 2013 г.

Ученый секретарь

диссертационного совета, к.т.н., доцент

чи^

Поляков В.И.

1. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертационного исследования

Актуальность темы исследования обусловлена актуальностью проблемы оценки безопасности информации при проведении банковских операций высокой динамики конъюнктуры спроса па ринке банковских услуг. На сегодняшний день не существует достаточных гарантий в системе оценки банковских рисков, удовлетворяющей банковское сообщество.

Актуальность проблемы оценки платежеспособности заемщика - важной составной части задачи управления кредитными рисками, - возрастает в связи с ростом числа банков, возросшей динамикой спроса на кредиты различных профилей, динамичностью структуры этого спроса - все это ведет к подвижности системы требований, которые предъявляются к заемщикам, в том числе, к достоверности и безопасности данных о заемщиках.

При этом, следуя данному в работах определению, кредитный риск -риск возникновения у кредитной организации убытков вследствие неисполнения, несвоевременного либо неполного исполнения должником финансовых обязательств перед кредитной организацией в соответствии с условиями договора. К указанным финансовым обязательствам могут относиться обязательства должника по: полученным кредитам, учтенным кредитной организацией векселям, банковским гарантиям и т.д.

Степень эффективности системы управления банковскими рисками, не в последнюю очередь, связана с уровнем автоматизации процессов управления безопасностью информации и, следовательно, с созданием эффективных средств математического моделирования банковских систем как объектов защиты.

, Вместе с тем, технологии оценки, используемые в настоящее время в банковской практике, часто основаны на формальном аппарате, который не учитывает особенностей оценки достоверности и безопасности и предназначен для условий, достаточно далеких от тех, в которых решаются задачи ¡кредитования, что существенно снижает их эффективность. Например, широкое применение в оценке платежеспособности вероятностно-статистических методов не всегда корректно в условиях высокой динамики требований к объектам оценивания и отсутствия аналогов. Методы теории вероятностей» математической статистики распространяются лишь на стохастически устойчивые последовательности событий.

Следовательно, актуальность темы исследования обусловлена необходимостью повышения эффективности системы оценки платежеспособности за счет совершенствования формальных методов (языка) описания моделей различных стадий технологии оценки достоверности и безопасности информации о платежеспособности заемщика и, на этой основе, автоматизации проектирования оценочных систем и оценочной деятельности в сфере кредитования.

Степень разработанности научной проблемы.

Рядом ученых математиков рассмотрены указанные проблемы к ним относятся работы Липаева В.В., Бригхем Ю., Гапенски Л., Гантмахер Ф.Р. Глушкова В.М., Горелик А.Л., Гуревич И.Б., Скрипкин В.А. Гофман А.Л., Гранберг А.Г., ЗадеЛ.

Различные стороны оценки банковских рисков в части кредитной политики и оценки заемщиков рассмотрены в работах Сантмахера Ф.Р., Веснец-кой Е.И., Игораева М. К., Клюшева К. И., Плюшкина В. П. и других Российских и зарубежных ученых.

В этих работах показано, что существующее положение дел не всегда удовлетворяет принципу соответствия уровней формализации оценки и модели объекта оценки, — часто строгость методов обработки оценок превышает строгость уровня описания объекта оценки, что снижает эффективность оценочной деятельности как инструмента управления кредитными рисками, приводит к недостаточно продуктивным процедурам синтеза технологий оценочной деятельности как сложных, многоуровневых процедур, объединяющих в единую систему все виды оценочной деятельности в банковской сфере.

Проблемы, возникающие при имеющихся технологиях классификации заемщиков: нечеткость определения классов, отсутствие строгого разделения и пересечения классов, отсутствие непрерывной меры платежеспособности, зависимость результатов от обучающей базы.

Применение статистических методов в управлении кредитованием не носит в настоящее время систематического характера. При этом методы теории экспертных оценок и теории нечетких множеств в наибольшей степени удовлетворяют принципу соответствия уровней формализации оценки и объекта, их использование способно повысить степень корректности результатов оценки платежеспособности и ускорить темпы разработки и внедрения автоматизированных систем оценки уровня платежеспособности для различных видов объектов оценки, повысить достоверность результатов оценки.

По этой причине особое значение приобретают подходы к разработке комплексной модели оценочной деятельности в сфере кредитования на основе современных статистических методов, опирающихся на формальный аппарат теории нечетких множеств и экспертных оценок. В диссертационном исследовании проводится разработка нового подхода к статистическому методу оценки банковских рисков, обобщающего метод скоринга, с целью преодолеть основные проблемы нечеткостей и кластеризации '

Цель и задачи диссертационного исследования включает разработку новых моделей и методов оценки кредитного риска , интеллектуальной информационной системы их поддержки, которая производит оценку кредитного риска банка в отношении физических лиц, преодолевающей в большей степени недостатки, свойственные существующим методам оценки.

Для этой цели в работе вводится понятие «диффузного расстояния» между представлениями, из них строится «диффузная карта».

В соответствии с целью исследования в диссертационной работе решаются следующие задачи:

1. разработка модели представления многомерной информации;

2. разработка базовой методики для извлечения скрытых закономерностей;

3. разработка нового алгоритма к решению задачи классификации и кластеризации, преодолевающего проблемы неопределенности классов и нечеткости разделения;

4. разработка метода отнесения входного вектора к кластеру в диффузной карте, а также непрерывная мера принадлежности к кластеру.

Объектом исследования является методы оценки платежеспособности заемщика в банковских системах.

Предмет исследования - возможность совершенствования оценочной деятельности на основе разработки формальной модели замкнутой технологии оценочной деятельности в сфере кредитования, описание которой осуществлено с привлечением аппарата теории нечетких множеств, теории экспертных оценок и теории кластеризации.

Соответствие содержания диссертации паспорту научной специальности.

05.13.19 Методы и системы защиты информации, информационная безопасность - специальность, включающая исследования проблем разработки, совершенствования и применения методов и средств защиты информации в процессе ее сбора, хранения, обработки, передачи и распространения, а также обеспечения информационной безопасности объектов политической, социально-экономической, оборонной, культурной и других сфер деятельности от внешних и внутренних угроз хищения, разрушения и/или модификации информации. Значение решения научных и технических проблем данной специальности для народного хозяйства состоит в разработке новых и совершенствовании имеющихся методов и средств защиты информации и обеспечения информационной безопасности.

Методологическая и теоретическая основа исследования. Методами исследования являются методы системного анализа, теории измерений; методы обработки экспертной информации, теории нечетких множеств, нечеткой логики, теории кластеризации.

Информационная база исследования включает анализ данных Банка России, Ассоциации коммерческих банков, МДМ банка, труды отечественных и иностранных ученых, публикации и материалы печати, в том числе, в электронных изданиях.

Научная новизна и теоретическая значимость. В диссертационной работе разработан новый метод и модель представления каждого образа в виде многомерного вектора, координаты которого свободны от контекстной зависимости от шкал. Этот результат дает существенное продвижение в ре-

шепни проблемы нечеткостей представлений, вызванных разнонаправленно-стыо показателей.

В исследовании применена техника случайных процессов в Марковских цепях для разделения кластеров и выявления взаимосвязей между данными, а также представления кластеров в пространстве малой размерности.

В работе разработан новый метод, модель и алгоритм классификации -отнесения нового объекта, представленного набором показателей, к одному из классов: положительному или отрицательному. Алгоритм основан на представлении объекта в пространстве диффузной карты, в котором расположены базовые классы обучающего множества по принципу минимизации расстояния в специальной метрике.

Таким образом, разработана математическая модель информационной системы, позволяющая на основе данных о клиенте-заемщике автоматически определять его платежеспособность.

Разработанная на основе математической модели интеллектуальная информационная система предназначена для применения в банковской сфере. Назначение данной системы состоит в том, чтобы оценить кредитный риск банка, то есть произвести анализ кредитоспособности заемщика, в данном случае физического лица, на предмет его способности и возможности своевременно погасить выданное обязательство, на основании его анкетных данных. Из этого следует, что деятельность данной системы направлена облегчить труд кредитных аналитиков в оценке кредитного риска банка в отношении физических лиц.

Апробация результатов исследования. Результаты диссертационного исследования были изложены в докладах на ежегодных научно-практических конференциях профессорско-преподавательского состава, научных сотрудников и аспирантов СПбГУЭФ в 2012 году, СПб ГУТ им. Профессора Бонч-Бруевича в 2011 году, СПб ГУ ИТМО в 2010 году, ОАО «СИСТЕМПРОМ» в 2012 году, на третьей международной конференции «Борьба с мошенничеством в сфере высоких технологий. Профилактика и противодействие» Anti-Fraud RUSSIA 2012.

Разработанные автором экономико-математические модели послужили основой для использования и внедрения: в байках России. По теме.диссертации опубликовано 7 работ, в том числе 3 в изданиях рекомендованных ВАК РФ, общим объемом 4.5 п.л. (авторский вклад 3.2 п.л.)

Структура работы. Диссертация состоит из введения, трех глав, заключения, списка литературы. Материал изложен на 122 страницах, число таблиц 10, рисунков 12.

II. ОСНОВНЫЕ ПОЛОЖЕНИЯ И РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ

1 Аналитический обзор методов моделей и алгоритмов представления данных о заемщиках и их классификации и на их основе повой модели представления информации.

На основе литературных источников исследуются основные понятия, через которые раскрывается понятие «риск», «платежеспособность», анализируются главные системные принципы, формирующие понятие «надежность и безопасность информации оценочной системы».

Анализируются особенности формализованного моделирования системы классификации в информационных банковских системах, особенности формирования базы оценки и проведения процедур оценки по показателям рисков.

Показано, что существенной особенностью процесса оценки платежеспособности заемщика и уровней риска в банковских информационных системах является наличие неопределенностей на различных стадиях технологии оценки уровня риска информационными системами в банках. Выявлены основные источники неопределенностей, встречающихся при оценке уровня надежности и безопасности.

На основе проведенного анализа формулируются требования к математическому аппарату, используемому для формализованного описания замкнутой технологии оценки надежности и рисков информационными банковскими системами.

Проведен анализ особенности формализованного моделирования системы классификации в информационных банковских системах, особенности формирования базы оценки и проведения процедур оценки по показателям рисков.

Проделан анализ содержания и структуры автоматизированных банковских систем, проведен обзор существующих автоматизированных банковских систем, а также анализ видов и методов оценивания банковских рисков.

Было проведено разделение методов экспертных оценок на статистические и аналитические. Были показаны достоинства и недостатки каждого из этих подходов.

Кроме того, было проведено описание существующих подходов к выявлению закономерностей в базе знаний. Была разработана таблица индикаторов, характеризующая заемщика.

Был проведен обзор математического аппарата, имеющегося на сегодняшний день для решения проблем классификации и выборки.

Было выявлено два подхода в обучении с экспертом. Первый из них -двухэтапный алгоритм разделения данных на группы, первый этап из которого известен как K-means, а второй - Support Vector Machines (S VM)[98]. Второй метод основан на сингулярном разложении матрицы (SVD). Были описаны достоинства и недостатки каждого из них. На примерах показано, что существенной трудностью процесса оценки платежеспособности заемщика и уровней риска в банковских информационных системах является наличие неопределенностей на различных стадиях технологии оценки уровня риска информационными системами в банках. Выявлены основные источники неопределенностей, встречающихся при оценке уровня надежности.

На основе проведенного анализа сформулированы требования к математическому аппарату, используемому для формализованного описания

замкнутой технологии оценки надежности и рисков информационными банковскими системами.

Целью диссертации является разработка новой интеллектуальной информационной системы, которая будет производить оценку кредитного риска банка в отношении физических лиц, преодолевающей в большей степени недостатки, существующие в настоящий момент.

Во второй главе получен новый алгоритм представления каждого образа в виде многомерного вектора, координаты которого свободны от контекстной зависимости от шкал. Новизна этого метода заключается в таком представлении элемента обучающей базы, в котором все показатели измеряются в единой абстрактной шкале. Этот результат дает очень существенное продвижение в решении проблемы нечеткостей представлений, вызванных разнонаправленно стью показателей.

Применена техника случайных процессов в Марковских цепях для разделения кластеров и выявления взаимосвязей между данными, а также представления кластеров в пространстве малой размерности. Этот подход позволяет получить такое представление данных, которое существенно улучшило кластеризацию обучающей базы.

Получен новый алгоритм классификации - отнесения нового объекта, представленного набором показателей, к одному из классов: положительному или отрицательному. Алгоритм основан на представлении объекта в пространстве диффузной карты, в котором расположены базовые классы обучающего множества по принципу минимизации расстояния в специальной метрике. Эта классификация применяется для принятия решений о возможности выдачи кредита заемщику, учитывая показатели системы о его надежности.

Таким образом, разработана математическая модель информационной системы, позволяющая на основе данных о клиенте-заемщике автоматически определять его платежеспособность.

В соответствии с требованием высокой производительности, архитектура разрабатываемой системы имеет распределенный характер. В ходе работы могут одновременно используются несколько компьютеров, связанные между собой с помощью локальной или глобальной сети.

Разработанная интеллектуальная информационная система предназначена для применения в банковской сфере. Назначение данной системы состоит в том, чтобы оценить кредитный риск банка, то есть произвести анализ кредитоспособности заемщика, в данном случае физического лица, на предмет его способности и возможности своевременно погасить выданное обязательство, на основании его анкетных данных. Из этого следует, что деятельность данной системы направлена облегчить труд кредитных аналитиков в оценке кредитного риска банка в отношении физических лиц.

В третьей главе была разработана архитектура программной системы автоматизированного оценивания платежеспособности клиента банка. Она является распределенной и удовлетворяет требованиям масштабируемости, открытости и прозрачности, сформулированным в начале главы.

Была описана архитектура разработанной системы автоматического распознавания платежеспособности заемщика. Представлено описание основных классов и модулей, а также их взаимосвязь.

Предоставлены результаты кластеринга на основе обучающей базы, а также результаты теста.

В третьей главе показано, что подход, предложенный в данной работе, оказался надежнее всех остальных известных классификаторов в ситуации оценивания платежеспособности клиента.

Показано также, что внедрение информационной системы на предприятиях банковской сферы требует одновременного осуществления следующих мер, необходимых для повышения эффективности процесса модернизации:

• Разработка четко определенной стратегии предприятия банковской сферы.

• Полная переоценка основных технологий управления предприятия банковской сферы.

• Значение модернизации за пределами предприятия.

Внедрение проектных организационно-технических мероприятий и разработанное программное обеспечение позволяет получить годовой экономический эффект в размере 1403105 рублей и снизить годовые приведенные затраты труда, количество работников и капитальные вложения.

На основе литературных источников исследуются основные понятия, через которые раскрывается понятие «риск», «платежеспособность», анализируются главные системные принципы, формирующие понятие «надежность оценки».

Анализируются особенности формализованного моделирования системы классификации в информационных банковских системах, особенности формирования базы оценки и проведения процедур оценки по показателям рисков.

Показано, что существенной особенностью процесса оценки платежеспособности заемщика и уровней риска в банковских информационных системах является наличие неопределенностей на различных стадиях технологии оценки уровня риска информационными системами в банках. Выявлены основные источники неопределенностей, встречающихся при решении данной проблемы.

На основе проведенного анализа формулируются требования к математическому аппарату, используемому для формализованного описания замкнутой технологии оценки надежности и рисков информационными банковскими системами.

Проводится анализ автоматизированных систем поддержки оценочной деятельности в банковской сфере, анализируются тенденции их развития.

Принципы организации и работы АБС базируются на основных утверждениях ряда научных направлений, таких как: теория принятия решений, теория систем и системный анализ, математическое моделирование, нейрон-

ные сети, математическая статистика, теория вероятностей, кластерный и системный анализ, теория игр и рисков.

Перечислим ключевые принципы организации и работы АБС:

Модульная структура;

Возможность взаимодействия с другими информационными системами и платформами;

Моделирование банковских бизнес-процессов;

Постоянное улучшение системы, которое базируется на обновлении модели процессов в банковской системе;

Многопользовательский интерфейс, обеспечивающий доступ к системе для разных категорий пользователей в режиме он-лайн;

Возможность настройки под клиента;

Поддержка многих категорий пользователей;

Возможность аутсорсинга;

Ведение отчетности по МСФО;

Защищенность от несанкционированного доступа и ведение журналов учета операций по каждому пользователю.

Архитектура современных автоматизированных банковских систем (АБС), предполагает следующие слои функционирования.

Первый (Front-office) — взаимодействие пользователей, других систем с данной системой. На этом уровне поддерживается ввод информации в систему.

Второй (Back-office) — операции, которые осуществляются внутри банка, поддержка внутренних расчетов.

Третий (Accounting) — ведение бухгалтерского учета.

Четвертый (Head-office). Принятие управленческих решений и постановка целей.

Высокий уровень требований к АБС обусловлен постоянным контролем банковского бизнеса со стороны государственных органов. В России нормативная база и отчетность постоянно меняются, это приводит к тому, что разработчики АБС должны регулярно вносить изменения и поправки в существующие системы.

В настоящее время рынок АБС бурно развивается. Среди лидеров можно выделить 9 компаний-разработчиков банковских программных продуктов. К ним относятся: компании Diasoft, ЦФТ, БАНК 21 ВЕК, RS-Банк, Ва-Банк, Новая Афина, Кворум, ИБС Гефест, Банкир.

Представим рейтинг программных продуктов этих компаний (Таблица 1.) Показатель рейтинга — число банков, использующих данные автоматизированные банковские системы.

В условиях широты сферы банковской деятельности и многообразия банковских продуктов и услуг важнейшим видом анализа банковской деятельности является оценка банковских рисков.

Таблица 1. Рейтинг автоматизированных банковских систем

Наименование автоматизированной банковской системы. Число банков, использующих данные автоматизированные банковские системы

273

ЦФТ 261

АБС БАНК 21 ВЕК 76

ШЗ-Банк 72

Ва-Банк 49

ИБС «Новая Афина» 25

АБС «Кворум» 21

ИБС Гефест 18

ИБС Банкир 16

Банковский риск - присущая банковской деятельности возможность (вероятность) понесения кредитной организацией потерь и (или) ухудшения ликвидности вследствие наступления неблагоприятных событий.

В нашем исследовании мы остановимся на понятии кредитного риска.

Кредитный риск - риск возникновения у кредитной организации убытков вследствие неисполнения, несвоевременного либо неполного исполнения должником финансовых обязательств перед кредитной организацией в соответствии с условиями договора. К указанным финансовым обязательствам могут относиться обязательства должника по: полученным кредитам, учтенным кредитной организацией векселям, банковским гарантиям и т.д.

Для оценки кредитного риска необходимо произвести анализ кредитоспособности заемщика, под которой в банковской практике понимается способность юридического или физического лица полностью и в срок рассчитаться по своим долговым обязательствам.

Схематично процесс взаимодействия всех участвующее в создании данной системы изображено на рисунке 1.

База знаний содержит сведения, которые отражают закономерности, существующие в рассматриваемой предметной области, позволяют выводить новые знания и прогнозировать потенциально возможные состояния исследуемой области; сведения о структуре и содержании базы данных; сведения по языку общения; метазнания, определяющие способы представления и переработки знаний.

Рисунок 1. Структурная схема. Процесс взаимодействия участников создания интеллектуальной информационной системы

База знаний позволяет сформировать технологию классификации с обучением. Задача обучения сводится к разбиешпо пространства признаков на классы. Процедура самообучения (обучение без эксперта) основана на автоматической классификации.

Данные из базы структурируются в виде вектора представлений. Каждая координата вектора количественно характеризует заемщика в том или ином аспекте.

2. Разработана базовая методика извлечения скрытых закономерностей в исходных данных.

Рассматриваются два эталонных класса:

• «хорошие кредиты» идентифицируются тем, что последний элемент в векторе признаков -1.

• «плохие кредиты» идентифицируются тем, что последний элемент в векторе признаков - 2.

Далее строятся методы понижения размерности признаков и разделения классов, используя взаимоотношения между векторами.

Технологии классификации и выборки представлены основным набором алгоритмов: AdaBoost, SVM, Нейронные сети, Linear Discriminate Analysis.

Дано множество векторов в k-мерном пространстве.

Пусть даны следующие обозначения.е-гиперштоскость разделения, ./(e)- мера качества разделения,

Sj- группы, на которые разбивается множество векторов, /- число групп разделения, х- обозначение произвольного вектора из множества.

В качестве меры кластеризации предлагается максимизация функции J(e), где е - разделение. Более детально, J(e) - след произведения матриц:

3{е) = ЩЗ^Яв)

где - внутригрупповая ковариационная матрица, она рассчитывается

как

г

при том, что

1 - число групп разбиения,

группы, на которые разбивается множество данных, гщ- центр каждой группы.

Матрица ¿V мерит однородность векторов в группе. Если, например, внутри каждой группы данные сосредоточены около центра, то Бу/ близка к нулю. В противном случае велика.

с1

в- межгрупповая ковариационная матрица. Она рассчитывается по формуле

1

= ^ гц(т,- - т)(гт - т)Т ¡=1

где л, - число элементов каждой группы, /и,- - центр каждой группы, т- центр масс всей системы.

Норма матрицы Бь тем больше, чем более разбросаны центры кластеров относительно общего центра масс системы.

Таким образом, найдены оптимальные параметры гиперплоскости, задающие линейное разделение между двумя группами.

Таким образом, описан двухэтапный метод отбора и расчета кластеризации нечетких множеств, которые представляют группы состояний системы (в нашем случае это заемщики) , отобранные на основании базы знаний экспертами, описываемые набором многомерных векторов.

Анализ перечисленных выше методов ставит нас перед необходимостью решать стандартные проблемы, характерные для данных методов: нечеткость определения классов, отсутствие строгого разделения и пересечения классов, подобие сингулярных векторов, представляющих классы, отсутствие непрерывной меры платежеспособности, зависимость результатов от обучающей базы.

З.Разработка нового алгоритма к решению задачи классификации и кластеризации, преодолевающего проблемы неопределенности классов и нечеткости разделения.

Для решения этой проблемы вводится понятие «взаимного расстояния» между представлениями, в результате чего каждый образ становится представлен не величинами-показателями по каждой категории, а вектором отношений с остальными образами из базы данных. В результате мы получаем многомерное представление каждого показателя в виде вектора с равноцен-

ными координатами, измеряемые в одной шкале. Иными словами, вместо значения показателя x(i) получаем k-мерный вектор

у -(*(*. jcI), s(x, х2),..., sCjc. jcä)), где к - число элементов в базе, а xl, ..., хк - все образы (клиенты-заемщики, представленные своими характеристиками) базы данных.

4. Модель выявления скрытых закономерностей между данными

При решении этой проблемы мы будем опираться на метол «диффузных карт», (Ronald R. Coifman, Stephane Lafon Di_usion maps.Appl. Comput. Harmon. Anal.Mathcmatics Department, Yale University, New Häven, Cl" 06520, USA).

Модель, которую мы предлагаем, основывается на случайном блуждании по 1рафу.

Обозначим

I } .>»»1....,»■;<»

Множество объектов, представленных многомерными векторами. Первый индекс обозначает нумерацию объектов в классе, второй индекс нумерует сами классы. В нашем случае г= 2.

Каждый объект является многомерным вектором размерности п.

"Л, 4 .....е R" i = I.....г;« = 1,...,тп>

Построим граф

G = (1.1)

гас множество вершин V соответствует объектам а множество ребер

Е =

- мера локальной близости между векторами, индуцированной нормой Lj. . Данная картина может быть проиллюстрирована следующим рисунком

)

Рисунок 3. Граф (1.1). Вершины - объекты системы, ребра - наличие локальной близости между объектами в норме ¿2

Далее мы инициализируем случайное блуждание точки по графу (1.1). Блуждание по графу происходит в областях сгущения плотности, поскольку вероятности перехода из узла в узел в плотных участках больше, чем переход из одной точки сгущения в другую. Поэтому такое блуждание выделяет кластеры, как области наиболее вероятного нахождения точки при случайном

блуждании.

Таким образом, случайное блуждание разделяет всю область V на отдельные кластеры, которые обусловлены скрытыми взаимосвязями между элементами множества I.

Теперь мы дадим более формальное аксиоматические определение весовых функций, связанных с ребрами графа (1.1). Функция «V определяется как такое отношение локальной близости между вершинами графа, обладающее следующими свойствами. Дня всех € I весовая функция обладает следующими свойствами:

• Симметричность. ~ (f«*)

• Неотрицательность. "'» > О

• Свойство разреженности. Пусть задано вещественное положительное число s > 0. Тогда в случае " l ~ fil ^ : мы имеем a'i 0, в противном случае, если Ik- fil < выполняется свойство

«М-г.у) 1 _

Все перечисленные свойства задаются аксиоматичесю<. Функция w, подбирается так, чтобы удоштстворять этим свойствам. Параметр с задает

локальную структуру окрестности. Функция "V задает локальную геометрию подобия пары объектов внутри окрестности радиуса е. В качестве функции выбирается «гауссовское ядро», поскольку оно удовлетворяет перечисленным выше свойствам локальной близости, а также оно показало свою эффективность в построении диффузных карт .

«7

(1.2)

Теперь опишем формально случайный процесс блужданий по графу

(1.1).

Определим вес каждой вершины в графе

Нормализуем весовые функции "'« как строки стохастической Марковской матрицы [42). Более формально, рассмотрим матрицу

определенную как

«/V ..У -

Величина

может быть интерпретирована, как вероятность не-

рехода из точки х в точку у за один шаг. Определим теперь вероятность перехода из х в у за время / как Р' '<Г-УК Матрица, составленная из элементов № (■''• и), задает разбиение графа на кластеры при стремлении параметра г к бесконечности.

Представители этих двух групп представлены на рисунке 4.

Рисунок 4. Две группы векторов, представленные графиками справа н слева, соответственно.

Для векторов, представленных на рисунке, очевидна структура принадлежности группы справа и слева к разным кластерам.

Как было показано , диффузное расстояние РДх, у) может быть вычислено по следующей формуле

у)=£ -

где XI, Х2, ..Хш - собственные числа матрицы Р, такие что |А,| > |Аа| > ... > |А„,|

»

а . ут - соответствующие им собственные векторы.

Отбросив теперь члены при собственных числах, близких к 0 и оставив первые \у самых существенных слагаемых, приходим к тождеству

Р,{*,у) = - Ми))).

Определим отображение

М*) =

Нетрудно видеть, что оно обладает следующими свойствами:

• Отображение происходит в пространство размерности н\

• Отображение ие я&тяется линейным.

• Расстояние между образами точек равно диффузному расстоянию, то есть, вероятности попасть из точки х в точку у при случайном блуждании по графу (1.1) за время

Данное отображение будем называть «диффузной картой».

карт.

Рисунок

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Получен новый алгоритм представления каждого образа в виде многомерного вектора, координаты которого свободны от контекстной зависимости от шкал. Этот результат дает очень существенное продвижение в решении проблемы нечеткостей представлений, вызванных раз-нонапра&леиностмо показателей.

2. Применена техника случайных процессов в Марковских цепях для разделения кластеров и выявления взаимосвязей между данными, а также представления кластеров в пространстве малой размерности

3. Получен новый алгоритм классификации - отнесения новою объекта, представленного набором показателей, к одному из классов: положительному или отрицательному. Алгоритм осникш на преде юьленин объекта в пространстве диффузной карты, в котором расположены базовые классы обучающего множества по принципу минимизации расстояния в специальной метрике.

Таким образом, разработана математическая модель информационной системы, позволяющая на основе данных о клиенте-заемщике автоматически определять ею платежеспособность.

Ш ОСНОВНЫЕ НАУЧНЫЕ ПУБЛИКАЦИИ НО ТЕМЕ ДИССЕРТАЦИОННОГО ИССЛЕДОВАНИЯ

1. Мукашев И.Е. Формализация модели представления и классификации вектора индикаторов банковского кредита.//Нау ка и биз-нес.-2012.-№11(104).- 0.7 пл.

2. Мукашев И.Е. Модель выявления скрытых закономерностей между данными в базе данных заемщиков банковских креди-тов7/Глобальный научный потенцнал.-2012.-№11(159)-0.5 пл.

3. Мукашев И.Е. "Описание и реализация алгоритма распознавания рисковых ситуаций в кредитова-нин^/СПбГУЭФ: Известия Санкт-Петербургского университета экономики и финансов. 2012 №4(76)

4. Корбаинова Е.В., Александровская H.A., Мукашев И.Е. "Модель авторизации субъекта в системах защиты",//. Научно-технический сборник ОАО «Концерн «Системпром». 2012, № 1 (2) / Под ред. Ю.В. Борода-кия. - М.: Издательство: «ОАО «Концерн «Системпром», 2012.

5. Мукашев И.Е., Александровская H.A. «Формализация модели представления индикаторов банковского кредита», //. Научно-технический сборник ОАО «Концерн «Системпром». 2012, № 1 (2) / Под ред. Ю.В. Бородажия. - М.: Издательство: «ОАО «Концерн «Системпром», 2012.

6. Мукашев И.Е. "Модели представления и классификации вектора индикаторов банковского кредита," //: Современные технологии в образовательном процессе. Материалы Седьмого научно-методического семинара 25-28 сентября 2012 г. Под ред. И,В. Мостовой. - г. Ростов-на-Дону: Изд-во ЮФУ, 2012. стр. 192-195

7. Корбаинова Е.В., Мукашев И.Е. Алгоритм обнаружения аномального поведения объекта.// Труды XVII -ой международной научно-практической конференции «Теория и технология программирования и ЗИ» СПб ГУТ, 2011, стр.79

Тиражирование и брошюровка выполнены в учреждении «Университетские телекоммуникации» 197101, Санкт-Петербург, Саблинская ул., 14 Тел.(812)233 46 69. Объем 1,0 у.пл. Тираж 100 экз.