автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Технология структуризации информационных массивов взаимосвязанных объектов
Автореферат диссертации по теме "Технология структуризации информационных массивов взаимосвязанных объектов"
На правах рукописи
Шоргин Всеволод Сергеевич
ТЕХНОЛОГИЯ СТРУКТУРИЗАЦИИ ИНФОРМАЦИОННЫХ МАССИВОВ ВЗАИМОСВЯЗАННЫХ ОБЪЕКТОВ
Специальность 05.13.17 - Теоретические основы информатики
Автореферат диссертации на соискание ученой степени кандидата технических наук
Москва-2005
Диссертация выполнена в Институте проблем информатики Российской академии наук
Научный руководитель:
заслуженный деятель науки РФ, доктор технических наук, профессор Синицын Игорь Николаевич
Официальные оппоненты:
доктор физико-математических наук, профессор Малашенко Юрий Евгеньевич
кандидат технических наук, доцент Бородько Владимир Павлович
Ведущая организация:
Межведомственный Суперкомпьютерный Центр Российской академии наук
Защита состоится <^>> 2005 Г. в/£~часов на заседании диссертационного
Совета Д002.073.01 при Институте проблем информатики РАН по адресу: 119333, Москва, ул. Вавилова, д.4412.
С диссертацией можно ознакомиться в библиотеке Института проблем информатики РАН.
Отзывы в одном экземпляре, с заверенной подписью, просим направлять по адресу: 119333, Москва, ул. Вавилова, 44/2, в диссертационный Совет.
Автореферат разослан
Ученый секретарь диссертационного Совета, доктор технических наук, профессор
С.Н. Гринченко
Общая характеристика работы
Актуальность темы диссертации. Многие научные исследования и прикладные разработки приводят к постановке задачи выяснения «скрытых» («неявных)/) связей или отношений между объектами в рамках некоторой предметной области на основе имеющейся информации о «явных» связях между объектами, в том числе выражаемых качественно и количественно Так, в настоящее время четко обозначились многочисленные прикладные задачи, приводящие к проблемам выявления «неявных» связей или отношений внутри структур и между структурами (холдинги, корпорации, другие формальные и неформальные группы юридических и физических лиц, те или иные технические объекты и системы, и т п) Установление таких связей особенно важно с прикладной точки зрения (технологической, правовой, юридической, финансовой и тп) Исходные данные о «явных связях» при этом требуется предварительно формализовать надлежащим образом, чтобы свести к логическим или численным переменным Тем самым осуществляется формализация исходных данных («явных связей») По совокупности этих переменных и должны быть вычислены отношения связи, свойства, струкгура рассматриваемого множества объектов («неявные связи») В результате выявляются те или иные группы (кластеры) внутри рассматриваемого множества объектов и их иерархия Каждый кластер показывает одну грань явления, взаимный анализ различных кластеров дает возможность определить приоритеты, предпочтения, те или иные рекомендации или необходимые технические решения, юридические выводы и т п
В качестве примера задачи такого рода можно указать задачу структуризации больших бизнес-групп В рамках этой задачи явными связями являются те или иные имущественные, юридические или родственные отношения между хозяйствующими субъектами, входящими в бизнес-группу Неявные связи в этой задаче - это наличие между хозяйствующими субъектами определяемых в соответствии нормативными документами юридических отношений контроля или аффилированности, принадлежность этих субъектов к одной группе лиц и т п В работе приводится ряд других примеров прикладных задач такого типа
Растущие потребности практики делают все более актуальной задачу разработки методов и средств анализа информационных массивов большой размерности, характеризующих те или иные взаимосвязанные объекты, с целью выявления внутренних системных, априори неизвестных взаимосвязей между объектами таких массивов Задача структуризации (определения внутренней структуры такого массива) должна решаться как с точки зрения выявления «вертикальных» отношений внутри таких массивов (именуемых в разных предметных областях отношениями влияния, предпочтения, руководства, логического следования, использования, включения, цитирования и тп), так и с точки зрения выявления «горизонтальных» отношений взаимодействия (связи, родства, союза, близости по тематике и т п) на основе имеющейся информации о «явных», априори заданных взаимосвязях между этими объектами Выявление «вертикальных» отношений назовем задачей стратификации анализируемого массива, выявление «горизонтальных» отношений назовем задачей кластеризации анализируемого массива
В частности, необходимость в разработке методов и средств такого рода возникла при решении задач анализа структурных корпоративных отношений в больших бизнес-группах (холдингах) и задач структуризации информационных объектов (выявления скрытых взаимосвязей в среде объектов учета) в Системе учета
3
наличия, движения и качественного состояния технических и программных средств информационно-телекоммуникационной системы (ИТС) Банка России (АСУР), а также в ряде других предметных областей
Такого рода задачи можно отнести к классу задач интеллектуального анализа данных (английский термин - Data Mining). Интеллектуальный анализ данных (ИДД), согласно определению одного из ведущих мировых специалистов в этой области, Г.Пятецкого-Шапиро' - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Одним из важнейших типов знаний, извлекаемых с помощью методов ИДД, являются определенные правила, закономерности, связывающие свойства объектов предметной области. В основу ИДД положена идея «шаблонов» (концептов), отражающих закономерности, свойственные подвыборкам данных. Чтобы сделать сложные результаты прозрачными, в ИДД рекомендуется использовать широкий набор вспомогательных средств в виде простых для понимания заготовок (моделей, концептов).
Одним из важных специальных направлений ИДД является постановка и решение новых задачи в области выявления взаимосвязей, относящихся к априори заданным типам, для предметных областей, в которых исходные данные уже по некоторым признакам упорядочены. В частности, к этому классу задач относится рассматриваемая в данной диссертации проблема структуризации по заданным шаблонам массивов взаимосвязанных объектов, информация о которых (прежде всего информация о «явных» взаимных связях) задана. Задача разработки технологии структуризации больших информационных массивов взаимосвязанных объектов является весьма актуальной и в таком виде до настоящего времени не ставилась.
Цель и задачи работы. Целью диссертации является разработка технологии структуризации больших информационных массивов на основе имеющейся информации о взаимных связях элементов массивов.
Для достижения этой цели ставятся следующие задачи:
1. формулировка проблемы структуризации больших массивов взаимосвязанных объектов как задачи определения неявных связей по заданным явным связям на основе определенных решающих правил;
2. разработка модели информационных процессов и структур в рамках задачи структуризации больших массивов взаимосвязанных объектов, ее представление в виде формальной постановки типовой задачи структуризации больших массивов, математического описания характеристик и решающих правил;
3. разработка технологии и специального программного обеспечения стратификации и кластеризации для задачи анализа структурных корпоративных отношений, рассматриваемой в качестве представительного варианта общей проблемы;
4. разработка технологии и специального программного обеспечения для решения задачи анализа отношений использования оборудования в Системе учета наличия, движения и качественного состояния технических и
*' Gregory Piatetsky-Shapiro and William Frawley, eds., Knowledge Discovery in Databases, AAAI/MIT Press, 1991.
ттг^1мных средств информационно-телекоммуникационной системы 1 ^ Ь,анка России (АСУР) . разрабогка инф0рмационных технологий и программных средств для импорту и экспорта данных и для визуального формирования МН0Г0КГ>итериальных запросов сложной структуры для обеспечения оперативного решения задач структуризации.
Методы исследования. В работе использованы методы теории графов, системного анал^^ теоретической и прикладной информатики.
Научная Новизна диссертации заключается в следующем:
1. BnepBbjg сформулирована задача разработки технологии структуризации больших информационных массивов взаимосвязанных объектов - определения неявных связей по заданным явным связям на основе определенных решающих правил.
2. Впервь]е разработана модель информационных структур и осуществлена формализация Постановки типовой задачи структуризации в рамках проблематики структуризации больших массивов взаимосвязанных объектов.
3. Впервые исследована нормативная база для анализа структурных корпоративных отношений; на основе этого анализа разработана модель информационных структур и осуществлена формализация постановки задачи структуризации больших бизнес-групп.
4. В качестве представительного варианта общей задачи впервые разработана и реализована Информационная технология стратификации и кластеризации для задачи анализа структурных корпоративных отношений.
Практическая ценность работы состоит в том, что она является основой для создания современных информационных технологий структуризации больших массивов взаимосвязанных объектов.
Реализация результатов работы.
1. На основе результатов диссертации разработан программный комплекс «Корпоративные отношения», внедренный в ЗАО «Техноинвест Альянс», ЗАО «Мегатекс Инвест», Российском Центре поддержки конкуренции.
2. На основе результатов диссертации разработано специальное алгоритмическое и программное обеспечение для решения задач анализа отношений использования оборудования в Системе учета наличия, движения и качественного состояния технических и программных средств ИТС Банка России (АСУР).
Апробация результатов. Материалы диссертации докладывались и обсуждались нэ следующих международных и всероссийских конференциях и научных форума^:
1. Всероссийская конференция «Экономическая наука современной России» (Москва, ноябрь 2000 г.);
2. I Научная сессия Института проблем информатики РАН (Москва, апрель
2001 г.);
3. VII межДУнаР°Дная конференция «Информационные сети, системы и технологии» (lcfNASTe-2001) (Минск, октябрь 2001);
4. IV BceP0CC™CK™ симпозиум по прикладной и промышленной математике
(осенняя сессия) (Сочи> октябрь 2003 г.);
5 II Наушая сессия Института проблем информатики РАН (Москва, апрель
2005 г.),
а также научны* семинарах в МГУ им. М.В.Ломоносова, РЭА им. Г.В.Плеханова, МСЦ РАН, ИПИРАН-
Публикации. По теме диссертации опубликовано 11 печатных работ, список которых приведен в конце реферата.
Кроме того, по теме диссертации выпущено 4 научно-технических отчета в ИЛИ РАН и более 20 томов документации на Систему учета наличия, движения и качественного состояния технических и программных средств ИТС Банка России (АСУР).
Все результаты, составляющие основное содержание диссертационной работы, получены автором самостоятельно. В опубликованных в соавторстве работах автору диссертации принадлежат основные научные результаты; в работах, относящихся к АСУР, - результаты, касающиеся представляемых на защиту компонент.
Структура и объем диссертации.
Диссертация состоит из введения, четырех разделов, заключения, списка литературы и одного приложения. Общий объем диссертации составляет 227 страниц.
Содержание работы
Во Введении обоснована актуальность работы, сформулирована ее цель, определена научная новизна и практическая ценность работы. Кратко изложены основные результаты.
Раздел 1 посвящен обзору работ, выявлению места проблемы структуризации информационных массивов взаимосвязанных объектов среди задач анализа и преобразования данных, выработке содержательной постановки задач диссертации, разработке модели информационных процессов и математической постановке типовой задачи структуризации.
В подразделе 1.1 содержится описание задач анализа и преобразования данных и общий обзор существующих методов НАД, приводится характеристика задачи структуризации массивов взаимосвязанных объектов.
Подраздел 1.2. посвящен содержательной постановке общей задачи структуризации массивов взаимосвязанных объектов. Предполагается, что у аналитика имеется информация об объектах некоторого массива объектов (включая те или иные характеристики как самих объектов, так и пар этих объектов - то есть сведения об их явных, изначально заданных, известных исследователю связях), организованная надлежащим образом (например, в виде реляционной БД), а также информация о формализованных решающих правилах, позволяющих принимать решение о наличии или отсутствии «вертикальных» или «горизонтальных» отношений между теми или иными анализируемыми объектами (неявных связях, то есть тех связях, выявление которых требует анализа множества заданных явных связей и характеристик самих объектов). Причем эти решающие правила могут быть как объективными условиями, вытекающими из сущности анализируемых объектов, так и условиями, определяемыми нормативными документами, а иногда и экспертными оценками. Приводятся примеры реальных постановок, приводящих к задачам такого рода.
В подразделе 1.3 задача структуризации информационных массивов взаимосвязанных объектов рассматривается как одна из задач исследования структуры данных в НАД. Дан обзор методов исследования структуры данных; делается вывод, что разрабатываемые в данной работе технологии могут быть отнесены к известным и описанным в литературе группам методов НАД (методы кластерного анализа объектов и признаков и методы иерархического группирования в
6
рамках более широкой группы методов автоматического группирования) Однако специфика рассматриваемых в диссертации задач приводит к необходимости разработки новых - по сравнению с представленными в литературе - методов и технологий в рамках вышеуказанных групп Это связано с тем, что в имеющихся методах во главу угла ставятся «количественные» характеристики типа расстояний между объектами, а в рамках рассматриваемой в диссертации проблематики главными исходными данными является информация о тех или иных взаимосвязях между объектами Известно, что при решении задач автоматического группирования часто наиболее естественным или единственно возможным подходом является применение алгоритма, реализующего перебор сочетаний объектов Это имеет место даже в ситуациях, когда основой для группирования служат характеристики типа расстояний между объектами, то есть даже тогда, когда имеется возможность применения методов математического анализа Тем более этот подход является доминирующим, когда речь идет об анализе преимущественно бинарных отношений (явных связей) между объектами И наиболее важной задачей с точки зрения алгоритмизации здесь является эффективная организация переборных методов Именно такой подход применен в настоящей работе
В подразделе 1.4 приводятся сведения о системах управления базами данных как инструментарии технологий структуризации В подразделе 1.5. формулируются цель и задачи диссертации
В подразделе 1.6 на основании анализа ряда прикладных задач, в рамках которых возникает необходимость структуризации больших массивов взаимосвязанных объектов, разработана модель информационных структур применительно к данному классу задач Формализованным описанием этой модели является приводимая в данном подразделе типовая математическая постановка задачи Представленная в подразделе 16 формализация «типовой задачи» соответствует тем структурам данных и решающим правилам, которые встретились при анализе наиболее сложных реальных задач структуризации
Предлагаемая модель информационных структур разработана в целях формального представления задач структуризации больших массивов, а также в интересах реализации информационной технологии структуризации массивов взаимосвязанных объектов в максимально общих форматах
Представим основные элементы математической постановки типовой задачи структуризации информационных массивов взаимосвязанных объектов
Объекты и характеристики.
А. Имеется массив объектов, относительно которых задана некоторая информация (описываемая ниже) М = {а,},
АИмеется множество характеристик каждого объекта для объекта а,,
характеристики обозначаются символами С. Имеется множество характеристик {ии|} упорядоченных пар объектов (а,,^) («явных связей»), у=1, Количество характеристик, определённых для
различных пар, может быть, вообще говоря, различным
«Индивидуальные» характеристики объектов а, вводятся исключительно для «полноты картины», поскольку они присутствуют во всех реальных задачах Однако в рамках рассматриваемой проблематики эти характеристики имеют сугубо второстепенное значение Основную роль играют характеристики упорядоченных пар объектов {ич|} (описывающие «явные связи») Числовые характеристики {ии|} будем называть весами объекта а, относительно объекта а,
В частности, для пар может быть задано отношение «родства» (то есть «априорного» отнесения к одному кластеру). Обозначим соответствующую логическую характеристику {u,j|}. Условимся, что U,j) = TRUE, если объекты &,, а, априори полагаются находящимися в «родстве» И U,ji = FALSE в противном случае. При этом U,ji = Uji|.
Для пар может быть также задано отношение «априорного влияния». Обозначим соответствующую логическую характеристику {и^г}. Условимся, что иу2 = /RUE, если объект а, априори полагается «априорно влияющим» на объект 3j, И U,j2 = FALSE, если это не так В данном случае, как правило, U,j2 Ф Uji2> но формально это не обязательно.
Условия непосредственного влияния.
Введем четыре типа «элементарных» условий непосредственного влияния, с использованием которых определяются как решающие правила по поводу выявления отношений влияния (то есть стратификации), так и решающие правила по поводу выявления кластеров. Суть их такова: непосредственное влияние некоторого объекта а, на объект а, имеет место
либо в случае, если значение некоторой «парной» характеристики упорядоченной пары (ij) U,j| превышает некоторый порог (условие I рода);
либо если имеется группа элементов, включающая суммарный вес которых по отношению к а, превышает некоторый порог (условие II рода),
либо если некоторая «одноместная» характеристика объекта в
определенном смысле превышает соответствующую характеристику объекта (условие III рода),
• либо если имеется группа элементов, включающая а,, сумма «одноместных»
характеристик которых в определенном смысле превышает соответствующую характеристику объекта Щ (условие IV рода).
Используя введенные условия непосредственного влияния, определим решающие правила для выявления отношений влияния (в задачах стратификации) и решающие правила для выявления состава кластеров (в задачах кластеризации)
Решающие правила для стратификации.
A. Объект а, осуществляет влияние первого порядка на объект Зр если выполняется хотя бы одно из условий непосредственного влияния хотя бы для одной характеристики из некоторого заранее выделенного списка.
АОбъект а, имеет влияние n-го порядка на объека^ ели существует такое
число m, т=1.....П-1, и такой объект а,, что объект а, имеет влияние Ш-ГО порядка на
объект 3k, а объект а^ имеет влияние (п-ш)-го порядка на объект Bj.
С. Объект а, имеет влияние на объект aJ9 если существует такое число П>=1, что а, имеет влияние n-го порядка на объект йу
Решающие правила для кластеризации.
Анализ прикладных задач показал, что основания для включения тех или иных объектов в один кластер бывают «внутренними» и «внешними» по отношению к этим объектам. «Внутренние» основания - это совпадение или близость тех или иных «одноместных» характеристик этих объектов или определённых значений некоторых «парных» характеристик (для пар объектов из рассматриваемого множества). «Внешние» основания - это совпадающее или близкое отношение (выражаемое в
значениях некоторых «парных» характеристик) объектов, входящих в кластер, к некоторым «внешним» объектам. В уже сформированной терминологии это -наличие факта влияние всех объектов кластера на некоторый «внешний» объект (или несколько объектов) или, наоборот, наличие «внешнего» объекта (или нескольких), влияющего (влияющих) на все объекты кластера. Соответственно, можно формально ввести следующие типы решающих правил (А и В - «внешние», С и D -«внутренние»).
Решающее правило типа А. Множество объектов {a,}, i е 1 с {1,..,N} является кластером, если все эти объекты оказывают непосредственное влияние одного из вышеперечисленных четырех типов на некоторый объект (объекты), не входящий (не входящие) в рассматриваемое множество, хотя бы для одной характеристики из некоторого заранее выделенного списка.
Решающее правило типа В. Множество объектов {a,}, i е I с {1 ,..,N} является кластером, если на все эти объекты оказывают непосредственное влияние одного из вышеперечисленных четырех типов объект (объекты), не входящий (не входящие) в рассматриваемое множество, хотя бы для одной характеристики из некоторого заранее выделенного списка.
Решающее правило типа С. Множество объектов {aj, i е I с {1,..,N} является кластером, если хотя бы для одной логической «парной» характеристики U,j] из некоторого заранее выделенного списка U,j| = TRUE для любых i, j s I с {1,..,N} и при этом 11^1 = FALSE для любых i,j£{l,..,N} таких, что либо iel,jgl, либо jel,igl.
Решающее правило типа D. Множество объектов является
кластером, если хотя бы для одной «одноместной» характеристики (которая может быть и логической) Х,т из некоторого заранее выделенного списка значения Х1ш при всех i е I совпадают, а для 1 i I значения Х|т отличаются от х1ш. Для численных характеристик вместо условия совпадения значений возможен вариант близости значений: объекты {a,}, i е Iс {1,..,N}, образуют кластер, если max|xim -xjinj<£ (где Е - заданное максимальное отклонение, a max берется по всем i,jel), и при этом тт|хт -х|т| > е (где min берется по всем i € 1,1 € I),
Общие постановки задач структуризации.
Задача стратификации, в самом общем виде, состоит в определении, наличествует ли отношение влияния первого или более высокого порядка объект Щ на объект для всех пар для рассматриваемого множества
объектов с их заданными характеристиками и явными связями, на основе заданных решающих правил.
Задача кластеризации состоит в выявлении всех кластеров, существующих в рассматриваемом множестве объектов с их заданными характеристиками и явными связями, на основе заданных решающих правил.
Эти постановки являются достаточно общими; в практических постановках могут, естественно, задаваться не все вышеперечисленные разновидности условий непосредственного влияния и типы решающих правил.
В последующих разделах приведенная выше общая постановка конкретизируется и реализуется для двух прикладных задач. Как отмечалось выше, в связи с невозможностью применения для решения задачи структуризации в данной постановке регулярных математических методов, в работе применяются переборные методы решения задач стратификации и кластеризации; при этом существенное внимание уделено эффективной организации перебора.
Раздел 2 посвящен применению теоретических результатов раздела 1 для специальной предметной области - проблемы структуризации больших бизнес-групп. В разделе дан анализ нормативной базы и предложена модель информационных структур применительно к данной проблематике.
В подразделе 2.1 дается общая характеристика задачи. Отмечается, что задача структуризации больших бизнес-групп (иначе именуемая задачей анализа структурных корпоративных отношений) - комплексная задача, в которую входят такие частные подзадачи, как:
выявление отношений контроля; выявление групп лиц;
выявление отношений аффилированности.
выявление уровня и степени принадлежности предприятия к интегрированной бизнес-группе (холдингу).
Органы исполнительной власти, юридические и физические лица часто испытывают необходимость в выявлении взаимных связей в круге юридических и физических лиц, вовлеченных в некоторые действия на рынке. Это касается в первую очередь покупки/продажи акций, а также заключения прочих сделок, в том числе слияния и поглощения хозяйствующих субъектов. Закон РФ о конкуренции, ряд нормативных актов МАП (Министерства РФ по антимонопольной политике; ныне -Федеральная антимонопольная служба), ФКЦБ (Федеральной комиссии по ценным бумагам и фондовому рынку, ныне - Федеральная служба но финансовым рынкам) и некоторых других органов исполнительной власти определяют ряд понятий, характеризующих взаимосвязанность физических и юридических лиц, а именно понятия контроля, групп лиц и аффилированных лиц.
Под контролем, согласно имеющимся нормативным документам, понимается возможность юридического или физического лица определять решения, принимаемые юридическим лицом. Под аффилированными лицами (АЛ), понимаются физические и юридические лица, способные оказывать взаимное влияние. Группа лиц (ГЛ) -совокупность физических и юридических лиц, которые в ряде случаев могут выступать как единое целое.
Прикладная задача выявления отношений контроля, ГЛ и АЛ весьма важна. В условиях современного российского рынка весьма часты случаи, когда между лицами, участвующими в одной и той же компании или группе компаний или вовлеченными в ту или иную сделку, существуют достаточно сложные отношения взаимозависимости. В этих случаях, согласно действующему законодательству, для получения разрешения на ту или иную сделку или ту или иную реорганизацию субъектов рынка часто возникает необходимость решения следующих вопросов: существуют ли отношения контроля? наличествуют ли группы лиц?
имеются ли среди лиц-участников сделки аффилированные лица?
При этом следует отметить, что весьма частым случаем в условиях современных холдингов и финансово-промышленных групп (ФПГ) является ситуация вхождения в состав холдинга или ФПГ большого количества юридических лиц, и в особенности вхождение в состав этих юридических лиц большого числа акционеров. Практика показывает, что уже в ситуациях, когда рассматриваются 30-50 взаимосвязанных экономических агентов, корректный анализ структурных корпоративных отношений без использования вычислительной техники невозможен. Это делает весьма важной и
актуальной задачу создания информационной технологии решения задачи анализа структурных корпоративных отношений, то есть структуризации больших бизнес-групп. Данная задача относится к числу наиболее сложных из числа рассмотренных выше задач структуризации - как с точки зрения структуры информационных массивов, так и с точки зрения решающих правил. Поэтому актуальность разработки и реализации технологии поиска ГЛ, АЛ и выявления отношений контроля для больших бизнес-групп определяется не только важностью данной задачи, так и тем, что разработанные в ходе создания данной технологии подходы оказываются востребованными при создании аналогичных технологий для других задач структуризации. Фактически данная задача может считаться типовой или наиболее представительной в рамках общей проблемы структуризации больших информационных массивов.
Подраздел 2.2 посвящен рассмотрению предметной области и анализу нормативной базы. В соответствии с имеющейся литературой по экономике принимается, что объектом исследования при структуризации является большая бизнес-группа, а сами исследования направлены на определение состава и структуры интегрированной бизнес-группы (холдинга). Приводятся выдержки из основных нормативных документов, на основании которых осуществляется анализ структурных корпоративных отношений. Указывается, что в нормативной базе имеются определенные логические противоречия (подробный анализ этих противоречий выделен в Приложение А). Обосновывается подход к преодолению этих противоречий, принятый при разработке технологии структуризации бизнес-групп.
В подразделе 2.3 представлена модель информационных структур применительно к данному классу задач, являющаяся частным случаем общей модели, представленной в разделе 1. Формализованным описанием этой модели является математическая постановка задач структуризации бизнес-групп; при этом основные объекты, их характеристики и решающие правила описываются в соответствии с общими принципами постановки типовой задачи структуризации (Раздел 1), то есть как частный случай общей постановки.
Рассмотрены также специальные задачи, относящиеся к данной предметной области, - задачи «внутренней» структуризации и расчёта степени принадлежности предприятия к холдингу. Задачи выявления отношений контроля, ГЛ, АЛ возникают на практике в основном в ситуациях, когда необходимо выполнить те или иные требования законодательства в части представления информации о структуре интегрированных бизнес-групп (ИБГ). В то же время менеджмент ИБГ (холдингов) и сам заинтересован в получении информации о структуре собственной ИБГ (холдинга), о том, какие компании являются подконтрольными холдингу и каковы количественные характеристики этого контроля. Имеющиеся же нормативные определения не всегда пригодны для решения «внутрихолдинговых» задач структуризации.
В качестве «количественного» условия принадлежности к холдингу рассматривается принадлежность «вышестоящим» юридическим и физическим лицам более 50% акций «нижестоящих» юридических лиц. Вводится понятие базы холдинга; это множество физических и юридических лиц, которые априори входят в холдинг, и относительно которых и вычисляются «степени принадлежности» к холдингу. Все множество подлежащих исследованию юридических лиц разбивается на уровни (кластеры). Считается, что к каждому следующему (в порядке понижения) уровню принадлежности к холдингу относятся объекты (юридические лица), на которые оказывают суммарное влияние в смысле приведенного выше условия какие-
то объекты (юридические и физические лица), относящиеся к вышестоящим уровням. Доказан ряд математических утверждений относительно структуры холдинга и значений «степени принадлежности» каждого юридического лица к холдингу; под степенью принадлежности понимается доля акций данного предприятия, контролируемая физическими и юридическими лицами, принадлежащими к более высоким уровням. С учетом введенных определений и доказанных утверждений формируется алгоритм отнесения объектов к тем или иным уровням принадлежности к холдингу и расчета степени принадлежности предприятия к холдингу.
Представленная в подразделе 2.3 математическая формализация используется для разработки и реализации информационной технологии структуризации больших информационных массивов применительно к задаче анализа структурных корпоративных отношений. На основе выработанной математической модели информационных структур (формального описания информационных объектов, их характеристик и решающих правил для решения частных задач) разработана структура БД, алгоритмы и программные средства структуризации.
Для решения задачи структуризации больших бизнес групп, поставленной и формализованной в предыдущем разделе, разработана информационная технология, реализованная в виде программного комплекса. Описанию технологии посвящен Раздел 3.
В подразделе 3.1 представлена структура Программного комплекса «Корпоративные отношения». Программный комплекс состоит из 4 частей:
база данных по физическим и юридическим лицам;
• модули для выполнения основных расчетов;
программный интерфейс для просмотра и редактирования данных, управления расчетами;
• Web-интерфейс для просмотра данных по протоколу HTTP через интернет (интранет).
Каждый элемент архитектуры Программного комплекса выполнен как самостоятельный законченный продукт, взаимодействующий с другими элементами в рамках строго определенных интерфейсов. Таким образом, замена одного или нескольких расчетных модулей не потребует изменения остальных частей Программного комплекса, весь Программный комплекс будет работать по-прежнему с новыми модулями. Программный комплекс предназначен для реализации двух основных групп функций:
1. функции ведения корпоративной БД (используются сотрудниками различных подразделений компании или холдинга для оперативного получения информации и автоматического формирования отчетов);
2. функции выполнения расчетов на основе информации базы данных для выявления взаимных связей физических и юридических лиц (используются юридическими отделами или отделами, отвечающими за соблюдение антимонопольного законодательства для составления ходатайств, подачи отчетов в контролирующие органы и т.п.)
Архитектура Программного комплекса (рис. 1, табл. 1) строится на основе двухуровневой модели «клиент-сервер». Используется сервер СУБД и ряд клиентских АРМ, оснащенных Программным комплексом «Корпоративные отношения» или браузером (для работы с данными через web-интерфейс).
8. Пользователи, использующие данные БД и результаты расчетов
Руководство
Аналитический отдел
Юридический отдел
Другие
заинтересованные подразделения
1. Исходные данные для наполнения БД
Изменение состава органов управления
Купля/продажа акций
Другие сведения о физических и юридических лицах
\/ 7
2. Операторы, заносящие
6. \УеЬ-интерфейс к БД
3. Пользовательский интерфейс программы
7
7. Отчетные формы
4. БД
5. Расчетные модули
Выявление ГЛ
Выявление АЛ
Другие расчеты
Рис, 1. Архитектура Программного комплекса «Корпоративные отношения»
Рабочие места и сервер объединены в локальную вычислительную сеть, причем существует возможность доступа к серверу и из внешней глобальной сети. Основными компонентами Программного комплекса являются:
1) БД (блок 4);
2) компоненты выявления ГЛ, АЛ и выполнения других расчетов (блок 5);
3) пользовательский интерфейс программы (блок 3);
4) компонента создания выходных форм и отчетов (блок 7);
5) компонента предоставления доступа к БД через интернет/интранет (блок 6).
Блок Комментарий
Блок 1 Информация, попадающая в БД. Изменения в исходных данных для выполнения новых расчетов
Блок 2 Операторы, осуществляющие заполнение БД и использующие Программный комплекс в справочных целях
БлокЗ Основная управляющая программа, с которой работает пользователь. Отсюда вызываются функции выполнения расчетов и утилиты для работы с данными, выполняется просмотр информации и ее редактирование
Блок 4 База данных Программного комплекса по физическим и юридическим лицам
Блок 5 Программные модули комплекса, предназначенные для выполнения расчетов на основе информации базы данных. Сюда входят модули выявления ГЛ, АЛ, определения степени принадлежности лица к ИБГ (холдингу) и др.
Блок 6 В этом блоке обозначена программа, созданная на основе технологии ASP и работающая в среде Microsoft Internet Information Server, предоставляющая доступ к базе данных пользователям интернет/интранет по протоколу HTTP
Блок 7 Утилита формирования отчетов, предоставляющая пользователю возможность настроить вид создаваемой отчетной формы
Блок 8 Основные потребители функций Программного комплекса - сотрудники
Таблица 1. Описание блоков Программного комплекса «Корпоративные отношения»
В подразделе 3.2 дано описание базы данных по физическим и юридическим лицам. БД Программного комплекса представляет собой реляционную базу данных. Основными таблицами БД являются таблицы физических и юридических лиц. Структура базы данных является открытой, она достаточно подробно документирована. Это открывает широкие возможности по интеграции Программного комплекса «Корпоративные отношения» с другими автоматизированными системами.
В подразделе рассмотрены вопросы защиты данных от несанкционированного доступа, взаимодействия приложений Программного комплекса и БД, информационного наполнения БД.
Подраздел 3.3 содержит общие сведения об алгоритмах и расчетных модулях. В состав Программного комплекса входят следующие расчетные модули:
1. модуль вычисления групп лиц;
2. модуль выявления аффилированных лиц;
3. модуль вычисления всех контролируемых и контролирующих лиц для данного лица;
4. модуль вычисления степени принадлежности лица к интегрированной бизнес-группе;
Взаимодействие между этими библиотеками построено с помощью технологии
СОМ.
В подразделах 3.4 - 3.7 дано краткое описания алгоритмов, реализующих решение задач, формализованных в Разделе 2. Алгоритмы основаны на математической модели информационных структур (применительно к задаче структуризации больших бизнес-групп), представленной в Разделе 2, и на соответствующей формализации переменных, явных связей и решающих правил. Во всех описаниях алгоритмов использованы соответствующие элементы формального описания модели из Раздела 2.
В подразделе 3.8 описан пользовательский интерфейс для просмотра и редактирования данных, управления расчетами в Программном комплексе «Корпоративные отношения».
Подробно описан пользовательский интерфейс функции поиска контролируемых и контролирующих лиц, расчета групп лиц, выявления аффилированных лиц, расчета степени принадлежности лиц к холдингу.
При создании автоматизированных информационных систем одной из важнейших задач является реализация инструментария поиска нужной информации в БД. Особенную актуальность задача поиска данных приобретает в крупномасштабных системах, охватывающих большие объемы данных, в том числе при решении задачи структуризации больших информационных массивов. Очевидно, что для предоставления пользователям возможности самостоятельного формирования запросов к БД необходима технология визуального формирования многокритериальных запросов сложной структуры к БД, в которой критерии отбора данных будут предлагаться в терминах (контексте) предметной области. Такая технология и соответствующее специальное программное обеспечение «Построитель запросов», являющееся универсальным средством построения сложных многокритериальных запросов, разработаны и использованы - как для обеспечения оперативного решения задач структуризации в Программном комплексе «Корпоративные отношения» (подраздел 3.9), так и при решении задач выявления неявных связей объектов учета в АСУР. Эта технология представляет запрос в виде «дерева», листевыми узлами которого являются конечные критерии отбора, а контейнерными - условия объединения и скобки. Таким образом, пользователь может сформировать запрос сколь угодной сложности и глубины вложенности условий. Кроме того «Построитель запросов» позволяет задавать некоторые критерии в виде параметров. Это позволяет, изменяя значения параметра, использовать один и тот же запрос для формирования ряда однотипных выборок. Программа обеспечивает повышение эффективности и оперативности при отработке запросов при осуществлении поиска, связанного со структуризацией.
На рис. 2 показано древовидное представление части запроса, содержащей условия отбора. Программа предоставляет пользователю возможность построить такое дерево и затем преобразует представленную структуру в запрос к БД. Для облегчения визуального восприятия пользователем структуры запроса на экране используются различные способы представления дерева.
и
Рис. 2. Пример многокритериального запроса в задаче структуризации больших бизнес-групп.
Раздел 4 содержит постановку задачи структуризации информационных массивов в автоматизированной системе учета наличия, движения и качественного состояния технических и программных средств ИТС Банка России (АСУР) и описание информационной технологии, разработанной для решения этой задачи.
Подразделы 4.1 и 4.2 посвящены описанию предметной области - АСУР, разработанной в ИПИ РАН и предназначенной для автоматизации технологических процессов сбора, хранения и выдачи по запросам учетной информации о наличии, движении и качественном состоянии технических и программных средств ИТС Банка России.
Перед этапом проектирования АСУР, с учетом современного состояния работ по управлению информационными активами, был проведен всесторонний анализ текущего состояния учета информационных ресурсов в Банке России. На основе этого анализа были разработаны основные принципы, в соответствии с которыми и разрабатывалась в дальнейшем информационная система АСУР. Одной из важных задач при этом явилась разработка технологии структуризации информационных массивов (выявления неявных связей) в АСУР, являющаяся предметом данного раздела.
Решение задач структуризации информационных массивов в АСУР невозможно без разработки средств заполнения соответствующих БД, как центральной, так и региональных. Для решения указанных вопросов создан комплекс программ импорта и экспорта данных БД АСУР в составе:
1. программа импорта/экспорта данных из Excel в БД АСУР;
2. программа экспорта данных из региональной базы в центральную;
3. программа импорта данных в центральную БД.
Рис. 3. Технология первоначального наполнения БД типовой региональной подсистемы ДСУР
Подраздел 4.3 посвящен описанию этого комплекса программ. Отмечается, что первоначальное наполнение типовой региональной БД представляет собой сложную задачу, связанную с большим количеством ручного труда. Это связано с тем, что в организациях и подразделениях БР учет ведется с помощью различного программного обеспечения в зависимости от конкретных задач каждого подразделения или сотрудника. В этой ситуации оптимальным решением явилось использование некоторого промежуточного формата для подготовки данных для импорта в типовую региональную подсистему. В качестве такого промежуточного формата избран формат программы MS Excel. В связи с этим в состав типовой региональной подсистемы ДСУР включено специально разработанное в рамках данной диссертационной работы ПО, обеспечивающее импорт основных данных из таблиц MS Excel в БД АСУР (рис. 3).
Разработаны также программа импорта данных в центральную базу, обеспечивающая обновления ЦБД информацией из региональной подсистемы, и программа экспорта данных из ЦБД, обеспечивающая получение региональными БД информации из центральной БД.
Подраздел 4.4 посвящен технологии выявления скрытых взаимосвязей в среде объектов учета ДСУР. Отмечается, что при анализе взаимосвязей между объектами системы учета оборудования часто возникает необходимость в выявлении скрытых взаимосвязей, т.е. таких отношений объектов, которые напрямую в базе данных не
задаются и зачастую неочевидны. Такого рода задачи важны в первую очередь для систем эксплуатации и обслуживания объектов, а также для подразделений, занимающихся планированием развития и оценкой эффективности функционирования как отдельных подсистем, так и целых систем Банка России. Кроме того, в условиях крупномасштабных распределенных автоматизированных систем центральная (интегральная) база данных формируется путем объединения информации, присланной из разных подразделений и регионов, не взаимодействующих друг с другом напрямую. Таким образом, могут возникать следующие нежелательные ситуации:
1) Два разных объекта учета (ОУ), находящихся в ведении различных подразделений, связаны между собой, но в результате отсутствия прямого взаимодействия между региональными подсистемами указанная связь в базах данных не отражается, и, как следствие, в центральной базе ее тоже нет.
2) Один и тот же ОУ по каким-либо причинам присутствует в разных подсистемах; например, в результате слияния баз данных в центральной подсистеме мы получаем дублирование одного и того же объекта
3) Аналогичная ситуация часто складывается с внешними организациями -производителями, поставщиками оборудования или фирмами, осуществляющими его обслуживание.
На уровне центральной базы данных, созданной для оценки всей совокупности учитываемого оборудования, эти и другие проблемы выделения ОУ в группы весьма актуальны.
Объекты учета в АСУР весьма разнообразны, столь же разнообразны их реквизиты и те явные связи между объектами АСУР, которые задаются этими реквизитами. Вот только некоторые примеры таких явно задаваемых связей.
1. Есть некоторый классифицируемый реквизит ОУ (тип, местоположение, отношение к системе Банка России, материально ответственное лицо и т.п.). В этом случае мы имеем следующие варианты связей двух ОУ по значению данного реквизита:
a. значение совпадает;
b. значения разные, но входят в состав одного классификационного понятия более высокого уровня;
c. одно из значений реквизита входит в классификаторе в состав другого
2. Непосредственные прямые связи АСУР:
a. равноправная связь (ассоциация);
b. подчиненная связь (агрегация).
3. Часто ОУ каким-либо образом связан с внешней организацией:
a. договор и внешняя организация, с которой он заключен;
b. оборудование и организация, являющаяся поставщиком (производителем) данного оборудования;
c. комплект ЗИП и организация, в которую он передан;
ё. ОУ и организация, выполняющая ремонт (обслуживание), связаны между собой через состояние объекта.
4. ОУ может быть связан с событием технического обслуживания, которое, в свою очередь связано с:
a. договором на проведение ТО;
b. внешней организацией, выполняющей работы.
c. другими ОУ.
Эти и многие другие виды связей между ОУ в АСУР задаются явно путем заполнение различных полей базы данных. Эти связи позволяют составить более или менее полную картину взаимоотношений объектов. На основании этих данных можно подводить определенные итоги, рассчитывать статистику и т.п. Однако такая картина зачастую оказывается поверхностной, т.к. не отражает скрытых (неявных) связей.
На основе информации о явных связях между ОУ должны быть на основании некоторых решающих правил сделаны некоторые выводы об их неявных связях. Скажем, если несколько ОУ территориально расположены в одном месте, то это, как правило, еще ни о чем не говорит. Если эти же объекты относятся к одной системе Банка России или имеют общее функциональное назначение, то это уже повод рассматривать такую группу объектов как единое целое, потому что, скорее всего, это единый комплекс (кластер). Конечно, в таком случае между этими объектами в принципе должны быть средствами АСУР установлены необходимые равноправные и подчиненные связи. Но, во-первых, из-за распределенности системы не всегда есть возможность занести эту информацию в базу данных. Во-вторых, пользователь может не указать связь между объектами, не считая эту информацию важной, или просто по ошибке. В третьих, в некоторых случаях группа взаимосвязанных объектов может быть шире, чем просто спецификация оборудования. Так, довольно часто некоторые объекты, формально не входящие в состав комплекса, играют важную роль в его функционировании.
Итак, разработка и реализация технологии автоматизированного выявления неявных связей весьма важна для функционирования АСУР.
Анализ специфики отношений ОУ в АСУР приводит к необходимости учета следующих решающих правил.
Решающие правила по выявлению отношений влияния в АСУР (в данном контексте мы будем использовать термин: «один ОУ является вышестоящим (нижестоящим) по отношению к другому ОУ»):
одно из значений реквизита некоторого ОУ входит в классификаторе в состав реквизита другого ОУ;
• наличие непосредственной «подчиненной» связи (агрегация).
Решающие правила по выявлению кластеров (комплексов) в АСУР:
Кластер образуют ОУ, являющиеся нижестоящими по отношению к одному и тому же «вышестоящему» ОУ.
Некоторое множество ОУ является кластером, если значение некоторого классифицируемого реквизита ОУ (тип, местоположение, отношение к системе Банка России и др.) у данного множества объектов совпадает и отлично от значений указанного реквизита у других объектов. Возможно задание решающих правил таким образом, чтобы кластер образовывался при совпадении не одного, а нескольких определенных реквизитов (например местоположение и отношение к системе Банка России).
• Некоторое множество ОУ является кластером, если любая пара объектов А и В из этого множества либо напрямую связана равноправной связью (ассоциацией), либо существует такой объект С, что и А, и В связаны с С равноправной связью (ассоциацией).
В отличие от ситуации, рассмотренной в задаче структуризации больших бизнес-групп, решающие правила структуризации в АСУР не являются жесткими (не фиксированы нормативными документами) и поэтому в рамках созданного
программного обеспечения являются настраиваемыми. Пользователь сам отбирает те реквизиты (один или несколько), совпадение которых является критерием формирования кластера, и программа производит поиск кластеров, соответствующих созданному таким образом решающему правилу.
В соответствии с общим подходом, изложенным в подразделе 1.6, разработана модель информационных структур для задачи выявления неявных связей между объектами учета АСУР. Элементами этой модели, представленными в подразделе 4.4, являются:
• массив объектов учета;
• множество характеристик (реквизитов) каждого ОУ; реквизиты могут быть как числовыми, так и логическими переменными, а также классифицируемыми;
• множество характеристик упорядоченных пар ОУ; условия непосредственного влияния; решающие правила для стратификации; решающие правила для кластеризации.
Модель информационных структур реализована; разработаны алгоритмы и программные модули поиска неявных связей между ОУ в АСУР.
Основным инструментом формирования многокритериальных запросов к БД АСУР при выявлении скрытых взаимосвязей в среде объектов учета, как и в Программном комплексе «Корпоративные отношения», является специально разработанная универсальная утилита «Построитель запросов» (подраздел 4.5). На рис. 4 показано окно «Построителя запросов», содержащее следующий запрос: «Отобрать все объекты учета, поставленные на баланс в течение 2001-2002 гг, и находящиеся на территории либо ТЦ «Тушино», либо объекта «Неглинная».
Рис. 4. Окно «Построителя запросов»
Заключение.
На защиту выносятся следующие результаты
1 Постановка задачи структуризации больших информационных массивов взаимосвязанных объектов - определения неявных связей по заданным явным связям на основе определенных решающих правил
2 Модель информационных структур и математическая формализация постановки типовой задачи структуризации для проблематики структуризации больших массивов взаимосвязанных объектов
3 Информационная технология и специальное программное обеспечение стратификации и кластеризации для задачи анализа структурных корпоративных отношений (Программный комплекс «Корпоративные отношения/))
4 Информационная технология и специальное программное обеспечение для решения задачи анализа отношений использования оборудования в Системе учета наличия, движения и качественного состояния технических и программных средств ИТС Банка России (АСУР)
5 Комплекс программ импорта и экспорта данных БД АСУР
6 Информационная технология визуального формирования многокритериальных запросов сложной структуры к БД и программа «Построитель запросов» - универсальный инструмент формирования многокритериальных запросов для обеспечения оперативного решения задач структуризации, используемый как в Программном комплексе «Корпоративные отношения», так и в АСУР
Список работ, опубликованных по теме диссертации
1 С Н Сурков, С Я Шоргин, В С Шоргин О программном комплексе поиска групп лиц // Вестник Министерства Российской Федерации по антимонопольной политике и поддержке предпринимательства - 1999 - №2-3 - С 29-35 (автору диссертации принадлежат результаты в части анализа нормативной базы предварительной математической постановки задачи поиска групп лиц и первая версия соответствующего модуля)
2 С Я Шоргин, С Н Сурков, В С Шоргин Проблемы и программные средства выявления групп лиц с общими интересами // Экономическая наука современной России Материалы Всероссийской конференции, Москва, 28-30 ноября 2000 г Часть 2 - М ЦЭМИ - 2000- С 121-123 (автором диссертации дано описание первой версии программы выявления групп лиц)
3 С Н Сурков, В С Шоргин, С Я Шоргин Программа для ЭВМ «Корпоративные связи и выявление групп лиц» Свидетельство об официальной регистрации программы для ЭВМ №2001610806 Выдано Российским агентством по патентам и товарным знакам (Роспатент) 29 июня 2001 г (автору диссертации принадлежат формальная математическая постановка задачи алгоритмы и программа выявления групп лиц)
4 ВС Шоргин Задачи и средства выявления групп лиц и аффилированности в интегрированных бизнес-группах // VII Международная конференция "Информационные сети, системы и технологии" Труды Минск БГЭУ - 2001 - Т 2 -С 241-246
5 ВС Шоргин Реализация информационной технологии автоматизированного выявления групп лиц и аффилированных лиц // IV Всероссийский симпозиум по прикладной и промышленной математике Тезисы
21
докладов, часть I // Обозрение прикладной и промышленной математики - 2003 -Т10 -Вып2 -С 435-436
6 И И Быстрое, ИНСиницын, ЭРКорепанов, В В Белоусов, ДФ Ильясов, И В Макаренкова, О С Ушмаев, В С Шоргин Проблемы построения и реализации подсистем классификации и кодирования информации в крупномасштабных автоматизированных информационных системах // Системы и средства информатики - М Наука - 2003 - Вып 13 - С 64-83 (автору диссертации принадлежат результаты относящиеся к разработке технологии структуризации объектов учета)
7 И Н Синицын, В С Шоргин Информационная технология автоматизированного выявления аффилированных лиц и ее программная реализация / Системы и средства информатики - М Наука - 2003 - Вып 13 - С 251-263 (автору диссертации принадлежат формальная математическая постановка задачи описание алгоритмов и программы выявления аффилированных лиц)
8 ВС Шоргин Информационная технология автоматизированного выявления групп лиц и аффилированных лиц в бизнес-группах // Вестник Российского университета дружбы народов сер Прикладная математика и информатика - 2003 -№1-С 162-168
9 ВС Шоргин Информационная технология быстрого автоматизированного выявления взаимосвязей в интегрированных бизнес-группах // Наукоемкие технологии 2004 Т 5 Вып 7 С 83 87
10 ИИ Быстров, Б Д Пичкур, ИН Синицын, ЭРКорепанов, В В Белоусов, В С Шоргин, Д Ф Ильясов, И В Макаренкова, О С Ушмаев, Е С Агафонов Разработка методов и средств повышения эффективности эксплуатации ИТС Банка России // Проблемы и методы информатики II Научная сессия ИЛИ РАН Тезисы докладов -М ИПИ РАН, 2005 - С 21-23 (автору диссертации принадлежат результаты относящиеся кАСУР в части структуризации объектов учета)
11 ВС Шоргин Проблемы структуризации информационных массивов взаимосвязанных объектов // Проблемы и методы информатики II Научная сессия ИПИ РАН Тезисы докладов - М ИПИ РАН, 2005 - С 168-171
Принято к исполнению 25/04/2005 Исполнено 26/04/2005
Заказ № 789 Тираж ЮОэкз
ООО «11-й ФОРМАТ» ИНН 7726330900 Москва, Балаклавский пр-т, 20-2-93 (095) 747-64-70 www autoreferat ru
osU- PS. /3
19 Мйй 2005
Оглавление автор диссертации — кандидата технических наук Шоргин, Всеволод Сергеевич
Содержание.
Список сокращений.
Введение.
1 ПОСТАНОВКА ЗАДАЧИ СТРУКТУРИЗАЦИИ ИНФОРМАЦИОННЫХ МАССИВОВ ВЗАИМОСВЯЗАННЫХ ОБЪЕКТОВ И ЕЕ МЕСТО СРЕДИ ЗАДАЧ АНАЛИЗА ДАННЫХ.
1.1 Задачи интеллектуального анализа данных.
1.2 Содержательная постановка задачи структуризации информационных массивов взаимосвязанных объектов. Примеры реальных постановок.
1.3 Задача структуризации информационных массивов взаимосвязанных объектов как одна из задач исследования структуры данных в ИАД.
1.4 Системы управления базами данных как инструментарий технологий структуризации.
Правила реляционных СУБД.
1.5 Цель и задачи диссертации.
1.6 Модель информационных структур для задачи структуризации. Математическая постановка типовой задачи.
1.7 Выводы по разделу 1.
2 ЗАДАЧА СТРУКТУРИЗАЦИИ БОЛЬШИХ БИЗНЕС-ГРУПП. АНАЛИЗ НОРМАТИВНОЙ БАЗЫ И МОДЕЛЬ ИНФОРМАЦИОННЫХ СТРУКТУР.
2.1 Общая характеристика задачи.
2.2 Объект исследования и анализ нормативной базы.
2.3 Математическая модель информационных структур и постановка задач структуризации бизнес-групп.
2.4 Выводы по разделу 2.
3 ЗАДАЧА СТРУКТУРИЗАЦИИ БОЛЬШИХ БИЗНЕС-ГРУПП. ОПИСАНИЕ ПРОГРАММНОГО КОМПЛЕКСА «КОРПОРАТИВНЫЕ ОТНОШЕНИЯ».
3.1 Структура программного комплекса.
3.2 База данных по физическим и юридическим лицам.
3.3 Общие сведения об алгоритмах и технологии реализации расчетных модулей.
3.4 Алгоритмы выявления групп лиц.
3.5 Алгоритмы выявления аффилированности.
3.6 Алгоритмы определения контроля.
3.7 Алгоритм выявления лиц, входящих в ИБГ, с вычислением степени их принадлежности.
3.8 Пользовательский интерфейс для просмотра и редактирования данных, управления расчетами в программном комплексе «Корпоративные отношения»
3.9 Технология визуального формирования многокритериальных запросов сложной структуры к БД.
3.10. Выводы по разделу 3.
4 ЗАДАЧА СТРУКТУРИЗАЦИИ ИНФОРМАЦИОННЫХ МАССИВОВ В АСУР.
4.1 Вводные замечания.
4.2 Общая характеристика АСУР.
4.3 Комплекс программ экспорта и импорта данных БД АСУР.
4.4 Задача выявления скрытых взаимосвязей в среде объектов учета на уровне ЦП АСУР.
4.5 Утилита «Построитель запросов».
4.6. Выводы по разделу 4.
Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Шоргин, Всеволод Сергеевич
Многие научные исследования и прикладные разработки приводят к постановке задачи выяснения «скрытых» («неявных») связей или отношений между объектами в рамках некоторой предметной области на основе имеющейся информации о «явных» связях между объектами, в том числе выражаемых качественно и количественно. Так, в настоящее время четко обозначились многочисленные прикладные задачи, приводящие к проблемам выявления «неявных» связей или отношений внутри структур и между структурами (холдинги, корпорации, другие формальные и неформальные группы юридических и физических лиц, те или иные технические объекты и системы, и т.п.). Установление таких связей особенно важно с прикладной точки зрения (технологической, правовой, юридической, финансовой и т.п.). Исходные данные о «явных связях» при этом требуется предварительно формализовать надлежащим образом, чтобы свести к логическим или численным переменным. Тем самым осуществляется формализация исходных данных («явных связей»). По совокупности этих переменных и должны быть вычислены отношения связи, свойства, структура рассматриваемого множества объектов («неявные связи»). В результате выявляются те или иные группы (кластеры) внутри рассматриваемого множества объектов и их иерархия. Каждый кластер показывает одну грань явления; взаимный анализ различных кластеров дает возможность определить приоритеты, предпочтения, те или иные рекомендации или необходимые технические решения, юридические выводы и т.п.
Тем самым всё более актуальной становится задача разработки методов и средств анализа информационных массивов большой размерности, характеризующих те или иные взаимосвязанные объекты, с целью выявления внутренних системных, априори неизвестных взаимосвязей между объектами таких массивов. Задача структуризации (определения внутренней структуры такого массива) должна решаться как с точки зрения выявления «вертикальных» отношений внутри таких массивов (именуемых в разных предметных областях отношениями влияния, предпочтения, руководства, логического следования, использования, включения, цитирования и т.п.), так и с точки зрения выявления «горизонтальных» отношений взаимодействия (связи, родства, союза, близости по тематике и т.п.) на основе имеющейся информации о «явных», априори заданных взаимосвязях между этими объектами. Выявление «вертикальных» отношений назовем задачей стратификации анализируемого массива; выявление «горизонтальных» отношений назовем задачей кластеризации анализируемого массива.
В частности, необходимость в разработке методов и средств такого рода возникла при решении задач анализа структурных корпоративных отношений в больших бизнес-группах (холдингах) и задач структуризации информационных объектов (выявления скрытых взаимосвязей в среде объектов учета) в Системе учета наличия, движения и качественного состояния технических и программных средств Информационно-телекоммуникационной системы (ИТС) Банка России - автоматизированной системе учета ресурсов (АСУР), а также в ряде других предметных областей
Такого рода задачи можно отнести к классу задач интеллектуального анализа данных (английский термин - Data Mining). Интеллектуальный анализ данных (ИАД), согласно определению одного из ведущих мировых специалистов в этой области, Г.Пятецкого-Шапиро [90] - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Данной тематике посвящены многочисленные работы таких специалистов, как Н.Г.Загоруйко [26], АЛ.Самойленко, В.А.Дюк [23], А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод [11], R.S.Michalski, R.Stepp [86], Jiawei Han,
M.Kamber [80], D.Hand, Heikki Mannila, P.Smyth [81], Ian H. Witten, Eibe Frank [97] и др.
Одним из важнейших типов знаний, извлекаемых с помощью методов НАД, являются определенные правила, закономерности, связывающие свойства объектов предметной области. В основу ИАД положена идея «шаблонов» (концептов), отражающих закономерности, свойственные подвыборкам данных. Чтобы сделать сложные результаты прозрачными, в ИАД рекомендуется использовать широкий набор вспомогательных средств в виде простых для понимания заготовок (моделей, концептов).
Приведенное выше определение ИАД является весьма общим и охватывает широчайшее множество задач и методов. В частности, значительное число постановок, результатов и технологий данной области относится к ситуациям, когда исходные данные неформализованы или неструктурированы (или формализованы или структурированы частично), а выявляемые закономерности априори неясны. Важность этих постановок и соответствующих разработок трудно переоценить. В то же время известные отечественные специалисты в области ИАД В.А.Дюк и А.П.Самойленко отмечают в книге [23], что среди «мифов» относительно возможностей ИАД имеется следующий: «средства интеллектуальной обработки данных автоматически обнаруживают различные закономерности». На самом деле, как отмечается в этой книге, хотя многие средства такой обработки действительно позволяют в ряде ситуаций автоматически выявлять закономерности в исследуемых данных, тем не менее, ставить им конкретные цели необходимо, а в ряде предметных областей не удается получить сколь-нибудь осмысленных и практически важных результатов без задания упоминавшихся типовых шаблонов для группировки объектов и т.п.
Одним из важных специальных направлений ИАД является постановка и решение новых задачи в области выявления взаимосвязей, относящихся к априори заданным типам, для предметных областей, в которых исходные данные уже по некоторым признакам упорядочены. В частности, к этому классу задач относится рассматриваемая в данной диссертации проблема структуризации по заданным шаблонам массивов взаимосвязанных объектов, информация о которых (прежде всего информация о «явных» взаимных связях) задана. Задача разработки технологии структуризации больших информационных массивов взаимосвязанных объектов является весьма актуальной и в таком виде до настоящего времени не ставилась.
Цель и задачи работы. Целью диссертации является разработка технологии структуризации больших информационных массивов на основе имеющейся информации о взаимных связях элементов массивов.
Для достижения этой цели ставятся следующие задачи:
• формулировка проблемы структуризации больших массивов взаимосвязанных объектов как задачи определения неявных связей по заданным явным связям на основе определенных решающих правил;
• разработка модели информационных процессов и структур в рамках задачи структуризации больших массивов взаимосвязанных объектов, ее представление в виде формальной постановки типовой задачи структуризации больших массивов, математического описания характеристик и решающих правил;
• разработка технологии и специального программного обеспечения стратификации и кластеризации для задачи анализа структурных корпоративных отношений, рассматриваемой в качестве представительного варианта общей проблемы;
• разработка технологии и специального программного обеспечения для решения задачи анализа отношений использования оборудования в АСУР.
• разработка программных средств для импорта и экспорта данных и для построения многокритериальных запросов в интересах обеспечения оперативного решения задач структуризации
Методы исследования. В работе использованы методы теории графов, системного анализа, теоретической и прикладной информатики.
Научная новизна диссертации определяется результатами, впервые полученными в данной работе, и заключается в следующем.
1) Впервые сформулирована задача разработки технологии структуризации больших информационных массивов взаимосвязанных объектов - определения неявных связей по заданным явным связям на основе определенных решающих правил.
2) Впервые разработана модель информационных структур и осуществлена формализация постановки типовой задачи структуризации в рамках проблематики структуризации больших массивов взаимосвязанных объектов;
3) Впервые исследована нормативная база для анализа структурных корпоративных отношений; на основе этого анализа разработана модель информационных структур и осуществлена формализация постановки задачи структуризации больших бизнес-групп.
4) В качестве представительного варианта общей проблемы впервые разработана и реализована информационная технология стратификации и кластеризации для задачи анализа структурных корпоративных отношений.
Практическая ценность работы состоит в том, что она является основой для создания современных информационных технологий структуризации больших массивов взаимосвязанных объектов. Реализация результатов работы:
• на основе результатов диссертации разработан программный комплекс «Корпоративные отношения», внедренный в Металлургической страховой компании, Российском Центре поддержки конкуренции.
• основные принципы разработанной технологии применены для решения прикладной задачи анализа отношений использования оборудования в
АСУР; разработано специальное алгоритмическое и программное обеспечение для решения задач анализа отношений использования оборудования в АСУР Банка России.
Апробация результатов. Материалы диссертации докладывались и обсуждались на следующих международных и всероссийских конференциях и научных форумах.
1) Всероссийская конференция «Экономическая наука современной России» (Москва, ноябрь 2000 г.)
2) I Научная сессия Института проблем информатики РАН (Москва, апрель 2001 г.)
3) VII Международная конференция «Информационные сети, системы и технологии» (ICINASTe-2001) (Минск, октябрь 2001)
4) IV Всероссийский симпозиум по прикладной и промышленной математике (осенняя сессия) (Сочи, октябрь 2003 г.)
5) II Научная сессия Института проблем информатики РАН (Москва, апрель 2005 г.) а также научных семинарах в МГУ им. М.В.Ломоносова, РЭА им. Г.В.Плеханова, МСЦ РАН, ИЛИ РАН.
Публикации. По теме диссертации опубликовано 11 печатных работ, список которых приведен в конце реферата.
Кроме того, по теме диссертации выпущено 4 научно-технических отчета в ИЛИ РАН и более 20 томов документации на Систему учета наличия, движения и качественного состояния технических и программных средств ИТС Банка России - АСУР.
Структура диссертации.
Диссертация состоит из введения, четырех разделов, заключения, списка литературы и одного приложения.
Заключение диссертация на тему "Технология структуризации информационных массивов взаимосвязанных объектов"
Основные результаты диссертации
1. Осуществлена постановка задачи структуризации больших информационных массивов взаимосвязанных объектов - определения неявных связей по заданным явным связям на основе определенных решающих правил.
2. Разработана модель информационных структур - математическая формализация постановки типовой задачи структуризации для проблематики структуризации больших массивов взаимосвязанных объектов.
3. Разработаны информационная технология и специальное программное обеспечение стратификации и кластеризации для задачи анализа структурных корпоративных отношений (Программный комплекс «Корпоративные отношения»),
4. Разработаны информационная технология и специальное программное обеспечение для решения задачи анализа отношений использования оборудования в Системе учета наличия, движения и качественного состояния технических и программных средств ИТС Банка России (АСУР).
5. Разработан комплекс программ импорта и экспорта данных БД АСУР.
6. Разработаны информационная технология визуального формирования многокритериальных запросов сложной структуры к БД и программа «Построитель запросов» - универсальный инструмент формирования многокритериальных запросов для обеспечения оперативного решения задач структуризации, используемый как в Программном комплексе «Корпоративные отношения», так и в БД АСУР.
ЗАКЛЮЧЕНИЕ.
Библиография Шоргин, Всеволод Сергеевич, диссертация по теме Теоретические основы информатики
1., Дементьев В. Акционерные и неимущественные механизмы интеграции в российских бизнес-группах.//Российский экономический журнал. — 2000. — № 1. — С. 14.
2. Авдашева С.Б., Балюкевич В.П., Горбачев А.В., Дементьев В.Е., Паппэ Я.Ш. Анализ роли интегрированных структур на российских товарных рынках. М. Бюро экономического анализа, 2000.
3. Айвазян С.А., Бухштабер В.М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности.- М.: Финансы и статистика, 1989. 607 с.
4. Айвазян С.А., Степанов B.C. Программное обеспечение по статистическому анализу данных: методология сравнительного анализа и выборочный обзор рынка. http://www.cemi.rssi.ru/rus/publicat/e-pubs/ep97001/toc.htm.
5. Аркадьев А.Г., Браверманн Э.М. Обучение машины классификации объектов. М.: Физматгиз, 1963.
6. АСУР. Общее описание системы учета наличия, движения и качественного состояния технических и программных средств ИТС Банка России (СЕПБ.466452.001 ТО).
7. АСУР. Руководство администратора региональной подсистемы учета наличия, движения и качественного состояния технических и программных средств ИТС Банка России (СЕПБ.466452.001 Д4).
8. АСУР. Руководство оператора ввода данных региональной подсистемы учета наличия, движения и качественного состояния технических и программных средств ИТС Банка России (СЕПБ.466452.001 Д5).
9. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. -М.: Мир, 1982.
10. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. БХВ-Петербург, 2004.
11. Дынкин А.А. Есть ли у России шанс в глобальной экономике? Библиотека публикаций Московского Центра Карнеги. Том 7, весна 2002 -Россия в мировой экономике. http://pubs.camegie.ru/p&c/Vol7-2002/2/default.asp?n=03ad.asp
12. Беляева И.Ю. Интеграция корпоративного капитала и формирование финансово-промышленной элиты: Российский опыт. — М.: Финансовая академия при Правительстве РФ, 1999. — С. 156.
13. Бэстенс Д.Э., Ван Ден Берг В.-М., Вуд Д. Нейронные сети и финансовые рынки. М.: ТВП, 1997, 236 с.
14. Вороновкий Г.К., Махотило К.В., Петрашев С.Н., Сергеев С.А. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности -X.: ОСНОВА, 1997. 112 с. ВМПС
15. Гуд И.Дж. Ботриология ботриологии. В кн.: Классификация и кластер. Ред. Дж.Вэн Райзин. М.: «Мир», 1989, с.66-821.
16. Гуриев Сергей, Лазарева Ольга, Рачинский Андрей, Цухло Сергей. Корпоративное управление в российской промышленности. Библиотека публикаций Московского Центра Карнеги. РАБОЧИЕ МАТЕРИАЛЫ, 2003, вып.З www.carnegie.ru/en/pubs/workpapersAVP-2004-10-www.pdf.
17. Драчева Е.Л., Либман A.M. Проблемы глобализации и интеграции международного бизнеса.//Менеджмент в России и за рубежом. — 2000. — № 4.
18. Драчева Е.Л., Либман A.M. Формирование системы внутренних рынков транснациональных корпораций и место России в этом процессе.//Менеджмент в России и за рубежом. — 2000. — № 6.
19. Драчева Е.Л., Либман A.M. Проблемы определения и классификации интегрированных корпоративных структур. Менеджмент в России и за рубежом, №4 2001.
20. Дынкин А.А., Соколов А. А. Интегрированные бизнес-группы в российской экономике / Вопросы экономики, № 4, 2002.
21. Дынкин А.А., Соколов А.А. Интегрированные бизнес-группы -прорыв к модернизации страны. М.: Центр исследования и статистики науки, 2001.
22. Дюк В.А., Самойленко А.П. Data Mining: учебный курс. ИД "Питер",2001.
23. Дягилева А.В., Киселев С.Л, Сомин Н.В. Статистическая модель рубрикации текстов на примере сообщений СМИ. // Дистанционное образование, 1998. N7. - С. 16-21.
24. Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа. М.: Финансы и статистика, 1986.
25. Загоруйко Н.Г. Прикладные методы анализа данных и знаний, Новосибирск, изд-во Института математики, 1999 270 с.
26. Зайцев Б.Ф., Агурбаш Н.Г., Ковалева Н.Н., Малютина О.И. Механизмы создания региональных финансово-промышленных групп. — М.: Экзамен, 2001. —С. 27.
27. Закон РФ о конкуренции и ограничении монополистической деятельности на товарных рынках в редакции Федерального закона от 06.05.98 N 70-ФЗ // http://antimonopol.centro.ru/docs/zakon.htm.
28. Кендэлл М., Стюарт А. Многомерный статистический анализ и временные ряды. М.: Наука, 1976. - 736 с.
29. Киселев М., Соломатии Е. Средства добычи знаний в бизнесе и финансах. Открытые системы, 1997, №4, с.41-44.
30. Кривенко М.П. Сравнительный анализ результатов различных классификаций совокупности одних и тех же объектов. В сб. «Системы и средства информатики», 2003, Вып.13, с. 361-381.
31. Кривенко М.П., Васильев В.Г. Кластерный анализ и массивов текстовых данных. М.: ИЛИ РАН, 2004 - 189 с.
32. Кривенко М.П., Васильев В.Г. Применение методов кластерного анализа и многомерного шкалирования для автоматического построения рубрик. В сб. «Системы и средства информатики», 2002, Специальный выпуск, с. 142-159.
33. Крускал Дж. Взаимосвязь между многомерным шкалированием и кластер-анализом. В кн.: Классификация и кластер. Ред. Дж.Вэн Райзин. М.: «Мир», 1989, с.20-41.
34. Кузнецов И.П. Методы обработки сводок с выделением особенностей фигурантов и происшествий. Труды международного семинара Диалог-1999 по компьютерной лингвистике и ее приложениям. Том 2. Таруса 1999.
35. Кузнецов И.П. Семантические представления. М. Наука. 1986г. 290 с.
36. Ллойд Э., Уледерман, Тюрин Ю.Н. (ред). Справочник по прикладной статистике. В 2-хт.-М.: Финансы и статистика, 1989, 1990.
37. Лукашевич Н.В. Автоматическое рубрицирование потоков текстов по общественно-политической тематике. // НТИ. Сер. 2. 1996. - N10. - С. 22-30.
38. Макаров А.А., Тюрин Ю.Н. Анализ данных на компьютере (3-е издание, под ред. Фигурнова В.Э.). М.: "Инфра-М", 2003 г. - 544 с.
39. Матула Д.В. Методы теории графов в алгоритмах кластер-анализа. В кн.: Классификация и кластер. Ред. Дж.Вэн Райзин. М.: «Мир», 1989, с.83-111.
40. Мейер Д. Теория реляционных баз данных. М.:Мир, 1987. - 608 с.
41. Нормативные акты Федеральной комиссии по рынку ценных бумаг, 1995-99 гг. // http://antimonopol.centro.ru/docs/zakon.htm.
42. Паппэ Я.Ш. Олигархи: Экономическая хроника, 1992 2000. - М.: ГУ-ВШЭ 2001.
43. Полухин А.Н., Чавтараев Р.Б. Компонентный подход к построению системы автоматизации деятельности предприятия // Системы и средства информатики. Вып. 10 -М.: Наука. Физматлит, 2000 стр. 91-100.
44. Пройдаков Э. Что такое Data Mining? PC Week, 1999, №26.
45. Сокал P.P. Кластер-анализ и классификация: предпосылки и основные направления. В кн.: Классификация и кластер. Ред. Дж.Вэн Райзин. М.: «Мир», 1989, с.7-19.
46. Соловьева Н.С., Сомин Н.В. Лексико-статистический метод рубрицирования: обсуждение и эксперименты. // Системы и средства информатики. Вып. 10. М.: Наука. 2000. - С. 205-215.
47. Соловьева Н.С., Сомин Н.В. Рубрицирование текстов как информационная технология // Системы и средства информатики. Вып. 11, -М.: Наука, 2001. с. 195-201.
48. Сомин Н.В., Соловьева Н.С., Соловьев С.В. Система рубрикации текстовых сообщений. //Труды Междунар. семинара Диалог'98 по компьютерной лингвистике и ее приложениям: В 2 т. Т. 2./Под ред. А.С. Нариньяни. Казань: ООО "Хэтер", 1998. - С. 574-581.
49. Уоссермен Ф. Нейрокомпьютерная техника. Теория и практика, М.,Мир, 1992.
50. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989-215 с.
51. Федчук В. Холдинг: эволюция, сущность, понятие//Хозяйство и право. — 1996. —№ 12.
52. Фейнман Р. Природа физических законов. М.: Мир, 1967.
53. Хартиган Дж.А. Задачи, связанные с функциями распределения в кластер-анализе. В кн.: Классификация и кластер. Ред. Дж.Вэн Райзин. М.: «Мир», 1989, с.42-65.
54. Хартман Г. Современный факторный анализ. — М.: Статистика, 1972.
55. Шемакин Ю.И. Машинный поиск и сортировка информации. М., МИНХ им. Г.В.Плеханова, 1983 166 с.
56. Шемакин Ю.И. Основы информатики и вычислительной лингвистики. М., МИНХ им. Г.В.Плеханова, 1983 224 с.
57. Шемакин Ю.И. Семантика самоорганизующихся систем. М., Академический проект, 2003 176 с.
58. Шемакин Ю.И., Романов А.А. Компьютерная семантика. М., Научно-образовательный центр «Школа Китайгородской», 1995 344 с.
59. Эскиндаров М.А. Развитие корпоративных отношений в современной российской экономике. — М.: Республика, 1999.
60. Синицын И.Н., Шоргин B.C. Информационная технология автоматизированного выявления аффилированных лиц и ее программная реализация // Системы и средства информатики. М.: Наука. - 2003. - Вып.13. -С. 251-263. ш-7
61. Сурков С.Н., Шоргин С .Я., Шоргин B.C. О программном комплексе поиска групп лиц. // Вестник Министерства Российской Федерации по антимонопольной политике и поддержке предпринимательства. 1999. - №2-3. - С.29-35. ш-1
62. Шоргин B.C. Задачи и средства выявления групп лиц и аффилированности в интегрированных бизнес-группах // VII Международная конференция "Информационные сети, системы и технологии". Труды. Минск: БГЭУ. 2001 -Т.2 - С. 241-246. ш-4
63. Шоргин B.C. Информационная технология автоматизированного выявления групп лиц и аффилированных лиц в бизнес-группах. // Вестник Российского университета дружбы народов, сер. Прикладная математика и информатика. 2003.-№1 - С. 162-168. ш-8
64. Шоргин B.C. Информационная технология быстрого автоматизированного выявления взаимосвязей в интегрированных бизнес-группах// Наукоемкие технологии. 2004. Т.5. Вып.7. С. 83-87. ш-9
65. Шоргин B.C. Реализация информационной технологии автоматизированного выявления групп лиц и аффилированных лиц // IV
66. Всероссийский симпозиум по прикладной и промышленной математике. Тезисы докладов, часть I. // Обозрение прикладной и промышленной математики. 2003. - Т.10. - Вып.2. - С. 435-436. ш-5
67. Шоргин B.C. Проблемы структуризации информационных массивов взаимосвязанных объектов // Проблемы и методы информатики. II Научная сессия ИЛИ РАН: Тезисы докладов -М.: ИЛИ РАН, 2005. С. 168-171. ш-11
68. Bishop С.М. Svensen М., Williams C.K.I. GTM: The Generative Topographic Mapping // Technical Report NCRG/96/015. 1997. - 16 p. (www.ncrg.aston.ac.uk).
69. Codd E.F. A Relational Model of Data for Large Shared Data Banks. CACM 13: 6, June 1970.
70. Codd E.F. Is your DBMS really relational? Computer World, October 14,1985.
71. Cutting D.R., Rarger D.R., Pedersen J.O., Tukey J.W. Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections // SIGIR'92, 1992.-p.318-329.
72. Fischer D., Langley P. Approaches to conceptual clustering, Proc. 9th IJCAI, Los Angeles, 1985, pp.691-697.
73. Gotthard Willi, Marwick Alan and Seiffert Roland. Mining Text Data. http://www.db2mag.com/dbarea/archives/1997/q4/97wiGot.shtml.
74. Han Jiawei, Kamber Micheline. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2000.
75. Hand David, Mannila Heikki, Smyth Padhraic. Principles of Data Mining. MIT Press, 2001.
76. Kaski S., Honkela Т., Lagus K., Kohonen T. Creating an order in Digi tal Libraries with Self-Organazing Maps.// Proc WCNN'96. 1996. P.814--817.
77. Kies P., Michalewich Z. Podstawy algorytmow genetycznych, Matematyka Stosowana, 2000, No. 1(42), S.68-91.
78. Kuznetsov Igor FASTUS:a Cascaded Finite-State Trasducerfor Extracting Information from Natural-Language Text. AIC, SRI International. Menlo Park. California, 1996.
79. Kuznetsov Igor, Matskevich Andrey. System for Extracting Semantic Information from Natural Language Text. Труды международного семинара Диалог-2002 по компьютерной лингвистике и ее приложениям. Том 2. Протвино, Наука, 2002.
80. Michalski R.S., Bratko I., Kubat M. Machine Learning and Data Mining Methods and Applications. N.Y.: John Wiley & Sons, 1998.
81. Michalski R.S., Stepp R. Learning from Observation: Conceptual Clustering // Machine Learning: An artificial intelligence approach. Morgan Cauffman, 1983.
82. Ossowski A., Swecicka A. Statistical Genetic Algorithms, Intelligent Information Systems 2001, Proc. Int. Symp. " Intelligent Information Systems X", Springer-Verlag, 2001, P.155-166.
83. PCWeek/RE, №42, ноябрь 2004, c.6 «Военные известия».
84. Piatetsky-Shapiro Gregory and Frawley William, eds., Knowledge Discovery in Databases, AAAI/MIT Press, 1991.
85. Shepard R.N. Representation of structures in Similarities: Problems and Prospects, Paychometrica 39, p.373-421.
86. Spirtes P., Glymour C., Scheines R. Causation , Prediction and Search, Lecture Notes in Statistics 81, Springer-Verlag, 1993.
87. Steele R.D. On Intelligence/ Spies and Secrecy in an Open World. AFCEA International Press, Fairfax, Virginia, 2000 495 p.
88. Strategic Investment Plan for Intelligence Community Analysis. http://www.cia.gov/cia/reports/unclasssip.
89. Sullivan D. Document Warehousing and Text Mining, Wiley, Paperback, 2001 -542 p.
90. Tipping M.E., Lowe D. Shadow Targets; A Novel Algorithm for Topographic Projecting by Radial Basic Functions // Neural Computing Research Group, Birmingham: Aston Uneversity, 1997. - 6 p.
91. Wiedermann J. Searching Algorithms, Teubner, Leipzig, 1987.
92. Witten Ian H., Frank Eibe. Data Mining. Academic Press, 2000.
-
Похожие работы
- Структурированная семантическая модель контента текстов научно-теоретического характера
- Разработка информационной системы для просопографических исследований
- Разработка методов и алгоритмов настройки гибридной экспертной системы на решение задач оценки в социальных и экономических объектах
- Комплексный подход к оценке релевантности структурной согласованности
- Разработка методов структурно-параметрического описания информационного обеспечения КИС производства изделий электроники
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность