автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Системный подход к анализу скрытых закономерностей в больших массивах слабоструктурированных данных
Автореферат диссертации по теме "Системный подход к анализу скрытых закономерностей в больших массивах слабоструктурированных данных"
Учреждение Российской академии наук Институт системного анализа РАН (ИСА РАН)
На правах рукописи
604601812
Булычев Александр Викторович
Системный подход к анализу скрытых закономерностей в больших массивах слабоструктурированных данных
Специальность 05.13.01 - системный анализ, управление и обработка информации (специализация - информационно-вычислительное
обеспечение)
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
I1 3 МАЯ 2010
Москва, 2010
004601812
Работа выполнена в Учреждении Российской академии наук Институт системного анализа РАН (ИСА РАН).
Научный руководитель кандидат физико-математических наук
Бритков Владимир Борисович Официальные оппоненты: доктор технических наук
Петровский Алексей Борисович
кандидат физико-математических наук, доцент Кухаренко Борис Георгиевич
Ведущая организация: Институт Проблем Управления РАН им. В.А. Трапезникова
Защита состоится 17 мая 2010 г. в 11 час. 00 мин. на заседании диссертационного совета Д 002.086.02 в Институте системного анализа Российской академии наук по адресу: 117312, г. Москва, проспект 60-летия Октября, дом 9, ауд. 1506.
С диссертацией можно ознакомиться в библиотеке Института системного анализа РАН.
Отзывы на автореферат просим направлять по адресу: 117312, г. Москва, проспект 60-летия Октября, дом 9, ИСА РАН.
Факс: +7(499) 783-91-32; тел.: +7(499) 135-24-38; www.isa.ru. Автореферат диссертации разослан «16» апреля 2010 г
Ученый секретарь Диссертационного совета 002.086.02
Доктор технических наук, профессор
А.И. Пропой
I. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.
Актуальность проблемы и степень разработанности проблемы.
Первые работы в области анализа данных и классификации по прецедентам появились в 30-х годах 20 века и были связаны с байесовской теорией принятия решений (Д. Нейман, К. Пирсон), применением разделяющих функций к задаче классификации (Р. Фишер), решением вопросов проверки гипотез (А. Вальд). В 50-х годах появились первые нейросетевые модели (перцептрон Ф. Розенблатта). К концу 60-х годов были разработаны и исследованы различные подходы для решения задач классификации, распознавания в рамках статистических, перцептронных моделей, и моделей с разделяющими функциями.
В 1976-1978 годах академиком Ю.И. Журавлевым был разработан алгебраический формализм. Было предложено решать задачи анализа данных не одним, а множеством алгоритмов в два этапа. Для произвольных объектов независимо применяются алгоритмы. Результаты их применения специальным образом обрабатываются и формируется окончательное коллективное решение (например, об отнесении объектов к одному из классов). Дальнейшее развитие теории анализа данных и распознавания, развитию алгебраического подхода к синтезу корректных алгоритмов и комитетов моделей К.В. Рудаковым, В.Д. Мазуровым и др. внесло значительный вклад в решение задач анализа данных. Академиком В.П. Масловым предложен метод эконофизических аналогий при анализе экономических систем. Большой вклад в развитие теории классификации внесли ученые: М.А. Айзерман, Э.М. Браверман, Л.И. Розоноэр (метод потенциальных функций).
В современных условиях ввиду большого количества накапливающейся информации происходит усложнение ее структуры. Из-за сложности структурных и системных зависимостей в данных, которые описывают слабоформализованные информационные системы и прикладные объекты
з
исследования, значительно усложняются правила построения формальных логико-структурных моделей, описывающих закономерности в данных.
Другой чертой современного анализа данных является отсутствие формальных правил синтеза новых алгоритмов и интеллектуального подхода к построению гипотез для анализа слабоструктурированных данных, оценке их применимости на различных массивах данных, детерминированности при построении комитетных гипотез.
Существует большое количество традиционных методов анализа информации: статистических, кластеризации, классификации и т.д.. Перечисленные методы не всегда обладают достаточно хорошей степенью точности и достоверности при описании закономерностей. В случае, например, статистических методов это связано с отсутствием статистической устойчивости в данных или сложностью с определением реальной функции распределения.
Классические методы анализа данных заключаются в построении одной или нескольких моделей. В зависимости от того, насколько хорошо тот или иной алгоритм описывает данные, применяется способ композиции результатов. При таком подходе отсутствуют критерии формального научно обоснованного построения гипотез о зависимостях в данных. В результате могут получаться, во-первых, недостоверные или слишком грубые выводы, во-вторых, выводы, лишенные новых знаний.
В данной работе используется системный подход для научной разработки и обоснования новых методов построения информационных моделей для анализа слабоструктурированных данных и решения плохо формализованных задач.
В работе найдены новые закономерности и формализованы знания в сложных информационных системах различной природы. Разработанные методы применяются для класса объектов, которые описываются табличными данными.
В качестве базовой методологии решения задач поиска закономерностей в данных и интерпретации результатов используется методология интеллектуального анализа данных Data Mining. Она применяется для нахождения и исследования закономерностей в массивах слабоструктурированной информации и построении моделей, описывающих поведение сложных систем. Характерной особенностью анализа данных методами Data Mining является порождение новых гипотез о закономерностях в данных.
Цель и задачи исследования.
Целью исследования является расширение спектра решаемых задач за счет разработки новых методов анализа данных и решающих правил с помощью комитетов алгоритмов для построения информационно-логических моделей с целью моделирования системно-объектных связей, позволяющих строить их формализованные описания. Ставится задача получения новых данных о функционировании сложных систем, в которых присутствуют сложные взаимодействия с большим числом связей. Разработанные методики анализа данных применяются к данным информационных систем различной природы.
В соответствии с поставленной целью решались следующие задачи:
1.1 Построить новые модели для анализа различного типа информации (геологической, социально-экономической, производственной), которые позволят существенно улучшить систематизацию процессов, структурных и функциональных связей внутри системы с помощью аппарата теории классификации, распознавания, искусственного интеллекта, статистических методов и комитетов указанных алгоритмов.
1.2 Разработать научно обоснованные формализованные методы и алгоритмы анализа данных комитетами алгоритмов для описания сложных систем различной информационной природы, которые позволят при обработке
больших объемов данных значительно улучшить точность и увеличить скорость анализа данных по сравнению с уже существующими методами. Построить процедуру расчета точности моделирования комитетами алгоритмов.
1.3 Построить методики и критерии моделирования организационно-экономических систем с помощью специального класса уравнений математической физики, которые обеспечат формализацию новых информационных связей, динамическое прогнозирование поведения объектов экономических систем с целью улучшения планирования.
Предмет и объект исследования.
Объектами исследования являются слабоструктурированные данные информационных систем различной природы:
1. Массивы данных о распределении минеральных ассоциаций, представляющие собой поликомпонентные системы геологических образований
2. Динамические массивы социально-экономической информации регионов России
3. Данные, описывающие работу производственных предприятий с полным циклом производства, операций и распределения продукции. Предметом изучения являются скрытые закономерности в данных.
Научные практические результаты, выносимые на защиту.
1. В результате разработанного подхода к синтезу новых алгоритмов анализа данных выделяется структурная модель связей в экоинформационных системах, в частности минеральных ассоциаций как критерий потенциального залегания промежуточных коллекторов алмазов. Получены дополнительные критерии для моделирования и распознавания промежуточных коллекторов (комплексов пород, участвующих в питании
б
алмазоносных районов). Полученные результаты впервые позволили определить скрытые системно-объектные связи в поликомпонентной структуре минеральных ассоциаций.
2. Построенная с помощью формализованных разработанных методик комплексная информационно-логистическая модель операционного отдела предприятия с выделением структурных и функциональных характеристик системы позволяет более точно по сравнению со стандартными методами (построения нейросетей, генетическими алгоритмами, регрессии) планировать прибыль и бюджет компаний на будущий период.
3. Разработанная процедура применения уравнений математической физики для построения структурно-логических моделей социально-экономических систем позволяет с лучшей точностью формализовать схему рационального распределения и планирования ресурсов.
Научная новизна и практическая значимость работы
1.1 Разработана процедура формализованного построения комитетов алгоритмов для моделирования организационно-технических систем, построена визуализированная аналитическая среда выбора параметров моделирования и оценки точности моделей. Проведена адаптация к практическим задачам в области геологии, социально экономических исследований и производственных операционных задач теории построения алгебраических комитетов алгоритмов для моделирования системно-объектных связей, позволяющих строить их формализованные описания.
1.2 Используя системный подход и многометодный аппарат анализа данных, включающий вычислительные методы, разработана новая структурная модель связей в экоинформационных системах и предложены рациональные варианты организации исследований в области природной среды.
1.3 Впервые построена комплексная информационно-логическая модель операционного отдела предприятия с выделением структурных и
функциональных характеристик системы, информационных и материальных потоков продукции, позволяющих выбрать наиболее подходящие транспортные пути распределения продукции.
1.4 Разработана формализованная процедура применения уравнений математической физики для построения структурно-логических моделей экономических систем, организационная схема рационального распределения ресурсов предложена в виде графоаналитических конструкций.
Полученные в диссертации результаты использованы при совершенствовании результатов анализа геологической информации в области исследования минеральных ассоциаций, что подтверждается справкой Института геологии рудных месторождений, петрографии, минералогии и геохимии РАН (ИГЕМ РАН).
Объем и структура работы.
Работа состоит из введения, 4 глав и заключения, содержит 95 страниц, таблицы, рисунки в виде схем и карт, фотографий, графиков. Список литературы включает 45 наименований, в том числе 5 иностранных.
II. ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЦИИ.
Комитеты моделей.
Цель введения в рассмотрение алгебраических комитетов алгоритмов -улучшить решение, которое может давать один алгоритм. Эффективность использования нескольких моделей выше, чем использование одиночной модели.
При этом в работе появляются следующие сложности:
1. Увеличение вычислительных и временных затрат
2. Сложность интерпретации результатов
3. Плохоформализованный, а потому затруднительный выбор метода агрегации алгоритмов для анализа.
На рис. 1 показана ситуация, когда возможности одной модели ограничены на множестве объектов, по отношению к которым необходимо провести классификацию. Слева показан пример классификации одним из алгоритмов построения деревьев решений. В класс сверху попали объекты, которые должны были попасть в класс ниже. Справа при повторной последовательной классификации верхнее множество объектов было правильно разбито алгоритмом классификатора на 2 класса (с конечной точностью):
"О о
, 'о -1 ° ° О ° о О О о
оо°о° о°о О оо„°оо °о
о
о
о
о о
о о
о о
о
°о°
'О о
.-о ло° о 0 о п о О о
° ° о °п °°о °о
о О О О °о
° о ° о ° ° о ° о °0°
Рис. 1
Возможные способы построения комитетов моделей: 1) Последовательные:
Обучающее Алгоритм 1 Алгоритм 2 ... -> Алгоритм N
множество
2) Параллельные:
Обучающее множество
Алгоритм 1
Алгоритм 2
Алгоритм N
Введем в рассмотрение комитеты, в которых применяется один алгоритм анализа:
и комитеты, где применяется несколько алгоритмов:
Использование различных алгоритмов в комитете позволяет производить более глубокий анализ закономерностей. Существует две возможности обучения моделей в ансамбле.
1) Используя выборки из обучающего множества:
2) используя все обучающее множество:
О'^ча» №С
Я > г ти> __ _ _
Алгоритм обучения 1 *- Модель 1
Алгоритм обучения 2 Г Модель 2
Алгоритм обучения 3 > Модель 3
Результаты, полученные несколькими алгоритмами, имеют следующие варианты агрегации:
ю
1) Голосование. Если два классификатора дают ответ «да» (применительно к принадлежности к определенному классу), а один классификатор «нет», то голосованием принимается ответ «да» (2 против 1).
2) Взвешенное голосование. В этом случае каждому классификатору назначаются веса, на основании которых принимается решение. Например, первый, второй и третий классификатор выдали решения соответственно «да», «да», «нет». Вес первого классификатора равен 0,1, второго 0,2, третьего 0,7 (в сумме все веса дают 1), то решение будет таковым: «да» - 0,3, «нет» - 0,7. Учитывая, что 0,3<0,7, то конечное решение будет «нет».
3) Усреднение. Выход всего ансамбля определяется как среднее значение выходов отдельных моделей. Используется, например, в задаче регрессии.
Ошибка классификатора состоит из двух слагаемых: смещения (ошибка алгоритма классификации) и дисперсии (связанная с тем, что обучающая выборка представляет не все возможные данные)
Пусть на первоначальном обучающем множестве построена модель. Для обучения моделей комитетов используются независимые выборки из массива первоначального обучающего множества, выбранные посредством какой-либо функции распределения. После этого происходит агрегация моделей исходя из способов, описанных выше. Дисперсия усредненной модели меньше дисперсии модели, построенной на первоначальном обучающем множестве.
Выборка 1 Алгоритм обучения 1 > Модель 1 |
Выборка 2 > Алгоритм обучения 1 Модель 1 |
Выборка N > Ачгориты обучения 1 > Модель 1 |
\
/
Усреднение
Алгоритм анализа данных имеет следующий вид:
1) Из обучающего множества извлекается заданное количество выборок одинакового размера (они имеют тот же размер что и исходное множество, поэтому записи (примеры) могут повторяться)
2) На основе каждой выборки стоится модель
3) Определяется итоговая модель путем агрегации выходов построенных моделей.
С помощью указанного алгоритма проводился анализ геологических данных (строилась агрегированная модель регрессии) и производственных данных с целью улучшения модели прогнозирования товарных запасов. Товары разбиваются на различные группы, для которых необходимы различные критерии при планировании. Вся группа товаров представлена таблицей из примерно 20000 наименований. В процессе работы комитетов алгоритмов агрегированный классификатор (на основе взвешенного голосования) выявил 10 отдельных групп товаров. Данная группа товаров является динамичной. После классификации товаров к каждой группе применялся алгоритм прогнозирования запасов. В результате эффективность планирования товарных запасов была улучшена примерно на 15-20%.
Использовавшиеся стандартные методы Data Mining.
• Алгоритмы поиска ассоциативных правил
• Алгоритмы кластеризация (методом агломерации, деления)
• Алгоритмы задач классификации и регрессии (в т.ч. прогнозирование временных рядов)
• Метод ближайших соседей
• Баскет-анализ (анализ бинарных данных) - задача нахождения ассоциированных признаков
• Эволюционное программирование (нахождения числовых зависимостей)
• Метод нахождения зависимостей в виде полиномов высоких степеней.
Анализ минеральных ассоциаций.
Входная информация представлена данными количественного минералогического анализа (более 2000 проб). На начальном этапе подготовки данных информация была профильтрована, в результате чего были выбраны информативные признаки (21 минерал), характеризующие особенности структуры минерального ассоциаций потенциально алмазоносного района, состоящего из разнообразных видов пород (таблица 1):
X У Слой РУ им яи АК БТА
34.8 78.2 с-р 0 0 1.4 0 1 1.3
35.6 80.6 с-р 0 0 0.8 0.005 1.8 3
34.85 80.6 с-р 0 0 0.8 0.2 0.005 1.3
46.25 88.05 с-р 0 0 0.5 0.005 1 1.6
47.15 88 с-р 0 0.005 0.4 0.005 0.7 2.4
50 1 87.4 с-р 0 0.005 0.2 0 2.2 1
74 88 с-р 0 0.005 0.005 0 0.5 0.005
26.85 70.1 с-р 0 0.4 0.005 0 0.005 0.005
26.4 64.3 с-р 0 0.2 0.8 0.005 2.4 9.3
26.4 64 с-р 0 0.6 2.4 0.1 0.9 3.4
50.85 76.1 с-р 0 0.6 1.4 0.005 3.4 15.6
61.1 89.3 с-р 0.005 12.2 0.005 0 0.005 0.005
35.2 83 с-р 0 0.005 2.6 0.4 9.7 8.1
45.9 89.5 с-р 0 1.1 0.4 0.005 0.2 1
60.44 4.08 л 0 0 0 0 0.5 0.3
52.83 1.55 ¡1 0 0 0.7 0.7 0.005 0.9
60.88 11.93 л 0 0 0.7 0 0.2 0.9
49.9 74.35 л о 0.005 0.2 0 0.005 0.005
55.7 81.6 л 0 0.9 0.3 0 2.1 1.4
54.85 84.5 и 0 0.3 0.005 0 0.2 0.7
57.8 80.95 л 0 0.005 0.005 0 0.3 0.7
Таблица 1
В строках таблицы перечислены координаты точки, где берется проба, а в столбцах минералы, которые присутствуют в этой пробе. На пересечении соответствующего столбца и строки мы можем получить цифру содержания того или иного минерала в пробе. В таблице представлено 691 проба и 21 минерал. Последний столбец характеризует принадлежность точки пробы определенному историческому слою (рис. 2):
С-Р J1 J10K
N-Q
О
<5
Рис. 2
Каждый исторический слой характеризуется особыми свойствами распределений концентраций входящих в него минералов и минеральными ассоциациями. На рис. 3 представлена география распределения проб на поверхности:
L «■ **
£ * , « ** * * +
• * ч * V
- "Т
Ч *
Рис. 3
В работах по анализу данных геологической информации наиболее часто используются методы математической статистики, кластерного анализа и факторного анализа. Часто комплексное использование выбранных методов и построенных моделей позволяет выявлять необходимые минеральные ассоциации. В данной работе применяется методология анализа данных Data Mining, которая позволяет использовать различные модели для построения
зависимостей, затем провести сравнение полученпых разными моделями результатов и с помощью сопоставления сделать выводы о характере зависимости. Полученные зависимости были интерпретированы совместно со специалистами ИГЕМ РАН. Знания предметной области играют очень важную роль при интерпретации полученных результатов.
При исследовании кластерным анализом (алгоритм К-средних, агломеративный алгоритм) были найдены группы минералов, характеризующиеся различными взаимосвязями: самые сильные связи характеризуют следующие группы минералов АР, АЫ, АИРЯ, СЬ, АМРН, СЛ. Именно эта группа представляет собой типичную ассоциацию высокоустойчивых рудных минералов. Алгоритм классификации позволяет проследить, какие минеральные ассоциации с их количественной характеристикой, являются характерными для того или иного исторического слоя. На рис. 4 представлено разбиение множества концентраций проб на два кластера:
г.т-.у.д
~ в*кдо ьОвг тг*. :
* г... Я-! -'Л
Т
: ниш
: ПТОГО.*
; орлим ■ ¿Шя,_1ш
> ОЙ Го-«
;
• прнита
! □г&гс.ыск
Отпиши : От^ро-а гСЙ^ □гепцш
>•"ОгЬюлх Ото™-!*1
; ей
: •■□ЬЙ И'-РЮ«
.¿ГШ
В^мЛывсчг.би ЗГ» 8игМа/0 еяог. 0.5423
Й-50и»г»а: 0 7059 ЭЦпОягв оеиаНоп- 13.65 РоШй ргосм^ва 2ЭД
03.1569 '(25.685 •Л.ГС857579*АЦГ(-а.«53261 -0 0080408 7'Л1_М)) ♦ЫСТ-(-0.78779-1*0Т-(0 0245в69*-0.000285818-Мет«0.004»4676'Ли<1) •А1М-(-От169-0.0030<92<,Л^))'(3 <170(«(25 665»ли1ГС8 57579-Л11|Г; ОЧ53281Ч1С106СЦ037-Ди/)) •Ы0т-( 0 ;8;74-И0т-(0 0245Ш-0.000285318^0Т-0.СЮ<9467е-/и0,АОГ!-03?61в9'а0090<924-»и1'))Г(^.и5383'00013578Г(25665 -АЦГ(8 $7579-А1>Г<-
о.д532в-»ооово« овгглло; 'Ывтч-о.78?73-нет'01.1}гАьаб9*-виоо2а5г1 в-мот*олс«э«7в-лио -лоно з7бН9-о.оооояэ24'лл)))» -
615 -ЕРУЧ4 7533-ЕРГ(-С.357281 -0 0051 6901»ЕРУ» »|КЗГ(-250021 ♦М0т*(0.0551832»-0 0004363Я"*СТ-С0312854-ЕРО -ЕРГ(-0.85534 8*й0359852-ЕРУ)))Ч'4.40051*(54.3615-ЕРУ"14.75ЭЭ*£РУ*^ОЛ57281*0.00516801*ЕРУ)) •М0Т*(-2 вООЗ^МОТТО.ОббТвЗг'-О.ОООЛЗбЗб^МОТ'О.ОЗТЗвб^'НРУ) •Ер1'%0.855948-*й.в359852*£руй)40.0402634*-0.00033б158*(54.3в15 •БР^(47533*ЕРУ*(-
Г281+0 00516901*НРУ)) *ЧОТЧ-2.5ОО21-14ОТ*(О.О5518Э2--О.ОО043бЭ51*МОТ-О.О312854*ЕР'О *ЕРУ"(.0Д55948*0.о359в52^Р^))*-0.0002539в-(25.665 •ЛШ*(8.5;579*ЛИГ(.0 453281 •0.006М087-Л1>0) •МвГ<-0.78779'ХС>Г(0.0245869-0 ШЮ28581П4СТ»0 0048487е*АЦ|0 •АЦГ<-0 376169-0.00904924-ли0)»«(25 665 -АЦ«Ч8.57579-АиГ(-0.453281 •С.МбОДОвГЛЫ)) ♦МОТ'(-0.78779-МОГЧО 0245869" "" 1285818*И<37«0.00494в78ЧЧЛ) -ЫЛЧ-О 376169-0.00904924*Аи<)»,(П.15В465--0.001208ГС35.865 -Л1ЛГ(8 5?579«ШГ<-0.453281-С.0080408ГЛЛ)) -М0"г(-0 787га-ИСП0 №5в63>-0.00028381вт*0т*0.«№и7$-л3ю -А1>Г(-0 376169-0 Мв04324'ЛЛ5»»)
«¡Ж
:ф&572
1557.25 -"Рсьн» р>е»5« СФИЛОПЬЬ^ИМ'»
Рис. 4
Каждый из 2 кластеров характеризуется тем, что для разных исторических слоев существует разная зависимость между концентрациями минералов ILM, ALM и MGT в минеральной ассоциации. Это указывает на "разрыв" между историческими пластами, где потенциально проходит кимберлитовый раздел.
На рис. 5 показан более точный результат, полученный с помощью комитетов алгоритмов нахождения зависимостей, в каждой из двух областей разный закон формирования минеральной ассоциации, что потенциально может указывать на разрыв пластов и обнаружение на месте разрыва кимберлитовых трубок:
Рис. 5
Таким образом, в работе были выявлены особенности структуры минерального ассоциаций потенциально алмазоносного района, состоящего из разнообразных видов пород широкого возрастного диапазона. Главная сложность изучения минеральных ассоциаций заключается в их сложном поликомпонентном составе, который формируется за счет минералов,
поступавших из разных источников и претерпевших различные преобразования на пути миграции, в результате чего качественный анализ этих данных стандартными методами не дает однозначной информации о характере зависимости между данными.
Анализ социально-экономических данных регионов России.
В данной работе методы анализа данных Data Mining применяются к
массивам социально экономической информации регионов России. Информация о социально-экономических показателях (поликомпонентных, 74 критерия и 76 регионов) состояния и развития регионов России в динамике за
несколько лет представлена в таблице 2:
Год Категория АЛТАЙСКИЙ КРАЙ ЛЕНИНГРАДСКАЯ ОБЛАСТЬ МОСКОВСКАЯ ОБЛАСТЬ
01.01.1998 Валовой региональный продукт 22127 22446 101876
01.01.1998 Валовой региональный продукт, надушу населения 8293 13350 15540
01.01.1998 Индекс физического объема валового регионального продукта 96.6 93.7 97.6
01.01.1998 Инвестиции в основной капитал (в фактически действовавших ценах) 3379 4069 20814
01.01.1998 Удельный вес инвестиций в основной капитал, финансируемых за счет бюджетных средств, в общем объеме инвестиций 25 21.5 23.3
01.01.1998 Естественный прирост, убыль (-) на 1000 человек населения -4 -8.6 -8.3
01.01.1998 Ожидаемая продолжительность жизни при рождении, все население 67.73 66.37 66.99
01.01.1998 Ожидаемая продолжительность жизни при рождении, женщины 73.48 72.62 73.11
01.01.1998 Ожидаемая продолжительность жизни при рождении, мужчины 62.17 60.43 60.99
01.01.1998 Численность городского населения (на конец года) 1398.6 1104.3 5209
Таблица 2
В работе выявлены особенности структуры и зависимости между показателями регионов РФ. На начальном этапе исследования все данные были отфильтрованы для выявления информативных признаков.
Для решения поставленной задачи были выбраны следующие алгоритмы:
1. Кластерный анализ, который позволяет на основе меры сходства объединить в кластеры регионы с наиболее тесными взаимосвязями
2. Множественные регрессионные модели.
3. Метод ближайших соседей
4. Баскет-анализ (анализ бинарных данных) - задача нахождения ассоциированных признаков
5. Метод нахождения зависимостей в виде полиномов высоких степеней (алгоритм, основанный на структуре нейросетей).
6. Алгебраические комитеты представленных алгоритмов
При исследовании кластерным анализом было найдено, что вся группа данных разбивается на кластеры, в каждом из которых находится соответствующие критерии. Это дает возможность говорить о некой общности данных критериев (к первой группе относятся критерии прироста численности населения, экономические инвестиции в данную область через определенный лаг времени (3 -5 лет) и др.). С помощью метода нахождения ассоциированных признаков (кластерный анализ по полям) были найдены группы областей, характеризующиеся различными взаимосвязями. Самые сильные связи характеризуют следующие группы областей: сложившиеся примышленные регионы: Москва и Московская область, Екатеринбург и Свердловская область, группа центральных областей. Эта группа представляет собой ассоциацию, связанную экономическими показателями. С помощью комитетов алгоритмов классификации анализ социально-экономических связей был проведен с большей точностью. Несмотря на разные количественные характеристики и разные пути их формирования, в составе анализируемых данных сохраняются связи между показателями московской области и свердловской области. Это
говорит о похожести исторического формирования и экономического развития этих регионов.
С помощью кластерного анализа и объединения алгоритмов по нахождению ассоциированных признаков в комитеты в массиве социально-экономических показателей удалось выделить несколько групп «похожих» областей РФ и взаимно влияющих друг на друга показателей, что теоретически позволяет использовать успешный опты развития регионов. Методы анализа больших объемов слабоструктурированной информации с помощью уравнений математической физики
Ставится задача построить предсказательную модель (в качестве прогноза выступает математическое ожидание случайных величин - параметров системы), используя предположение об определенном виде плотности вероятности случайных величин. Сравнить точность метода с точностью стандартных методов прогнозирования (регрессии, нейронных сетей, генетических алгоритмов).
Плотность /ИрО")!' определяется квадратом модуля решения уравнения: аАр(г) + 0(г)<р(г) = Мг), <*, Г-сот!, А = ~ + ~ + + $(?) = <р(хх,хг,...,х,)
. величины, характеризующие систему,1 - время.
В терминах предметной области переменные х\'хк->х» означают производственно-экономические показатели системы. Для численного решения уравнения было выбрано 8 показателей, описывающих систему, решалась задача прогнозирования прибыли X за последующие периоды:
- прибыль за предыдущий отчетный период
хг - объем неотгруженных товаров, на которые имеется заказ клиентов
- скорость производства продукции
*« - скорость транспортировки от завода до места складирования
- скорость таможенного оформления
- скорость отгрузки продукции клиентам
- объем ежедневных расходов на рекламу х> - цены на товары
Вид уравнения (1) был исходя из того, что плотность вероятности величин, (описывающих рассматриваемую систему) которая определяется с помощью решения этого уравнения, позволяет с большей точностью проводить анализ данных и строить предсказательные модели поведения системы.
Для численного решения уравнений был использован аппарат вычислительной математики и разработан программный продукт, реализующий алгоритмы численного решения и позволяющий настраивать их параметры.
Уравнение (1) имеет вид, похожий на вид уравнения, которое в квантовой физике описывает пространственно-временное распределение с помощью представления волновой функции (уравнение Шредингера). В квантовой физике вводится представление о вероятностном описании поведения частицы путем задания волновой функции, характеризующей вероятность местонахождения частицы в той или иной области пространства. Затем помощью гамильтониана микрообъекта выводится уравнение для этой функции, описывающей движение квантовой частицы. В этом состоит отличие от классического описания движения объектов. Пусть волновая функция ("('"■О задана в " - мерном пространстве. Набор координат, которые выступают в роли аргументов функции, представляет собой полный набор физических величин, которые можно измерить в системе. Тогда уравнение Шредингера записывается в виде
й2 д - — Л<К?,0 + ЕДг.гМ?.') = —')
В последнем выражении й - постоянная Планка; т - масса частицы,
внешняя по отношению к частице потенциальная энергия в точке • хп)>
Л п: Зг д1 д1
Л = V =—- + —5- + ... + —-
дх2 - оператор Лапласа.
Используем метод конечных разностей на выбранной сетке (здесь А - шаг
искретизации, " -1
иМНа узлах сетки):
дискретизации, п - номер узла сетки, 11" - значение потенциальной энергии
Д2 к1
2т И2 " " ,
/"„ , г 2ти, ■) , г 2тЕ
9 -и1 2ти" е А2 — Обозначая ' и*" ,получаем - Л-+(*+*.-«к-У-=
Под последним выражением понимается система уравнений для всех
возможных ".
Для нахождения коэффициентов в уравнении (1) используется метод конечных разностей на множестве исторических данных. Вторым шагом оценивается точность построенной модели на нескольких тестовых выборках. В случае удовлетворительного результата модель используется для прогнозирования величин. В качестве прогноза выступает численная оценка интеграла (интегрирование ведется по всему возможному множеству значений
переменных ЩХ\=\...\х(х1,х2.....дО!^,*,,-.,*.)!2
Для анализа данных имеется прямоугольная таблица данных, описывающая работу производственного предприятия. В первоначальной таблице 20 столбцов (полей) и порядка 100000 записей. В каждом поле представлена динамика во времени определенного производственно-экономического показателя предприятия в числовом виде. Каждая запись в свою очередь
соответствует значениям показателей в определенный момент времени. Ниже приведен фрагмент таблицы (выбраны 7 столбцов). В первом столбце таблицы помещаются числовые названия артикулов продуктов из товарной номенклатуры компании. Во втором столбце находятся данные, которые описывают место, где вычисляются показатели прибыли от операции согласно процедуре управленческого учета (РМ-Чехов - склад предпродажной подготовки, импорт - склад таможни, клиент - склад клиента, т.е. конечный пункт, куда отгружаются продукты). Столбец (поле) «Статус перехода» -числовое обозначение смены статуса продукта, например, отгрузка со склада предпродажной подготовки РМ-Чехов на склад клиента. Столбец «Финансовый документ» - согласно процедуре управленческого учета обозначает номер внутреннего финансового документа компании, обосновывающего смену статуса продукта. Остальные 3 столбца описывают количество, прибыль и дату
получения прибыли для соответствующего артикула (таблица 3):
Артикул продукта Склад Изменение статуса ; Финансовый документ Количество Прибыль от операции, руб. Дата документа
0512040 Рт-Чехов Выход из обработки ТЯР73248 396 19198,08 25.01.2008
1400310 Импорт Вход на обработку 140642 20 412 23.01.2008
2025430 Импорт Вход на обработку 00056Р 12 2643,6 22.01.2008
2025430 Клиент Отгрузка клиентам 1ШВ069489 12 5287,2 22.01.2008
2045200 Еш-Чехов Выход из обработки ТЯР69066 1296 98816,96 22.01.2008
2045220 Рт- Чсхов Выход из обработки ТЯР72988 288 216800,2 25.01.2008
2045244 Рт- Чехов Выход из обработки ТЯР72774 96 86400,6 24.01.2008
2058880 Клиент Отгрузка клиентам 1ШВ067747 480 73656,6 21.01.2008
2076020 Импорт Вход на обработку 00057Р 6 129,76 22.01.2008
2089850 Рт-Чехов Выход из обработки ТЯР71297 936 106141,2 24.01.2008
2102352 Клиент Отгрузка клиентам 1 1ШВ069476 1326 146192,25 22.01.2008
Таблица 3
Описанный подход является новым методом Data Mining. Он используется в совокупности со стандартными алгоритмами. В задаче регрессии, зная плотность вероятности, увеличивается точность прогноза, а алгоритмы кластеризации дают более точное разбиение на группы схожих элементов. Получена оценка, что в нашей задаче использование описанного подхода помогает более точно по сравнению со стандартными методами (построения нейросетей, генетическими алгоритмами, регрессии) планировать прибыль и бюджет компаний на будущий период (рис. 6, данные по оси ординат в млн. руб.). Значение плотности вероятности в пространстве измеримых параметров для каждой исследуемой системы описывается разными законами. Данный подход рассматривается как дополнительный к существующим методам и позволяющим строить более точные прогнозы. В качестве уравнения, описывающего состояние и динамику развития системы можно воспользоваться аналогом уравнения Шредингера с обобщенными параметрами, применимыми к исследуемой системе. В результате применения метода удается с большей точностью предсказывать экономические показатели деятельности компании. При анализе данных принимаются во внимание все наблюдаемые состояния системы (т.е. отсутствуют «выколотые» точки, которые в случае исследования статистическими методами могли быть проигнорированы). В разложении обобщенной функции состояния системы присутствуют периодические функции. Это означает, что при анализе мы можем учитывать цикличность поведения системы. При анализе учитываются наблюдаемые состояния системы, и в случае необходимости закон поведения системы может быть скорректирован с учетом текущего состояния системы. Границы применимости описанного подхода зависят от задачи. Вывод о применимости можно сделать, сопоставив расчетные показатели и реальные показатели деятельности.
Рис.6
По теме диссертации автором опубликовано 8 работ, основные результаты и отдельные положения диссертационного исследования докладывались: на конференциях МФТИ "Современные проблемы фундаментальных и прикладных наук" (Москва, 2005, 2007, 2008). Научная конференция МИФИ (Москва, 2007), на международных конференциях «Системный анализ и информационные технологии» (2005, 2007, 2009 гг.). Результат анализа представлен в проекте РАН «Электронная Земля». Полученные результаты были применены в работе по грантам РФФИ (проект N 04-01-00678) и N 07-0100662). Произведена оптимизация операций в производственном процессе крупной компании.
Список работ автора, опубликованных по теме диссертации: 1. Булычев A.B., Бритков В.Б., Интеллектуальный анализ данных в задачах обработки данных о природной среде. Первая международная конференция «Системный анализ и информационные технологии» САИТ-2005. Переславль-Залесский: Труды конференции. В 2-х т. Т. 1 - М.: КомКнига, 2005. - с. 156-160
2. Булычев A.B., Бритков В.Б., Технологии интеллектуального анализа данных в исследованиях природной среды. Труды XLVIII научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук». Часть VII. Москва, ноябрь, 2005г., с 229-231
3. Булычев А.В, Бритков В.Б.,. Интеллектуальный анализ социально-экономической информации регионов России. Труды II международной научной конференции ИСА РАН «Системный анализ и информационные технологии». Том II. Обнинск, 10-14 сентября, 2007г., с 100-104
4. Булычев A.B., Бритков В.Б., Интеллектуальный анализ данных с использованием технологии Data Mining показателей развития регионов России и построение текущей модели взаимодействия регионов. Труды научной конференции МИФИ, Москва, 2007
5. Булычев A.B., Анализ с использованием технологии Data Mining показателей развития регионов России. Труды 50-й научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук». Москва, 2007г., с 216-218
6. Булычев A.B., Бритков В.Б. Технологии интеллектуального анализа Data Mining и их использование при решении задач логистической оптимизации. Труды 51-й научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук»: Часть VII. Управление и прикладная математика. Том 3. — М.: МФТИ, 2008. — 138 с. ISBN 978-5-7417-0271-0
7. Булычев A.B., Использование вероятностного моделирования и уравнений квантовой физики в интеллектуальном анализе данных - Data Mining. Третья Международная конференция «Системный анализ и информационные технологии» САЙТ - 2009 (14-18 сентября 2009 г., Звенигород, Россия): Труды конференции. М., 2009. с. 270-277..
8. В.Б. Бритков, A.B. Булычев. Методы анализа больших объемов слабоструктурированной информации.// Информационные технологии и вычислительные системы. №1. М.: 2010. Стр. 36-44.
Подписано в печать:
15.04.2010
Заказ 3560 Тираж - 100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru
Оглавление автор диссертации — кандидата технических наук Булычев, Александр Викторович
Введение. Актуальность и степень разработанности проблемы.
ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ.
1.1. Структура анализа данных.
1.2. Основные этапы анализа данных.
1.3. Описание множества состояний объектов.
1.4. Задача классификации объектов.
ГЛАВА 2. РАЗВИТИЕ БАЙЕСОВСКОЙ КЛАССИФИКАЦИИ.
2.1. Байесовские классификаторы. Обратная вероятность.
2.2. Априорные ФПВ функции плотности вероятностей.
2.3. Условные апостериорные распределения параметров моделей.
2.4. Точечные оценки параметров и классификатор Байеса.
2.5. Интервалы и области для параметров.
2.6. Прогнозные функции плотности распределения вероятностей.
2.7. Применение результатов байесовского анализа.
ГЛАВА 3. БАЗОВЫЕ АЛГОРИТМЫ DATA MINING.
3.1. Новые разработанные методы анализа данных:.
3.2. Описание алгоритмов.
3.3. Комитеты моделей.
ГЛАВА 4. АНАЛИЗ ДАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ
4.1. Анализ минеральных ассоциаций.
4.1.1. Актуальность задачи.
4.1.2. Постановка задачи.
4.1.3. Входные данные.
4.1.4. Описание результатов анализа данных.
4.1.5. Формализация результатов.
4.2. Анализ текстовых данных.
4.3. Анализ данных социально-экономической информации.
4.3.1. Описание входных данных.
4.3.2. Постановка задачи.
4.3.3. Алгоритмы решения задач.
4.3.4. Формализация результатов.
4.4. Анализ данных производственного предприятия.
4.4.1. Актуальность проблемы.
4.4.2. Постановка задачи.
4.4.3. Описание уравнения.
4.4.4. Описание входных данных.
4.4.5. Формализация построенных закономерностей.
4.4.6. Сравнение со стандартными подходами.
Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Булычев, Александр Викторович
Первые работы в области анализа данных и классификации по прецедентам появились в 30-х годах 20 века и были связаны с байесовской теорией принятия решений (Д. Нейман, К. Пирсон) [1], применением разделяющих функций к задаче классификации (Р. Фишер) [2], решением вопросов проверки гипотез (А. Вальд)[3]. В 50-х годах появились первые нейросетевые модели (перцептрон Ф. Розенблатта) [4]. К концу 60-х годов были разработаны и исследованы различные подходы для решения задач классификации, распознавания в рамках статистических, перцептронных моделей, и моделей с разделяющими функциями.
В 1976-1978 годах академиком Ю.И. Журавлевым был разработан алгебраический формализм [5,6]. Было предложено решать задачи анализа данных не одним, а множеством алгоритмов в два этапа. Для произвольных объектов независимо применяются алгоритмы (базовые алгоритмы). Результаты их применения специальным образом обрабатываются (с помощью решающих правил) и формируется окончательное коллективное решение (например, об отнесении объектов к одному из классов). Дальнейшее развитие теории анализа данных и распознавания, посвященное алгебраическому подходу к синтезу корректных алгоритмов и комитетов моделей К.В. Рудаковым[7], В.Д. Мазуровым [8,9,10] и др.[11-25], внесло значительный вклад в решение задач анализа данных. Академиком В.П. Масловым предложен метод эконофизических аналогий [26] при анализе экономических систем. Большой вклад в развитие теории классификации внесли ученые: М.А. Айзерман, Э.М. Браверман, Л.И. Розоноэр (метод потенциальных функций) [27]. Современные методы оперативной (быстрой) обработки больших массивов слабоструктурированной информации в информационных, коммуникационных и управляющих системах на основе теории фильтров Калмана и Пугачева развиты в трудах И.Н. Синицына[28] Одним из последних результатов теории анализа данных является применение слабой аксиоматики вероятностей в работах К.В. Воронцова [29].
Современный этап развития информационных технологий характеризуется быстрым возрастанием объема информации и сложности структуры баз данных (БД) в различных областях человеческой деятельности. Лавинообразное увеличение возможностей получения, передачи и хранения информации приводит к ее усложнению, гетерогенности и увеличению объема слабоструктурированной информации. Из-за сложности структурных и системных зависимостей в данных, которые описывают слабоформализованные информационные системы и сложные прикладные объекты исследования, значительно усложняются правила построения формализованных информационно-аналитических моделей, описывающих закономерности в данных[30].
В таких условиях традиционные подходы к обработке информации становятся малоэффективными. В результате возникает актуальная проблема разработки и применения новых многометодных подходов к анализу данных. Направлением повышения эффективности анализа больших объемов слабоструктурированной информации и построения аналитических и информационных моделей, описывающих поведение сложных систем, является использование технологий системного многометодного интеллектуального анализа данных (ИАД), который получил название «Data Mining» (добычи знаний)[31].
Научной областью анализа данных является создание автоматизированных познавательных процедур с использованием баз фактов и баз знаний, которые на основе группы алгоритмов автоматически порождают гипотезы наличия закономерностей [32]. На более ранней стадии развития технологий анализа данных предпринимались попытки использования такого подхода для интерпретации большого числа расчетных данных [33, 34, 35].
Data Mining — исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком (Григорий Плтецкий-Шапиро) [31].
Особенностью анализа данных Data Mining является использование различных алгоритмов нахождения закономерностей в данных [36-39]. Анализ данных информационных различными алгоритмами подробно отражен в работах автора [40-48].
В арсенале современного анализа данных существует десятки различных традиционных методов и алгоритмов анализа данных: статистических, кластеризационных, классификационных и т.д. Перечисленные методы не всегда обладают достаточно хорошей степенью точности и достоверности при описании новых закономерностей. Например, в случае статистических методов данная проблема связана с отсутствием статистической устойчивости в данных или сложностью построения гипотез относительно вида функций распределения самих величин и функций распределения параметров моделей. Наряду с указанными причинами исследования в области анализа данных при решении определенного класса задач сталкиваются с трудностями иного рода: формально-логическй вывод из обнаруженных закономерностей не всегда может нести в себе принципиально новые знания. Поэтому существующий подход анализа данных, который использует конечное число гипотез, нуждается в дальнейшем изучении, формализации и дополнении его новыми подходами [40].
Несмотря на развитую теоретическую часть построения алгебраической теории комитетов[5,6], существующая практическая методология анализа слабоструктурированных данных характеризуется слабым описанием алгебры синтеза решающих правил и построения базовых алгоритмов и гипотез применительно к прикладным информационным системам, вариационной оценке их применимости на различных массивах данных.
Общепринятые методы анализа данных заключаются в построении одной или нескольких информационно-аналитических моделей. В зависимости от того, насколько хорошо та или иная модель описывает закономерности в данных, применяется способ композиции результатов с помощью выбранного решающего правила. При таком подходе результаты, как правило, зависят от априорных знаний аналитика, его опыта и интуиции при формировании гипотез. В этом случае отсутствуют критерии формального научно обоснованного построения гипотез, объясняющих зависимости в данных, и применения решающих правил принятия коллективных решений комитетами моделей. В результате могут получаться, во-первых, субъективные или слишком грубые выводы, во-вторых, закономерности, лишенные новых формализованных знаний[49,50, 51].
В диссертационной работе разработан научный подход, который позволяет во многом разрешить указанные проблемы. В исследовании используется системный подход для разработки и обоснования применения новых методов, построения информационных моделей для анализа слабоструктурированных данных и решения плохо формализованных задач, расширения алгоритмов и моделей анализа данных. На разных этапах исследования для качественного анализа данных привлекались специалисты из предметных информационных областей.
В диссертации найдены новые закономерности и формализованы новые знания в сложных информационных системах различной природы. Разработанные методы применяются для класса задач, которые описываются табличными данными. В качестве базовой методологии решения задач поиска закономерностей в данных и интерпретации результатов используется методология интеллектуального анализа данных Data Mining.
В качестве важного примера приведем одну из последних областей применения результатов разработанной методологии - теория катастроф и безопасности. Выявленные на ранней стадии комплексные закономерности в возникновении природных катастроф уменьшают масштаб их последствий [52-54].
Цель и задачи исследования.
Целью диссертационного исследования является расширение спектра решаемых задач за счет разработки новых методов анализа данных и решающих правил с помощью комитетов алгоритмов для построения информационно-логических и аналитических моделей с целью моделирования системно-объектных связей, позволяющих строить их формализованные описания. Ставится задача получения новых закономерностей о функционировании сложных систем, в которых присутствуют сложные взаимодействия с большим числом связей. Разработанные методики применяются к данным информационных систем различной природы.
В соответствии с поставленной целыо решались следующие задачи:
1.1 Построить новые модели для анализа различного типа информации: геологической, экономической, производственной, которые позволят существенно улучшить систематизацию процессов, структурных и функциональных связей внутри системы с помощью аппарата теории классификации, распознавания, искусственного интеллекта, статистических методов и комитетов указанных алгоритмов.
1.2 Разработать научно обоснованные формализованные методы и алгоритмы анализа данных комитетами алгоритмов для описания сложных систем различной информационной природы, которые позволят при обработке больших объемов данных значительно улучшить точность и увеличить скорость анализа данных по сравнению с уже существующими методами. Построить процедуру расчета точности моделирования комитетами алгоритмов. Провести оценку статистическими методами.
1.3 Построить методики и критерии моделирования организационно-экономических систем с помощью специального класса уравнений математической физики, которые обеспечат формализацию новых информационных связей и прогнозирование поведения объектов экономических систем с меньшей ошибкой, чем существующие методики.
Предмет и объект исследования.
Объектами исследования являются слабоструктурированные данные информационных систем различной природы:
1. Массивы данных о распределении минеральных ассоциаций, представляющие собой поликомпонентные системы геологических образований
2. Динамические массивы социально-экономической информации регионов России
3. Данные, описывающие работу производственных предприятий с полным циклом производства, операций и распределения продукции.
Предметом изучения являются скрытые закономерности в данных.
Научные и практические результаты, выносимые на защиту.
1. В результате разработанного подхода к синтезу новых алгоритмов анализа данных выделяется структурная модель связей в экоинформационных системах, в частности минеральных ассоциаций как критерий потенциального залегания промежуточных коллекторов алмазов. Получены дополнительные критерии для моделирования и распознавания промежуточных коллекторов (комплексов пород, участвующих в питании алмазоносных районов). Полученные результаты впервые позволили определить скрытые системно-объектные связи в поликомпонентной структуре минеральных ассоциаций и построить трехмерную карту распределений минеральных ассоциаций
2. Построенная с помощью формализованных разработанных методик комплексная информационно-логистическая модель операционного отдела предприятия с выделением структурных и функциональных характеристик системы позволяет более точно по сравнению со стандартными методами (построения нейросетей, генетическими алгоритмами, регрессии) планировать прибыль и бюджет компаний на будущий период
3. Разработанная процедура применения уравнений математической физики для построения структурно-логических моделей социально-экономических систем позволяет с лучшей точностью формализовать схему рационального распределения и планирования ресурсов.
Заключение диссертация на тему "Системный подход к анализу скрытых закономерностей в больших массивах слабоструктурированных данных"
ЗАКЛЮЧЕНИЕ. Основные результаты исследования.
1.1 Разработана процедура формализованного построения комитетов алгоритмов для моделирования организационно-технических систем, построена визуализированная аналитическая среда выбора параметров моделирования и оценки точности моделей. Проведена адаптация к практическим задачам в области геологии, социально экономических исследований и производственных операционных задач теории построения алгебраических комитетов алгоритмов для моделирования системно-объектных связей, позволяющих строить их формализованные описания.
1.2 Используя системный подход и многометодный аппарат анализа данных, включающий вычислительные методы, разработана новая структурная модель связей в экоинформационных системах и предложены рациональные варианты организации исследований в области природной среды.
1.3 Впервые построена комплексная информационно-логическая модель операционного отдела предприятия с выделением структурных и функциональных характеристик системы, информационных и материальных потоков продукции, позволяющих выбрать наиболее подходящие транспортные пути распределения продукции.
1.4 Разработана формализованная процедура применения уравнений математической физики для построения структурно-логических моделей экономических систем, организационная схема рационального распределения ресурсов предложена в виде графоаналитических конструкций.
Полученные в диссертации результаты использованы при совершенствовании результатов анализа геологической информации в области исследования минеральных ассоциаций, что подтверждается справкой Института геологии рудных месторождений, петрографии, минералогии и геохимии РАН (ИГЕМ РАН).
Библиография Булычев, Александр Викторович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Neyman J., Pearson E.S. On the problem of the most efficient tests of statistical hypothesis, Phil. Trans. R. Soc., Series A, 1933.
2. Fisher R.A. The use of multiple measurements in taxonomic problems, Ann. Eugenics, 7, Part II, 179-188, 1936.
3. Wald A. Contributions to the theory of statistical estimation and testing of hypotheses, Ann.Math.Stat., 10, 299-326, 1939.
4. Розенблатг Ф. Принципы нейродинамики (перцептрон и теория механизмов мозга). — М.: Мир, 1965.
5. Журавлев Ю.И., Об алгебраическом подходе к решению задач распознавания или классификации. Проблемы кибернетики. М.: Наука, 1978. Вып.33. С.5-68.
6. Журавлев Ю.И. Корректные алгебры над множествами не корректных (эвристических) алгоритмов. I. // Кибернетика. 1977. N4. С. 5-17., II. Кибернетика, N6.
7. Рудаков К.В. Об алгебраической теории универсальных и локальных ограничений для задач классификации // Распознавание, классификация, прогноз: Матем. методы и их применение. М.: Наука, 1988. Вып.1, С. 176-200.
8. Мазуров Вл.Д. Комитеты систем неравенств и задача распознавания // Кибернетика. 1971. №3. С. 140-146.
9. Мазуров Вл.Д., Хачай М.Ю. Комитеты систем линейных неравенств// Автоматика и телемеханика. 2004. вып.2, С. 43-54.
10. Мазуров Вл.Д. Метод комитетов в распознавании образов. Свердловск: ИММ УНЦ АН СССР, 1974. 165 с.
11. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения). -М.:Наука, 1974.-415 с.
12. Донской В.И. Алгоритмы обучения, основанные на построении решающих деревьев// Журнал выч. мат. и матем. физики. 1982, т.22, №4, с. 963-974.
13. Донской В.И. , Башта А.И. Дискретные модели принятия решений при неполной информации. -Смферополь: Таврия, 1992. 166 с.
14. Дюкова Е.В. Асимптотически оптимальные тестовые алгоритмы в задачах распознавания// Проблемы кибернетики. М.: Наука, 1982. Вып. 39. С. 165-199.
15. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Института математики, 1999.
16. Ивахненко А.Г. Системы эвристической самоорганизации в технической кибернетике. —Киев: Техшка, 1971.-372 с.
17. Лбов Г.С. Методы обработки разнотипных экспериментальных данных// Новосибирск. Наука, 1981. 160 с.
18. Матросов B.J1. Синтез оптимальных алгоритмов в алгебраических замыканиях моделей алгоритмов распознавания// Распознавание, классификация, прогноз: Матем. методы и их применение. М.: Наука, 1988. Вып.1, С.229-279.
19. Рязанов В.В. О построении оптимальных алгоритмов распознавания и таксономии (классификации) при решении прикладных задач // Распознавание, классификация, прогноз: Матем. методы и их применение. М.: Наука, 1988. Вып.1, С.229-279.
20. Рязанов В.В. Комитетный синтез алгоритмов распознавания и классификации // ЖВМ и МФ. 1981. Том 21, №6. С. 1533-1543.
21. Рязанов В.В. О синтезе классифицирующих алгоритмов на конечных множествах алгоритмов классификации (таксономии) //ЖВМ и МФ, 1982. Том 22, №2. С.429-440.
22. Сеиько О.В. Использование процедуры взвешенного голосования по системе базовых множеств в задачах прогнозирования// М. Паука, Ж. вьгчисл. матем. и матем. физ. 1995, т. 35, № 10, С. 1552-1563.
23. Aslanyan L., Zhuravlcv Yu,.Logic Separation Principle, Computer Science & Information Technologies Conference, Yerevan, September 17-20, 2001, 151-156.
24. Маслов В.П. Квантовая экономика, Наука, М., 2005.
25. Айзерман М.А., Браверманн Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. М.: Наука, 1970.-384 с,
26. Синицын И.Н. Фильтры Калмана и Пугачева: Монография. Изд. 2-е, перераб. и дои. -М.: Логос, 2007.
27. Воронцов К.В. Комбинаторная теория надежности обучения по прецедентам. Диссертация на соискание ученой степени доктора физико-математических наук, на правах рукописи, Москва, 2010.http://www.machinelearning.rU/wiki/images/b/b6/Voronl0doct.pdf
28. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализ данных: Data Mining, Visual Mining, Text Mining, OLAP. БХВ-Петербург, 2008.
29. Ю.М. Арский, В.К. Финн. Принципы конструирования интеллектуальных систем. Информационные технологии и вычислительные системы. № 4. М.: 2008. стр. 4-37.
30. Геловани В.А., Болоткин С.И., Бритков В.Б., Дубовский С.В., Юрченко В.В. Программное обеспечение системы моделирования, ВНИИСИ 1978г. 26 с.
31. Бритков В.Б., Геловани В.А. Интеллектуальные технологии в задачах принятия решений в области природных явлений. Научная сессия МИФИ-2003. Сборник научных трудов. Т.З. "Интеллектуальные системы и технологии" М.: МИФИ, 2003 г. сс. 40-41.
32. Буров К. «Обнаружение знаний в хранилищах данных». Открытые системы, №5-6, 1999.
33. Arseniev S. Kiselev М., Ananyan S Regression.-Nased Classification Methods and thier comparison with Decision Tree Algorithms in Lectures Notes in Artificial Intelligence Springer 1263, 1997, 134-144.
34. Berson A, Smith S. J. Data Warehousing, Data Mining & OLAP. McGrawHill, 1997.
35. Киселев M., Соломатин E. Средства добычи знаний в бизнесе и финансах. Открытые системы, № 4, 1997.
36. Булычев А.В., Бритков В.Б., Методы анализа больших объемов слабоструктурированной информации, 2010, Москва, журнал «Информационные технологии и вычислительные системы», том 1.
37. Бритков В.Б., Булычев А.В. Информационное моделирование сложных плохоформализуемых систем. VIII Всероссийская школа-семинар «Прикладные проблемы управления макросистемами». Тезисы докладов. Апатиты, КНЦ РАН, 2010. - с. 6-7.
38. Булычев А.В., Бритков В.Б. Технологии интеллектуального анализа Data Mining и их использование при решении задач логистической оптимизации. Труды 51-й научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук»:
39. Часть VII. Управление и прикладная математика. Том 3. —М.: МФТИ, 2008. — 138 с. ISBN 978-5-7417-0271-0.
40. Булычев А.В., Бритков В.Б., Интеллектуальный анализ данных с использованием технологии Data Mining показателей развития регионов России и построение текущей модели взаимодействия регионов. Труды научной конференции МИФИ, Москва, 2007.
41. Булычев А.В., Анализ с использованием технологии Data Mining показателей развития регионов России. Труды 50-й научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук». Москва, 2007г., с. 216-218.
42. Киселев М.В. «Алгоритмы Data mining». Курс лекций. Компания «Мегапыотер». 2001.
43. В.Б. Бритков Методы информационного анализа для процессов поддержки принятия решений при управления макросистемами. V Всероссийская школа-семинар «Прикладные проблемы управления макросистемами». Тезисы докладов. Апатиты, КНЦ РАН, 2004.-с. 93-95.
44. Геловани В.А., Бритков В.Б. Интеграция информационных ресурсов для моделирования развития чрезвычайных ситуаций. Проблемы прогнозирования чрезвычайных ситуаций. IV научно практическая конференция. Сборник. М.: Центр «Антистихия». 2004 г.с. 41-43.
45. Тер-Крикоров A.M., Шабунин М.И. курс математического анализа, Москва, издательство МФТИ, 1997, с 247-257.
46. Зельнер А. Байесовские методы в эконометрии, Москва, статистика, 1980.
47. Jeffreys Н. Scientific Inference, Cambridge University Press, 1977.
48. Lindley D.V. Regression Lines and the Linear Functional Relationship, Statistical Soc. (Supplemant), 1947.
49. Воронцов К.В. Лекции по алгоритмическим композициям. — 2006. URL: http://www.ccas.ru/voron/download/Composition.pdf
50. Паклин Н.Б., Орешков В.И. Бизнес-аналитика. От данных к знаниям, Питер, Москва Санкт-Петербург, 2009, с. 497.
51. Терехов С.А. Научная сессия МИФИ-2007. «НЕЙРОИНФОРМАТИКА-2007»: лекции по нейроинформатике. Часть 2. М.: МИФИ, 2007.
52. Drucker II. Boosting using neural networks // In: Combining Arti.cial Neural Nets:Ensemble and Modular Multi-Net Systems (Edited by A. J.C. Sharkey). 1998.
53. URL: http://www.boosting.org/papers/Dru99.pdf
54. Eric Bauer, Ron Kohavi. An empirical comparison of voting classi.cation algorithms: Bagging, boosting, and variants // Machine Learning. 36 (1999) pp. 105-142.
55. URL: http://citeseer.ist.psu.edu/bauer99empirical.html
56. Бочнева А.А., Патык-Кара Н.Г. Структура минеральных ассоциаций как критерий распознавания алмазоносных промежуточных коллекторов.
57. Материалы первого всероссийского конгресса по эконофизике «Эконофизика, финансовые рынки, экономический рост». М. Изд-во Финансовой академии при Правительстве Российской Федерации, 2009.
58. Калиткин. Н. Н. Численные методы. М., Наука, 1978.
59. Боум А. Квантовая механика: основы и приложения. М. Мир, 1990. — 720с. ISBN 503-001311-3.
60. Тарасов Л.В. Основы квантовой механики, Москва, издательство «Высшая школа», 1978.
61. Березин Ф. А., Шубин М. А. Уравнение Шредингера. Изд-во МГУ, 1983.
62. Anderson Т. W. An Introduction to Multivariate Statistical Analysis. New York, Wiley, 1958. Русский перевод: Андерсон Т. Введение в многомерный статистический анализ. М., Физматгиз, 1963.
63. Gray bill F. A. An Introduction to Linear Statistical Models. New-York, McGraw-Hill, 1961.
64. Kendal M, G. and Stuart A. The Advanced Theory of Statistics. VoL I, London, Griffin, 1958. Русский перевод: Кендалл M. Дж. Стыоарт. Теория распределений. М., Наука, 1966/
65. Kendal М. G. and Stuart A: The Advanced Theory of Statistics. Vol. II, New York, Hafner, 1961, 1966. Русский перевод: Кендалл M. Дж., Стыоар т. А. Статистические выводы и связи. М., Наука, 1973.
66. Kullback S. Information Theory and Statistics. New York, Wiley, 1959. Русский перевод: Кульбак. С. Теория информации и статистика. М., 1967.
67. LindleyD. V. The Use of Prior Probability Distributions in Statistical Inference and Decisions. In J; Neyman (Ed.) Proc. Fourth Berkeley Symp. Math. Statist, and Probab., vol. I, 1961, 453—468.
68. Luce R. D. and Raiffa H. Games and Decisions. New York, Wiley, 1958. Русский перевод: ЛьюсР; Д., Райфа X. Игры и решения. М., 1961.
69. Christopher J.C. Burges. A Tutorial. On Support Vector Machines for Pattern Recognition, Appeared in: Data Mining and Knowledge Discovery 2, 121-167, 1998.
-
Похожие работы
- Методы эффективной организации хранилищ слабоструктурированной и нечеткой информации в автоматизированных системах управления на транспорте
- Разработка и исследование систем управления гибридными данными сложной нестабильной структуры на основе универсальной модели
- Анализ и синтез медицинских систем поддержки принятия решений на основе технологий статистического моделирования
- Методика представления слабоструктурированных данных в реляционных СУБД
- Автоматизация многокритериального оценивания в слабоструктурированных предметных областях на основе е-портфолио
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность