автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Методы эффективной организации хранилищ слабоструктурированной и нечеткой информации в автоматизированных системах управления на транспорте

кандидата технических наук
Климанская, Елена Владимировна
город
Ростов-на-Дону
год
2014
специальность ВАК РФ
05.13.06
Диссертация по информатике, вычислительной технике и управлению на тему «Методы эффективной организации хранилищ слабоструктурированной и нечеткой информации в автоматизированных системах управления на транспорте»

Автореферат диссертации по теме "Методы эффективной организации хранилищ слабоструктурированной и нечеткой информации в автоматизированных системах управления на транспорте"

На правах рукописи

Клгшанская Елена Владимировна

МЕТОДЫ ЭФФЕКТИВНОЙ ОРГАНИЗАЦИИ ХРАНИЛИЩ СЛАБОСТРУКТУРИРОВАННОЙ И НЕЧЕТКОЙ ИНФОРМАЦИИ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ УПРАВЛЕНИЯ НА ТРАНСПОРТЕ

Специальность 05.13.06 — Автоматизация и управление технологическими процессами и производствами (на транспорте)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

I ¿- МАЙ 2014

005548673

Ростов-на-Дону - 2014

005548673

Работа выполнена на кафедре «Информатика» федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Ростовский государственный университет путей сообщения» (ФГБОУВПОРГУПС)

Научный руководитель: доктор технических наук, профессор

Бутакова Мария Александровна

Официальные оппоненты: Безродный Борис Федорович

доктор технических наук, профессор, Проектно-конструкторско-технологическое бюро железнодорожной автоматики и телемеханики - филиал ОАО «РЖД», главный инженер

Боженнж Александр Витальевич

доктор технических наук, профессор Южный федеральный университет, профессор кафедры «Информационно-аналитические системы безопасности»

Ведущая организация: ФГБОУ ВПО «Московский государст-

венный университет путей сообщения» (МИИТ)

Защита состоится 26 июня 2014 г. в 14.00 часов на заседании диссертационного совета Д 218.010.03 в Ростовском государственном университете путей сообщения по адресу: 344038, г. Ростов-на-Дону, пл. Ростовского Стрелкового Полка Народного Ополчения, д. 2, конференц-зал.

С диссертацией можно ознакомиться в научной библиотеке ФГБОУ ВПО РГУПС по адресу: 344038, г. Ростов-на-Дону, пл. Ростовского Стрелкового Полка Народного Ополчения, д. 2 и на сайте http://www.rgups.ru.

Автореферат разослан ^и-лЛ 2014 г.

Ученый секретарь

диссертационного совета Д 218.010.03 доктор технических наук, профессор Бутакова Мария Александровна

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования

Тематика диссертации обусловлена комплексной программой модернизации железнодорожной отрасли, диссертационное исследование выполнено в соответствии с разделами «Стратегии развития железнодорожного транспорта в Российской Федерации до 2030 года». В этом документе, в частности, указано, что основные направления научных исследований в области железнодорожного транспорта включают развитие инфраструктуры этой отрасли на основе разработки математических моделей, применения мало обслуживаемых конструкций и оборудования железнодорожной автоматики и связи. Среди новых систем управления движением поездов и обеспечения безопасности предусматривается создание «интеллектуального» поезда со встроенной системой автоведения и самодиагностики; создание автоматизированных систем комплексного управления и учета ресурсов; реализация проектов «Умный вокзал» при модернизации вокзальных комплексов железных дорог, внедрение ряда инновационных спутниковых и геоинформационных технологий; увеличение скоростей движения и ввод в эксплуатацию высокоскоростных электропоездов и инфраструктуры для скоростей движения до 250 км/ч и до 350 км/ч.

Реализация перечисленных направлений научных исследований невозможна без создания информационных хранилищ и баз данных (БД) нового типа, позволяющих осуществлять хранение и доступ к сверхбольшим объемам данных в условиях жестко ограниченного реального времени и необходимости интеллектуальной поддержки всех видов принятия оперативных управленческих решений. В связи с централизацией управления на железнодорожном транспорте значительная часть таких решений принимается на уровне территориальных филиалов ОАО «РЖД» и выше и основана на электронном документообороте информации различного формата, поступающей из разнородных источников. Такая информация является слабоструктурированной, и для её использования в перспективных и развивающихся интеллектуальных системах управления железнодорожным транспортом требуются новые модели данных, отличающиеся от существующих реляционных.

Актуальность исследований подтверждена участием автора диссертации в ряде поддержанных Российским фондом фундаментальных исследований и ОАО «РЖД» грантов, непосредственно относящихся к тематике исследования:

- 12-08-00798-а «Математическое и программное обеспечение интеллектуальной обработки неполных и слабоструктурированных данных в информационно-управляющих системах с повышенными требованиями к надежности и качеству функционирования»;

- 13-08-12151-офи_м «Методы формирования и обработки темпоральных баз данных о динамике процессов в интеллектуальных системах управления транспортными потоками»;

- 13-07-13159-офи_м_РЖД «Методы синтеза распределенной интеллектуальной системы обеспечения информационной и технологической безопасности автоматизированных систем управления на железнодорожном транспорте».

Степень разработанности проблемы

Теоретические аспекты диссертации, связанные с разработкой и использованием графовых и нечетких моделей, методами формализации баз данных, методами извлечения знаний из слабоструктурированной и графовой информации, методами теории возможностей ранее рассматривались в работах С. Аби-тебула, К.Т. Атанассова, JI.C. Берштейна, П. Бунемана, Д. Дюбуа, К. Годсила, JL Заде, Э. Кодда, А. Прада, Э. Редмонда, Р. Снодграсса, П. Ченя, Р.К. Фана. Практические аспекты диссертации, связанные с разработкой и применением ряда методов и систем с интеллектуальной поддержкой принятия решений и моделированием систем в изучаемой области исследований, ранее рассматривались в работах Ковалева С.М., Матюхина В.Г., Розенберга E.H., Шабельнико-ва А.Н.

Целью диссертационной работы является разработка новых моделей и методов эффективной организации хранения и доступа к большим объемам информации и синтез на их основе хранилищ данных для новых типов автоматизированных систем управления (АСУ) с документо-ориентированной, слабоструктурированной и нечеткой информацией (с применением на железнодорожном транспорте).

Для достижения поставленной цели решаются следующие задачи:

1. Системный анализ объекта исследования (АСУ на железнодорожном транспорте), ориентированный на выявление источников слабоструктурированной и нечеткой информации, анализ принципов и теоретических методов построения хранилищ для такой информации, выявление практической необходимости совершенствования методов хранения и доступа к информации для объекта исследования.

2. Выбор и обоснование адекватности графовых моделей для эффективной организации хранилищ данных, разработка новых графовых моделей данных для синтеза хранилищ слабоструктурированной и нечеткой информации.

3. Решение задачи извлечения знаний из слабоструктурированной и нечеткой информации для обеспечения возможности её классификации и определения меры релевантности поиска запрашиваемой информации в хранилищах слабоструктурированной и нечеткой информации.

4. Применение разработанных методов на новых технологических платформах документо-ориентированных АСУ с распределенной и мобильной обработкой данных; решение задач, связанных с эффективными и автоматизированными преобразованиями хранилищ реляционной информации в хранилища предложенного графового вида.

Объектами исследований в диссертации являются новые классы АСУ верхнего управляющего уровня на железнодорожном транспорте, ориентированные на аналитическую обработку оперативных, статистических и сводных данных, поддержку принятия решений в управлении бизнес-процессами на железнодорожном транспорте, обеспечение электронного технологического документооборота, управление распределенной инфраструктурой ОАО «РЖД».

Методы исследования основываются на использовании фундаментальных результатов в области теории графов и их алгебраических и спектральных представлений, теории многоосновных нечетких множеств, теории реляционных и нечетких БД, теории возможностей, теории моделей. Предметом исследования являются методы формализации представлений слабоструктурированных и нечетких данных в графовом виде, методы извлечения знаний о структуре данных, математические модели нереляционных БД и имеющиеся массивы данных из ряда АСУ верхнего управляющего уровня на железнодорожном транспорте.

Объект, предмет и методы исследования отвечают формуле специальности 05.13.06, так как содержанием работы является разработка методов математического представления и алгоритмического обеспечения, повышения надежности и технической эффективности функционирования АСУ на железнодорожном транспорте и соответствуют пунктам паспорта специальности: «8. Формализованные методы анализа, синтеза, исследования и оптимизация модульных структур систем сбора и обработки данных в АСУТП, АСУП, АСТПП и др.», «9. Методы эффективной организации и ведения специализированного информационного и программного обеспечения АСУТП, АСУП, АСТПП и др., включая базы и банки данных и методы их оптимизации», «10. Методы синтеза специального математического обеспечения, пакетов прикладных программ и типовых модулей функциональных и обеспечивающих подсистему АСУТП, АСУП, АСТПП и др.», «15. Теоретические основы, методы и алгоритмы интеллектуализации решения прикладных задач при построении АСУ широкого назначения (АСУТП, АСУП, АСТПП и др.).»

Научная новизна работы заключается в теоретическом развитии методов теории двухосновных нечетких множеств, математических графовых моделей слабоструктурированных данных, математических моделей нечетко-слабоструктурированных данных, математических определений новых мер информационного подобия слабоструктурированной и нечеткой информации. Основные научные результаты в перечисленной области заключаются в следующем:

1. Дано новое определение расширенного (двухосновного) нечеткого множества без вырожденных случаев в связи с введенными ограничениями на соотношение функций принадлежности и непринадлежности.

2. Для введенного нового определения расширенного нечеткого множества разработаны основные бинарные нечеткие отношения, подобно известным для одноосновных нечетких множеств.

3. Предложены графовые модели для основных неформализованных, однако практически используемых схем описания слабоструктурированных данных, которые широко используются в современных АСУ на железнодорожном транспорте.

4. Предложены три новые меры информационной релевантности для слабоструктурированной и нечеткой информации: 1) основанная на информационном подобии слабоструктурированных сущностей; 2) основанная на коррели-

рованности отношений между слабоструктурированными сущностями; 3) основанная на расстоянии между двухосновными нечеткими множествами.

5. На базе предложенных новых мер информационной релевантности предложены новые методы извлечения знаний из слабоструктурированной и нечеткой информации, представленной з графовом виде.

6. Предложены методы автоматизации преобразования имеющихся массивов данных в АСУ на железнодорожном транспорте в графовые и XML-модели данных, более эффективные по критериям времени доступа и снижения избыточности.

Основные результаты, выносимые на защиту.

1. Определение нечеткого двухосновного расширенного множества, учитывающее ограничения вырожденных случаев операций над нечеткими двухосновными множествами.

2. Формальные теоретико-множественные модели бинарных нечетких отношений для введенного нечеткого двухосновного множества.

3. Формальные графовые модели для трех практических описаний {OEM, RDF, XML) слабоструктурированной информации.

4. Формальная модель нечеткой слабоструктурированной графовой БД, являющаяся расширением известных реляционных моделей данных.

5. Мера релевантности для слабоструктурированной информации без условия её темпоральности, основанная на информационном подобии, и метод извлечения знаний с помощью этой меры и спектрального представления графа.

6. Мера релевантности для слабоструктурированной информации с условием её темпоральности, основанная на информационной коррелированное™ паттернов графового представления данных и метод извлечения знаний с помощью этой меры.

7. Мера релевантности для слабоструктурированной нечеткой информации, представляемой расширенными двухосновными нечеткими множествами и метод извлечения знаний с помощью этой меры и спектрального представления графа.

8. Метод преобразования массивов данных, представленных в реляционных таблицах АСУ на железнодорожном транспорте в графовые БД.

9. Метод конвертирования нечетких моделей данных «сущность-связь» в нечеткие слабоструктурированные JfAiL-описания и БД.

Теоретическая ценность диссертационного исследования заключается в разработке общих принципов и универсальных математических моделей, подходящих для широкого класса АСУ с условиями не транзакционной обработки слабоструктурированной и нечеткой информации. Эффективная организация хранилищ данных обусловлена снижением избыточности структур данных и, соответственно, сокращением времени, затрачиваемого на поиск запрашиваемой информации.

Практическая значимость состоит в том, что разработанные в диссертации модели, методы и подходы внедрены в автоматизированных системах

электронного технологического документооборота и управления инфраструктурой на железнодорожном транспорте в Ростовском ИВЦ - структурном подразделении Главного вычислительного центра, филиале ОАО «РЖД» и в учебном процессе ФГБОУ ВПО РГУПС, что подтверждено актами о внедрении. •

Апробация результатов работы. Основные положения и результаты диссертации обсуждались и получили положительные отзывы на следующих международных научно-практических конференциях:

- IEEE Fifths International Conference on Intelligent Systems, Modeling and Simulation (/SMS 2014), Langkawi, Malaysia, 2014;

- Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах», г. Новочеркасск, 2012;

- XIV Международной научно-практической конференции «Современное состояние естественных и технических наук», г. Москва, 2014;

- X Международной научно-практической конференции «Наука вчера, сегодня, завтра», г. Новосибирск, 2014.

Публикации. Полученные в диссертации теоретические и практические результаты нашли свое отражение в 9 печатных работах, 5 из которых опубликованы в изданиях, рекомендованных ВАК РФ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературных источников из 110 наименований, заключения, приложения. Общий объем диссертации 144 страницы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении показана актуальность темы диссертации, определена цель исследования, поставлены задачи, изложены научная новизна, теоретическая и практическая значимость полученных результатов.

В первой главе выполнен анализ объекта исследования — АСУ на железнодорожном транспорте (АСУЖТ) с целью установления источников слабоструктурированной и нечеткой информации, а также осуществлена постановка дальнейших задач диссертации. Под слабоструктурированными данными в диссертации понимаются любые промежуточные данные между структурированными и неструктурированными. Такие данные обладают следующими особенностями. Структура данных может быть неполной, недоопределённой, а также изменяться в процессе обращения к ней. Данные представлены в различных видах информации (текстовом, графическом, мультимедиа- и др.). К тому же существует проблема определения-четкой принадлежности слабоструктурированных данных к тому или иному классу, приводящая к необходимости использования расширенного базиса нечетких операций, отношений и функций.

Проведенный анализ показал, что основные источники слабоструктурированной информации в АСУЖТ находятся в документо-ориентированных АСУ верхнего управленческого уровня, которые представлены в таблице. 1.

Таблица 1

Документо-ориентированные и аналитические АСУ верхнего уровня

Название АСУ Назначение Где используется

ЕК АСУИ Единая корпоративная автоматизированная система управления инфраструктурой ГВЦ, основные хозяйства железнодорожного транспорта

СИС «ЭФФЕКТ» Система информационного сервиса «ЭФФЕКТ», предоставление информации о ключевых показателях ОАО «РЖД», оперативной и статистической отчетности ГВЦ, основные хозяйства железнодорожного транспорта

СНО-СБО Система формирования сводной отчетности ОАО «РЖД», бухгалтерская, налоговая, управленческая, кадровая отчетность, отчетность платежного баланса, отчетность ЦСВТ ГВЦ, Департамент информатизации

ЕК АСУТР Единая корпоративная система управления трудовыми ресурсами, кадровый учет и делопроизводство, нормирование, штатное расписание, охрана труда, аналитическая отчетность Департамент охраны труда, промышленной безопасности и экологического контроля, Департамент управления персоналом, Департамент по организации, оплате и мотивации труда

ГИС РЖД Геоинформационная система Российских железных дорог Дирекция управления движением. Департамент управления бизнес-блоком «Пассажирские перевозки», Департамент управления персоналом, Департамент технической политики

КАС АНТ Комплексная автоматизированная система учета, контроля устранения отказов технических средств и анализа их надежности Департамент технической политики

АСУ ОТ Автоматизированная система управления охраной труда на железнодорожном транспорте, информационно-справочная система документации по охране труда Департамент охраны труда, промышленной безопасности и экологического контроля

В главе также выполнен анализ существующих методов представления {OEM, XML, RDF) слабоструктурированной информации, в результате которого установлено, что они имеют широкое практическое применение, но описываются существующими стандартами на понятийном и математически не формализованном уровне. В связи с появлением большего числа источников слабоструктурированной информации, в частности, с интенсивным развитием АСУЖТ, использующих интеллектуальные технологии, показана потребность в

развитии новых методов хранения и доступа к слабоструктурированной нечеткой информации. Для такой информации предложено синтезировать хранилища данных на основе эффективных методов, использующих графовые модели. В последнем параграфе главы выполнена постановка задач диссертационного исследования.

Во второй главе разработаны модели хранилищ информации для слабоструктурированной и нечетко-слабоструктурированой информации, адатпи-рованные для их применения в АСУЖТ. В главе разработаны графовые модели данных для трех известных описаний информации - ОЕМ, XML и RDF, позволяющие организовать хранение и доступ к слабоструктурированной информации.

Определение 1: ОЕМ-графовая модель данных.

Слабоструктурированная БД может быть представлена в виде графовой модели

ОЕМ 0 = (lD,A,z,r), где ID — множество идентификаторов, узлов графа; А - множество помеченных направленных дуг (p,l,c), p,ceID, I - «строка-метка», запись (р,1,с) означает, что между узлом р ( parent ) есть связь (дуга) 1 (labeled) к узлу С (child); z - функция, отображающая каждый узел пеЮ в конкретное значение составного или атомарного типа, то есть z : п —» v ;

{complex, составной тип, atomic, атомарный тип;

г - особый корневой узел графа. □

Далее показаны примеры ОЕМ-объектов в АСУЖТ для документов ТК-47, ТК-289, ТК-230.

Пример 1 ОЕМ -объект для документа ТК-47

<&dl,type_tech_proc_rep,set,{&tl,&il;Sel,&ml}> <&tl,titul,string,"Титул TK-47">

intro,set,{&ila,&ilb}> <&ila,intro_doc,string,"Содержание документа"» <&ilb,intro_page,integer,5> <&cla,construction_elem,BLOB,file_path> <&ml,methodic, set,{smla,£mlb}>

<smla,meth_defect, string, "Методика техпроцесса дефектации..."> <&mlb,meth_repair,string,"Методика техпроцесса ремонта../'»

Пример 2 ОЕМ-объект для документа ТК-289 <&dlb,type_tech_proc_rep,set,{&tl,sil,Si2,sel,sml}> <&tl, titul, string, "Титул TK-289..."> ; , , : ; ,

<Sila,intro_doc,>,string,"Введение технического документа..."» <Si2, instruction, string, "Инструкция по ремонту..."> <Scla, construction_elem,BLOB,file_path> <£ml,methodic,set,{Smla,&mlb}>

<smla,meth_defect, string, "Методика техпроцесса дефектации..."» <&mlb,meth_repair, string, "Методика техпроцесса ремонта..."» <Smlc, meth_assembly, string, "Методика . сборки...">

Пример 3 OEM-объект для документа ТК-230

<&dlc,type_tech_proc_rep,set,{stl,&il,Scl,&ml}>

<£tl,titul, string, "Титул TK-289...">

<&i2,instruction,string,"Инструкция по ремонту...">

<&cl,methodic,set,{&cla,&clb}>

<&cla,construction_elem,BLOB,file_path>

<sclb,construction_eXem_repair,BLOB,file_path>

<&ml,methodic,set,{£rnla,&mlb}>

<smla,meth_defect, string, "Методика дефектации..."> <smlb,meth_repair, string, "Методика ремонта..."> Графовая модель слабоструктурированной OEM-БД, построенная по примерам 1-3, показана на рис. 1.

Рис. 1 - Пример графовой модели слабоструктурированной OEM-БД

Формальное определение RDF -графа можно дать следующим образом. Описание ресурсов в виде RDF -набора данных — это тройка «субъект»-«предикат»-«объект», то есть для множества U (Universal Resource Identifier, URI, унифицированных идентификаторов ресурсов), множества В {Black nodes, пустых узлов), множества L (Literal, RDF -литералов) определяется набор (s,p,o), где s — «субъект»; р - «предикат»; о — «объект».

Определение 2: RDF -графовая модель данных

Пусть t = (s,p,o) является RDF -элементом данных, где (s,p,o)e(UB)xUx(UBL), причем t называется основным, если он не содержит узлов, которые не имеют идентификаторов. RDF -граф G представляет

собой множество Т э t. Каждый элемент t графически представляется помер

ченным ориентированным подграфом s—>o. □

Определение 3: Семантический словарь RDF -графа G Обозначим универсум графа G через Univ(G), который включает множества элементов из U,B,L, которые могут встречаться в t. Семантический словарь V(G) = Univ(G)nUL.D

Для словаря K(G) RDF -графа G принято резервировать слова из пространства имен в стиле л#:пространство_имен, например, rdficlass, rdfs:subpropery и т.д. Для схемы RDF, обозначаемой RDFS, семантическое пространство имен имеет подобный вид: rdfs:subclass, rdfs;subpropery.

Рассмотрим пример RDF -графа, хранящего информацию о транспортных перевозках между населенными пунктами, а также видах транспорта и

В качестве семантического словаря на рис. 2 используется

= {sc,sp,dom,range,type,country}.

Например,

если я = "Ростов-на-Дону", р ="ОАО РЖД", о ^''Новороссийск", то

"Ростов-на-Дону" 0А0 ржд—> "Новороссийск" означает обеспечение перевозки из одного города в другой посредством транспортной компании ОАО «РЖД», которая по свойству ¡р относится к «железнодорожным видам транспорта» и к «транспорту» в целом, а «транспорт», в свою очередь, рассматривается на уровне города и составляет домен из видов «железнодорожного», «морского» и «авто-» транспорта.

Далее в главе предлагается расширенная модель двухосновных нечетких множеств, операции и отношения с ними. В таких множествах используют-

ся две функции: р., (х) - функцией принадлежности и ц2 (х) - комплементарной ей функцией так, чтобы 0 < (х) < ц, (х) < 1.

Определение 4: Двухосновное (расширенное) нечеткое множество (без вырожденных случаев).

Для нечеткого множества определяемого на универсальном мно-

жестве и, хеи, расширенное представление которого имеет вид

= (х)'х ес^}, где 0 < ц2 (х) < ц, (д:) < 1,

и для некоторого множества В(х), определяемого на универсальном множестве и, хе1/, расширенное представление которого имеет вид

50*3.)^) = (*);* е' где 0 5(*) ^ Из (*) ^1.

определены операции пересечения и объединения при условии отп(ц,(л:),цз(дг))>тах(ц2(л:),|л4(х)), \ZxeU соответственно:

а дополнение определено следующим образом:

А° ) = {*> И, (*)> (*);*£ и }С = {х, ц2 е и) и {х, 1, ц, (х)',х е £/},

Определив важнейшие операции над двухосновными (расширенными) нечеткими множествами, обратимся к определению мощности такого нечеткого множества. С учетом расширенного представления нечеткого числа, его сигма-число определяется как

\4=1!1{(^-^У.хеи} = соша(А). ■ (3)

Из (3) следует

Свойство: соип((АпВ)<тт(соим(А),со1ж[(В)}<соши(ЛиВ)л

В соответствии с определением 4; а также представлением декартова произведения в матричном виде

Ах, В = {{М.М, (*)"(*).И5(*)'М»(*))|* еиА,уеив), где ц^.Ив - функции, комплементарные к

выражение (1) для ЯеРЯ^ и 5 еР^ (Х2,У2)

(Ли 5)е РЯитоп^ (Х1 иХ2,У,иУ2), а в матричном виде:

У1 • • Уш

)>

*2 .»

*п )>

Аналогично (4) определяется операция (Лп£)е (X, пХ2,У]пУ2)

в матричном виде.

Далее для множеств рассмотренного вида даны определения. Отношение нечеткого включения

V ) соип1(Х)

Отношение нечеткой эквивалентности

= (5)

где Тп (х,у) - шах [х,у) - / -норма.

В главе предложена модель хранилища нечеткой слабоструктурированной информации, основанная на предложенном определении. Формальное представление нечеткой модели хранения данных состоит в следующем.

'Определение 5 Нечеткая модель хранения данных представляет собой кортеж рПВ = (1гг,в>™1еЧгоВ,А1гРОВ,Ие1РОВ,агтв), (6)

где - конечный алфавит, набор символов; РШ<щрш - бинарное отношение порядка; Мгтв - функция, ассоциирующая нечеткую сущность с нечетким атрибутом; 11е1р-т - функция, ассоциирующая нечеткое отношение сущности с сущностью; ОгГОВ - функция, устанавливающая условия в соответствии с которыми нечеткая сущность может иметь нечеткие отношения.□ Рассмотрим составляющие кортежа (6) подробнее.

^тая - Етв '-'-О/га, ^)Отв - это конечный алфавит, в кото-

ром имеются нечеткие множества символов (меток): Етв - сущностей, ЛЕОВ -атрибутов, Ягт

— отношений, Оров — доменов, Огов — ролей отношений. ШУедтв - отношение нечеткого порядка (5), которое обозначает подчинение сущностей друг другу и атрибутов сущностям.

А1ггсв : Егов / Кгоа /(Атв,0№в) - функция, которая отображает символы нечеткой сущности (отношения) в символьные кортежи атрибутов из домена их значений От. Устанавливается ограничение, что сущность должна характеризоваться хотя бы одним атрибутом.

Яе1тв : —> /(Огпв,Егов) - функция, которая отображает символы нечетких отношений в кортежи ролей Отв. Ее назначение - исключение избыточности отношений, они группируются по сходным, семантически одинаковым ролям. Каждая роль, по сути, задает л-арность отношения.

СЙда, - это функция, определяемая на декартовом произведении.

ЕтвхОгтхЕгт, задающая ограничение по минимальному и максимальному числу отношений у сущности при группировке по семантически похожим ролям. Далее на рис. 3 в соответствии с моделью РБВ (6):

Рис. 3 - Модель нечеткого хранилища данных

^^{"Исполнительный состав", "Руководящий состав'', "Должность (роль в системе)", "Электромеханик", "Диспетчер"};

afdb={"Устройство 1", "Параметр 1", "Параметр2", "Решение1", " Реше-ние2"};

RFDB={"Rell"}; Отв={Шгк, E_Work, D_Work};

Dfds={Typel ,Туре2,ТуреЗ }.

Функции и ограничения в модели FDB на рис. 3:

"Электромеханик" ^"Исполнительный состав", то есть FRleq {"Электромеханик", "Исполнительный состав");

"Диспетчер"<"Руководяший состав", то есть FRleq("Диспетчер", "Руководящий состав");

Л*ггов("Электромеханик"И"Устройство1", "napaMeTpl":string, FUZZY "napaMeTp2":string], AtrFDB(!%M cncT4ep")=[FUZZY "Решение 1", "Реше-Hne2":string];

RelFDn (Rel 1) = Work: "Электромеханик", Work', DJVort. "Диспетчер", Work];

CtrFDB (1Уогк(ц(х) = (x) = 0), D_Work(\i{x) = 0,9,цс(x) = 0,l), E_Work{\i{x) = 0,3, цс (ж) = 0,7).

В третьей главе предложены новые меры информационной релевантности для извлечения знаний из слабоструктурированной информации, а также методы, основанные на этих мерах.

Информационная мера подобия определена по интерференционно-волновому способу тремя векторами интерференции Fb, Vi, V2, где каждый связан с коэффициентом, отражающим релевантность данных, найденных на каждом уровне:

(7)

" V aj .'=i aj J-л aj j

где: o-j — T / J — максимальное число ./-грамм в документе; D и Т- число лингвистических единиц в документе; п, т, к -размеры векторов Vo, V\, Vi, соответственно; d = шах(и,от,А:).

Мера релевантности для слабоструктурированной информации с условием её темпоральности P(d\Q) — вероятность получения релевантной информации на время d по запросу Q. В ее расчете используется мера (7). Вычисления меры основаны на предположении, что для слов qvq1,...,ql в запросе и слов со в релевантном документе существует одинаковое вероятностное распределение Учитывая, что мера информационного подобия ю е [0... 1]

d I

Формула (8) имеет смысл вероятностной характеристики получения некоторого слабоструктурированного документа, содержащего слово со в запросе Q к темпоральной БД.

Поясним этапы предложенного метода извлечения паттернов. Слабоструктурированный документ представим как ориентированный граф (орграф) G(r,V,L,E), в котором узлы имеют значение тегов, а ребра помечаются и направляются соответственно их вложенности, где г е V — корневой узел, V -множество узлов графа, L — множество меток ребер, Е - множество всех ребер графа.

Метод состоит из двух частей. В первой части определяются возможные «кандидаты» паттернов графа на кластеризацию. Во второй части определяются размер и периметр кластера паттернов.

Шаг 1. Начало метода. Часть 1. Для орграфа G строится матрица инци-денций А^ для вершин u,v по правилу

4=М =

1, если у связана с и О, иначе

Напомним, что степень вершины орграфа <1е§(у) — это число ребер, исходящих/входящих в вершину. Далее строим нормализованный Лапласиан ¿арс(и,у) орграфа

с1е£(у), если у = и и есть ребро

Ьара (к,у) = -1, если у ^ и и есть ребро (9)

О, иначе

Вспомним, однако, что орграф в, рассматриваемый нами, можно также рассматривать как граф, имеющий веса, под которыми можно понимать метки ребер. Поэтому Лапласиан графа (9), который, в общем, не зависит от того, является граф ориентированным или нет, можно рассчитать следующим образом.

Шаг 2. Рассчитываем

La^>c(м,v) =

- . , если V = и и есть ребро и у) ф О

О, иначе

, если у * и, есть ребро, (1е$(у)с^(и) * О

(10)

Шаг 3. Рассчитываем собственные значения (10), например, по алгоритму Якоби, и получаем вектор собственных значений Хс орграфа (7.

Шаг 4. Определяем расстояние ¿/«/(С,^) между векторами собственных значений графов б, и <52. Это расстояние можно рассчитать различными известными способами, однако при определенном правиле нормирования векторов можно использовать меру (7). Принимаем решение о сходстве графов по правилу порогового расстояния: если оно меньше заданного, то считаем, что графы обладают сходством, иначе — не обладают. Конец части 1.

Шаг 5. Часть 2. Метод из части 1 итеративно распространяется на множество искомых подграфов в графе, в соответствии с чем получаем множество наборов собственных значений для подграфов, .....,

Л2 , Л„ ..Д"} . Таким образом эти наборы можно поме-

стить в матрицу Ак = . Рассчитываем вероятности, что /-я верши-

на к -го графа будет принадлежать I -му кластеру

(И)

Шаг 6. Рассчитываем характеристики кластера. Первая характеристика — это объем кластера, которая определяется как сумма степеней вершин, принад-

лежащих кластеру. Учитывая, что в нашем случае вершина будет принадлежать кластеру с некоторой вероятностью (И), получаем выражение для «условного, вероятностного» объема кластера

Из (12) составим характеристический вектор объема кластера

Шаг 7. Рассчитаем периметр кластера. Он определяется на множестве узлов подграфа, входящих в периметр подграфа G, как

A(G,.) = {(м, v)|(«,v) е F л м е G,, л v sê G,}

Длина периметра подграфа G, определяется числом ребер, входящих в A(G,.), то есть 5(G,.) = |a(G,)|. По аналогии с этим, с учетом того, что вершины в периметр будут входить с некоторой вероятностью, получаем выражение для «условного, вероятностного» периметра кластера

где (/,_/) - элемент матрицы инциденций графа G.

Из (13) составляем характеристический вектор периметра кластера

Шаг 8. Рассчитанные характеристики могут служить индикатором графовых паттернов.

Конец части 2. Конец метода.

В главе предложен метод извлечения знаний из БД, представленной в графовом виде, то есть DB = (G,,G2,...,G„), где Gi - граф. Этот метод основан на коррелированности, что поясним на примере. Пусть имеется некоторая слабоструктурированная БД, в которой содержится справочная информация из подсистем АСУЖТ в виде двух подграфов G, и G2, как показано на рис 4. Цифры, стоящие в узлах графов, обозначают количество запрошенных документов (за некоторое время). Очевидно, что в G, было запрошено суммарно 155 документов, а в G2 - 45-Запросы к документам исполняют несколько человек, работающих с этой БД. К части графа G, было выполнено 100 запросов, а к части G2 было выполнено 40 запросов. Тогда коррелированность запросов с частями графовой БД в первом случае: Co/t(G,) = 100/155 = 0,645, во втором: Corr(G2) = 40/155 = 0,258. Эти цифры показывают частоту паттерна графа G, выше, чем частоту паттерна графа G2.

«Техническо-распорядительные акты»

Рис. 4 - Фрагмент графовой БД документов «Техническо-распределительные акты»

Для графовой БД £>5 = {0,,02,...,<?„}, содержащей проекции (в виде подчиненных графов всОВ) Вае ЭВ,С ^о}, определен коэффициент устойчивости паттерна

*иРР(0,ВВ)=^°>°ВК^ (14)

к ' |ш| \ов\ где ],'г<щ(р,ВВ) — относительная частота запрашивания подграфа (7 в О В.

Некоторый паттерн графа Сг называется устойчивым, если хчрр(С,ВВ) >ст, где а — некоторое, устанавливаемое пороговое значение, 0<ст<1. Аналогично, для запрашиваемых подграфов <7, и С2 из ОБ можно определить совместную частоту их запрашивания, как /гец^^О^^ОВ^ п£>5с|, а совместный коэффициент устойчивости паттерна

$ирр(С,, ) = £ помощью совместных коэффициентов устойчи-

вости паттернов определяется коэффициент коррелированное™, аналогично Пирсоновскому коэффициенту корреляции:

трр (б,, )—.чирр (С,) шрр (<?2 )

ф(о„о2)=-

(15)

фирр (С,) ¡ирр (в2) (1 - хцрр (в,)) (1 - харр ( О,)) Если в (15) зирр[Ох) или зирр(02) равны 0 или 1, то ф(0р0,) = 0. Заметим, что граф в данном случае не обязательно является помеченным орграфом. Для помеченных орграфов предложена модификация данного подхода.

Как и прежде, пусть = - графовая БД из N графов

01 =(г,У,Ь,Е), как и в предыдущем методе.

Зададим граф пользовательской транзакции (запроса) С =(г'<,У\1-'Г где |к¥|>2 - количество узлов, 13 =|, > 1 - количество меток. Заметим, что из множества меток могут встречаться семантически одинаковые метки. Тогда существует множество СэС семантически одинаковых тран-закционных графов, получаемых при соответствующих обращениях пользователей к БД. Коэффициент устойчивости паттерна для семантических транзак-ционных графов можно определить (исходя из (14)) следующим образом:

сага^С сОеЯЯ)

где пит(Х) - количество семантически релевантных элементов; сагс!(Х) -мощность X.

В выражении (16) в знаменателе определяется максимальное значение частоты появления графового паттерна из всех возможных подграфов из множества С.

Третья мера информационной релевантности основана на следующем утверждении.

Утверждение 1

Меру информационного подобия для расширенных нечетких множеств Л = {х,11А(х),^(х)}, В = {х,цДх),ц£(х)}, где ц/(х), ря(х) - функции принадлежности, Цв(х) - комплементарные к ним функции, будем определять как

= (17)

Метод извлечения знаний, основанный на подобии и использовании спектрального представление графов, дает возможность разработки аналогичного метода для кластеризации расширенных нечетких множеств с использованием меры подобия (17).

Шаг 1. Начало метода. Определить исходное множество кортежей нечетких значений с функциями принадлежности и комплементарными к ним функциями в виде матрицы 2 =

_Ух_Уг_ У„

(ЦрИг) -(М2.ИГ) - (Мз.Н»)

(ц.,иГ) - (иХ)

Обратим внимание, что матрица X будет определяться как квадратная, имеющая я-порядок.

Шаг 2. Из матрицы 2 получаем с применением меры подобия (17) квадратную симметричную матрицу 5 «-го порядка по правилу:

Если г = }, то 5 ; = 1, иначе

если г<у, то ^ = к = г +1, к<п.

П у=1

Шаг 3. Рассчитываем Лапласиан £ матрицы вычисляем собственные значения А матрицы Ь и ее правые собственные векторы V.

Шаг 4. Применяя алгоритм кластеризации (например, к -средних) к матрице V, получаем вектор кластеризации С исходного множества кортежей. Конец метода.

В диссертации приведен пример расчета по предложенному методу.

В четвертой главе приведены технологические платформы, на которых внедрены результаты диссертации. Одной из таких систем является автоматизированная система электронного технологического документооборота и управления инфраструктурой на железнодорожном транспорте в Ростовском ИВЦ - структурном подразделении Главного вычислительного центра, филиале ОАО «РЖД», рис. 5.

Рис. 5 - Технологическая платформа ЕК АСУИ и АС ЭТД с мобильными рабочими местами

В главе предложены методы автоматизации преобразования массивов данных в реляционных таблицах подсистем АСУЖТ в графовые базы данных. Первым из этапов предлагаемого метода является принятие решения о виде

графа, на основе которого будет синтезирована будущая БД. Важным вопросом, затрагиваемым на этом этапе, является анализ предметной области для выявления превалирования однородности либо неоднородности информации, подлежащей сохранению в графовой БД. В соответствии с этим принципом должен быть выбран либо гомогенный, либо гетерогенный граф. На втором этапе строятся таблицы, описывающие графовые структуры данных. На третьем этапе предлагаемого метода необходимо: определить количество таблиц, подлежащих конвертированию в графовый вид, и извлечь из них информацию о количестве сущностей, их атрибутов и ключевых атрибутов; заготовить требуемое количество таблиц графовых структур, определенных на втором этапе; выполнить редукцию избыточности в полученных таблицах. На четвертом этапе нужно установить связи между таблицами графовых структур, учитывая при этом мощность отношений (один-к-одному, один-ко-многим и другие), пометить мощность соответствующих отношений (M:N). При этом не исключено визуальное отображение ориентированного графа. Если в отношениях между таблицами есть циклические ссылки, которые ведут к построению графа с циклами, необходимо, учитывая, что результирующий граф не должен их содержать, преобразовать циклические ссылки в ациклические путем добавления дополнительных вершин графа.

На основе разработанной в диссертации нечеткой модели FDB предложен следующий метод преобразования реляционных данных в нечеткую XML-модель, который содержит следующие шаги.

Шаг 1. Создать корневой элемент схемы XSD для модели данных FDB.

Шаг 2. Для каждой сущности Етв{1) требуется создавать отдельный элемент ЛЖ-схемы и размещать его под корневым элементом.

Шаг 3. Для каждого атрибута AttFD3(J) сущности EFDB(i) требуется создавать атрибут xs:attribute в ASD-схеме, размещать его внутри соответствующего ^SD-описания сущности и задавать его тип.

Шаг 4. В атрибуте необходимо выбрать и задать тип нечеткости (ТуреХ, Туре!, ТуреЪ, Туре4 в модели FDB), граничные значения функций принадлежности и функции, реализуемые нечеткими числами выбранного типа.

В заключении обобщаются основные результаты диссертационной работы.

Публикации по теме диссертации

Публика11ии в ведущих рецензируемых изданиях, рекомендованных ВАК РФ

1. Бутакова М.А., Климанская Е.В., Янц В.И. Мера информационного подобия для анализа слабоструктурированной информации // Современные проблемы науки и образования. 2013. - № 6; URL: http://www.science-education.ru/l 13-11307 (дата обращения: 25.12.2013).

2. Климанская Е.В., Янц В.И., Чернов A.B. Методы обработки слабоструктурированных данных в автоматизированных системах на железнодорожном транспорте // Известия высших учебных заведений. Северо-Кавказский регион. Технические науки. 2013. -№1(170). - С. 18-23.

3. Бутакова М.А., Климанская Е.В., Янц В.И. Организация хранения и обработки слабоструктурированных документов в информационно-управляющих системах на железнодорожном транспорте // Вестник Ростовского государственного университета путей сообщения. 2013. — № 4. — С. 42 — 47.

4. Климанская Е.В. Формализованные представления разнородной информации для эффективной организации графовых баз данных в специализированных АСУ // Вестник Ростовского государственного университета путей сообщения. 2014.-№ 1.-С. 40-51.

5. Бутакова М.А., Ковалев С.М., Климанская Е.В. Модель релевантности слабоструктурированной информации в темпоральных базах данных // Известия Южного федерального университета. Технические науки. 2014. — № 1. - С. 128- 134.

Публикации в других изданиях

6. Климанская Е.В., Дергачев В.В., Бутакова М.А. Архитектура современных информационных систем на транспорте, проблемы их интеграции, математического и программного обеспечения: Материалы XIII Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах», г. Новочеркасск, 12 декабря 2012 г. // Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск: ЮРГТУ, 2013. С. 12-21.

7. Butakova М., Klimanskaja Е., Chernov A. Fast Algorithm for Simulation of Levy Stable Stochastic Self-Similar Processes // Proceedings of IEEE Fifths International Conference on Intelligent Systems, Modeling and Simulation (ISMS 2014), Langkawi, Malaysia, 2014. - PP. 225 - 229.

URL: http://uksim.info/isms2014/CD+ToC.pdf.

8. Климанская Е.В. Извлечение графовых паттернов и конвертирование реляционных отношений в базах данных // Современное состояние естественных и технических наук / Материалы XIV Международной научно-практической конференции, 14 марта 2014 г. — Москва: Изд-во «Спутник+», 2014. С. 78-82.

9. Климанская Е.В. Современные платформы интеллектуальной аналитической обработки информации: графовые базы данных // Наука вчера, сегодня, завтра / Сб. ст. по материалам X междунар. науч.-практ. конф. № 3 (10). Новосибирск: Изд. «СибАК», 2014. С. 9 - 16.

Личный вклад автора в работах, опубликованных в соавторстве: [1,2,5] — меры информационного подобия; [3] — методы обработки слабоструктурированных данных; [6] - технологические платформы АСУ; [7] — программная реализация.

Климанская Елена Владимировна

МЕТОДЫ ЭФФЕКТИВНОЙ ОРГАНИЗАЦИИ ХРАНИЛИЩ СЛАБОСТРУКТУРИРОВАННОЙ И НЕЧЕТКОЙ ИНФОРМАЦИИ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ УПРАВЛЕНИЯ НА ТРАНСПОРТЕ

Специальность 05.13.06 - Автоматизация и управление технологическими процессами и производствами (на транспорте)

Автореферат диссертации на соискание ученой степени кандидата технических наук

Подписано в печать .24.04. 2014 г. Формат 60x84/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 1,44 Тираж 100 экз. Заказ № 73 8 9.

Ростовский государственный университет путей сообщения. Ризография РГУПС

Адрес университета: 344038, г. Ростов-на-Дону, пл. им. Ростовского Стрелкового Полка Народного Ополчения, д. 2.

Текст работы Климанская, Елена Владимировна, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

РОСЖЕЛДОР

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Ростовский государственный университет путей сообщения»

РГУПС

На правах рукописи

04201460043

КЛИМАНСКАЯ ЕЛЕНА ВЛАДИМИРОВНА

Методы эффективной организации хранилищ слабоструктурированной и нечеткой информации в автоматизированных системах управления

на транспорте

Специальность: 05.13.06 - «Автоматизация и управление технологическими процессами и производствами (на транспорте)»

ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук

Научный руководитель - доктор технических наук, профессор

Бутакова Мария Александровна

Ростов-на-Дону - 2014

СОДЕРЖАНИЕ

ВВЕДЕНИЕ......................................................................... 4

1 АНАЛИЗ ОБЪЕКТА ИССЛЕДОВАНИЯ И ПОСТАНОВКА

ЗАДАЧИ............................................................................ 11

1.1 Классификация и назначение информационно-управляющих

систем на железнодорожном транспорте................................................ 11

1.2 Источники слабой структурированности в информационном обеспечении........................................................................ 21

1.3 Существующие методы организации хранения и доступа к слабоструктурированной информации........................................ 28

1.4 Постановка задачи разработки эффективных хранилищ информации................................................................................................ 39

1.5 Выводы......................................................................... 42

2 МОДЕЛИ ХРАНИЛИЩ СЛАБОСТРУКТУРИРОВАННОЙ И НЕЧЕТКОЙ ИНФОРМАЦИИ.................................................... 44

2.1 Графовые модели слабоструктурированных данных.................. 44

2.2 Модель двухосновных нечетких множеств....................................... 56

2.3 Бинарные отношения в двухосновных нечетких множествах...... 65

2.4 Модель хранилища нечеткой слабоструктурированной информации........................................................................ 69

2.5 Выводы......................................................................... 74

3 ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ СЛАБОСТРУКТУРИРОВАННОЙ И

НЕЧЕТКОЙ ИНФОРМАЦИИ.................................................... 76

3.1 Проблема извлечения знаний из больших объемов графовой

информации........................................................................... 76

3.2. Известные методы извлечения знаний из слабоструктурированной информации.................................................................. 85

3.3 Извлечение знаний и меры информационного подобия для слабоструктурированной информации........................................ 90

3.4. Извлечение знаний и меры информационного подобия для

нечеткой слабоструктурированной информации......................... 105

3.5 Выводы........................................................................ 109

4 ПРАКТИЧЕСКИЕ МЕТОДЫ ПРЕОБРАЗОВАНИЯ МАССИВОВ ДАННЫХ В ГРАФОВЫЕ БАЗЫ В ТЕХНОЛОГИЧЕСКИХ ПЛАТФОРМАХ АВТОМАТИЗИРОВАННЫХ СИСТЕМ УПРАВЛЕНИЯ НА ЖЕЛЕЗНОДОРОЖНОМ ТРАНСПОРТЕ......... 110

4.1 Технологические платформы для применения разработанных методов..........................................................................................................................................................110

4.2 Метод преобразования реляционных таблиц в графовые базы данных.................................................................................... 119

4.3 Метод преобразования реляционных нечетких моделей

в нечеткие слабоструктурированные ХМЬ-6азы данных...................... 125

4.4 Выводы......................................................................... 129

ЗАКЛЮЧЕНИЕ.................................................................... 130

СПИСОК ИСТОЧНИКОВ....................................................... 132

ПРИЛОЖЕНИЕ..................................................................... 142

ВВЕДЕНИЕ

Актуальность темы исследования

Тематика диссертации обусловлена комплексной программой модернизации железнодорожной отрасли, а диссертационное исследование выполнено в соответствии с разделами «Стратегии развития железнодорожного транспорта в Российской Федерации до 2030 года». В этом документе, в частности, указано, что основные направления научных исследований в области железнодорожного транспорта включают развитие инфраструктуры железнодорожного транспорта на основе разработки её математических моделей, применения в ней мало обслуживаемых конструкций и оборудования железнодорожной автоматики и связи. Среди новых систем управления движением поездов и обеспечения безопасности предусматривается создание «интеллектуального» поезда со встроенной системой автоведения и самодиагностики; создание автоматизированных систем комплексного управления и учета ресурсов; реализация проектов «Умный вокзал» при модернизации вокзальных комплексов железных дорог, внедрение ряда инновационных спутниковых и геоинформационных технологий; увеличение скоростей движения и ввод в эксплуатацию высокоскоростных электропоездов и инфраструктуры для скоростей движения до 250 км/ч и до 350 км/ч.

Реализация перечисленных направлений научных исследований невозможна без создания информационных хранилищ и баз данных (БД) нового типа, позволяющих осуществлять хранение и доступ к сверхбольшим объемам данных в условиях жестко ограниченного реального времени и необходимости интеллектуальной поддержки всех видов принятия оперативных управленческих решений. В связи с централизацией управления на железнодорожном транспорте значительная часть таких решений принимается на уровне территориальных филиалов ОАО «РЖД» и выше и основана на электронном документообороте информации различающегося формата и поступающей из источников различного типа. Такая информация является слабоструктурирован-

ной и для её использования в перспективных и развивающихся интеллектуальных системах управления железнодорожным транспортом (ИСУЖТ) нужны новые модели данных, отличающиеся от существующих реляционных.

Актуальность исследований подтверждена участием автора диссертации в ряде поддержанных Российским фондом фундаментальных исследований и ОАО «РЖД» грантов, непосредственно относящихся к тематике исследования:

- 12-08-00798-а «Математическое и программное обеспечение интеллектуальной обработки неполных и слабоструктурированных данных в информационно-управляющих системах с повышенными требованиями к надежности и качеству функционирования»;

- 13-08-12151-офи_м «Методы формирования и обработки темпоральных баз данных о динамике процессов в интеллектуальных системах управления транспортными потоками»;

- 13-07-13159 офи_м_РЖД «Методы синтеза распределенной интеллектуальной системы обеспечения информационной и технологической безопасности автоматизированных систем управления на железнодорожном транспорте».

Степень разработанности проблемы

Теоретические аспекты диссертации, связанные с разработкой и использование графовых и нечетких моделей, методами формализации баз данных, методами извлечения знаний из слабоструктурированной и графовой информации, методами теории возможностей ранее рассматривались в работах С. Абитебула, К.Т. Атанассова, Л.С. Берштейна, П. Бунемана, Д. Дюбуа, К. Год-сила, Л. Заде, Э. Кодда, А. Прада, Э. Редмонда, Р. Снодграсса, П. Ченя, Р.К. Фана. Практические аспекты диссертации, связанные с разработкой и применением ряда методов и систем с интеллектуальной поддержкой принятия решений и моделированием систем в рассматриваемой области исследований ранее рассматривались в работах Бутаковой М.А., Ковалева С.М., Матюхина В.Г., Розенберга E.H., Шабельникова А.Н.

Целью диссертационной работы является разработка новых моделей и методов эффективной организации хранения и доступа к большим объемам информации и синтез на их основе хранилищ данных для новых типов автоматизированных систем управления (АСУ) с документо-ориентированной, слабоструктурированной и нечеткой информацией (с применением на железнодорожном транспорте).

Для достижения поставленной цели решаются следующие задачи:

1. Системный анализ объекта исследования (АСУ на железнодорожном транспорте), ориентированный на выявление источников слабоструктурированной и нечеткой информации, анализ принципов и теоретических методов построения хранилищ для такой информации, выявление практической необходимости совершенствования методов хранения и доступа к информации для объекта исследования.

2. Выбор и обоснование адекватности графовых моделей для эффективной организации хранилищ данных, разработка новых графовых моделей данных для синтеза хранилищ слабоструктурированной и нечеткой информации.

3. Решение задачи извлечения знаний из слабоструктурированной и нечеткой информации для обеспечения возможности её классификации и определения меры релевантности поиска запрашиваемой информации в хранилищах слабоструктурированной и нечеткой информации.

4. Применение разработанных методов на новых технологических платформах документо-ориентированных АСУ с распределенной и мобильной обработкой данных, решение задач, связанных с эффективными и автоматизированными преобразованиями хранилищ реляционной информации в хранилища предложенного графового вида.

Объектами исследований в диссертации являются новые классы АСУ верхнего управляющего уровня на железнодорожном транспорте, ориентированные на аналитическую обработку оперативных, статистических и сводных данных, поддержку принятия решений в управлении бизнес-процессами на железнодорожном транспорте, обеспечение электронного технологического

документооборота, управление распределенной инфраструктурой ОАО «РЖД». Методы исследования основываются на использовании фундаментальных исследований в области теории графов и их алгебраических и спектральных представлений, теории многоосновных нечетких множеств, теории реляционных и нечетких БД, теории возможностей, теории моделей. Предметом исследования являются методы формализации представлений слабоструктурированных и нечетких данных в графовом виде, методы извлечения знаний о структуре данных, математические модели нереляционных БД и имеющиеся массивы данных из ряда АСУ верхнего управляющего уровня на железнодорожном транспорте.

Объект, предмет и методы исследования отвечают формуле специальности 05.13.06, так как содержанием работы является разработка методов математического представления и алгоритмического обеспечения, повышения надежности и технической эффективности функционирования ИСУЖТ и соответствуют пунктам паспорта специальности: «8. Формализованные методы анализа, синтеза, исследования и оптимизация модульных структур систем сбора и обработки данных в АСУТП, АСУП, АСТПП и др.», «9. Методы эффективной организации и ведения специализированного информационного и программного обеспечения АСУТП, АСУП, АСТПП и др., включая базы и банки данных и методы их оптимизации.», «10. Методы синтеза специального математического обеспечения, пакетов прикладных программ и типовых модулей функциональных и обеспечивающих подсистему АСУТП, АСУП, АСТПП и др.», «15. Теоретические основы, методы и алгоритмы интеллектуализации решения прикладных задач при построении АСУ широкого назначения (АСУТП, АСУП, АСТПП и др.).»

Научная новизна работы заключается в теоретическом развитии методов теории двухосновных нечетких множеств, математических графовых моделей слабоструктурированных данных, математических моделей нечетко-слабоструктурированных данных, математических определений новых мер информационного подобия слабоструктурированной и нечеткой информации.

Основные научные результаты в перечисленной области заключаются в следующем:

1. Дано новое определение расширенного (двухосновного) нечеткого множества без вырожденных случаев в связи с введенными ограничениями на соотношение функций принадлежности и непринадлежности.

2. Для введенного нового определения расширенного нечеткого множества разработаны основные бинарные нечеткие отношения, подобно известным для одноосновных нечетких множеств.

3. Предложены графовые модели для основных неформализованных, однако практически используемых схем описания слабоструктурированных данных, которые широко используются в современных АСУ на железнодорожном транспорте.

4. Предложены три новые меры информационной релевантности для слабоструктурированной и нечеткой информации: 1) основанная на информационном подобии слабоструктурированных сущностей; 2) основанная на коррелированное™ отношений между слабоструктурированными сущностями; 3) основанная на расстоянии между двухосновными нечеткими множествами.

5. На базе предложенных новых мер информационной релевантности предложены новые методы извлечения знаний из слабоструктурированной и нечеткой информации, представленной в графовом виде.

6. Предложены методы автоматизации преобразования имеющихся массивов данных в АСУ на железнодорожном транспорте в графовые и ХМЬ-модели данных, более эффективные по критериям времени доступа и снижения избыточности.

Основные результаты, выносимые на защиту.

1. Определение нечеткого двухосновного расширенного множества, учитывающее ограничения вырожденных случаев операций над нечеткими двухосновными множествами (п.2.2 диссертации).

2. Формальные теоретико-множественные модели бинарных нечетких отношений для введенного нечеткого двухосновного множества (п. 2.2 диссертации).

3. Формальные графовые модели для трех практических описаний {OEM, RDF, XML) слабоструктурированной информации (п. 2.2 диссертации).

4. Формальная модель нечеткой слабоструктурированной графовой БД, являющаяся расширением известных реляционных моделей данных (п. 2.4. диссертации).

5. Мера релевантности для слабоструктурированной информации без условия её темпоральности, основанная на информационном подобии, и метод извлечения знаний с помощью этой меры и спектрального представления графа (п. 3.3 диссертации).

6. Мера релевантности для слабоструктурированной информации с условием её темпоральности, основанная на информационной коррелированное™ паттернов графового представления данных и метод извлечения знаний с помощью этой меры (п. 3.3 диссертации).

7. Мера релевантности для слабоструктурированной нечеткой информации, представляемой расширенными двухосновными нечеткими множествами и метод извлечения знаний с помощью этой меры и спектрального представления графа (п. 3.4 диссертации).

8. Метод преобразования массивов данных, представленных в реляционных таблицах АСУ на железнодорожном транспорте в графовые БД (п.4.2 диссертации).

9. Метод конвертирования нечетких моделей данных «сущность-связь» в нечеткие слабоструктурированные ^ML-описания и БД (п. 4.3. диссертации).

Теоретическая ценность диссертационного исследования заключается в разработке общих принципов и универсальных математических моделей, подходящих для широкого класса АСУ с условиями не транзакционной обработки слабоструктурированной и нечеткой информации. Эффективная организация хранилищ данных обусловлена снижением избыточности структур

данных и, соответственно, сокращением времени, затрачиваемого на поиск запрашиваемой информации.

Практическая значимость состоит в том, что разработанные в диссертации модели, методы и подходы внедрены в автоматизированных системах электронного технологического документооборота и управления инфраструктурой на железнодорожном транспорте в Ростовском ИВЦ - структурном подразделении Главного вычислительного центра, филиале ОАО «РЖД» и в учебном процессе ФГБОУ ВПО РГУПС, что подтверждено актами о внедрении.

Апробация результатов работы. Основные положения и результаты диссертации обсуждались и получили положительные отзывы на следующих международных научно-практических конференциях:

- IEEE Fifths International Conference on Intelligent Systems, Modeling and Simulation (/SMS 2014), Langkawi, Malaysia, 2014;

- Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах», г. Новочеркасск, 2012;

- XIV Международной научно-практической конференции «Современное состояние естественных и технических наук», г. Москва, 2014;

- X Международной научно-практической конференции «Наука вчера, сегодня, завтра», г. Новосибирск, 2014.

Публикации. Полученные в диссертации теоретические и практические результаты нашли свое отражение в 9 печатных работах, 5 из которых опубликованы в изданиях, рекомендованных ВАК РФ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературных источников из 110 наименований, заключения, приложения. Общий объем диссертации 144 страницы.

1 АНАЛИЗ ОБЪЕКТА ИССЛЕДОВАНИЯ И ПОСТАНОВКА ЗАДАЧИ

1.1 Классификация и назначение информационно-управляющих система на железнодорожном транспорте

Транспортные системы, в том числе и железнодорожный транспорт, играют важную роль в экономическом и социальном развитии других отраслей промышленности и всей нашей страны в целом. Доля железнодорожного транспорта в общем грузообороте России составляет 43,3% (с учетом трубопроводного транспорта), а в пассажирообороте более 31% [9] Для улучшения качества услуг, предоставляемых железнодорожным транспорто�