автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Интеллектуальные модели и комплексы программ обработки темпоральной информации в базах данных геодиагностических систем на железнодорожном транспорте
Автореферат диссертации по теме "Интеллектуальные модели и комплексы программ обработки темпоральной информации в базах данных геодиагностических систем на железнодорожном транспорте"
На правах рукописи
ДОЛГИЙ АЛЕКСАНДР ИГОРЕВИЧ
ИНТЕЛЛЕКТУАЛЬНЫЕ МОДЕЛИ И КОМПЛЕКСЫ ПРОГРАММ ОБРАБОТКИ ТЕМПОРАЛЬНОЙ ИНФОРМАЦИИ В БАЗАХ ДАННЫХ ГЕОДИАГНОСТИЧЕСКИХ СИСТЕМ НА ЖЕЛЕЗНОДОРОЖНОМ ТРАНСПОРТЕ
Специальности: 05 13 06 — Автоматизация и управление технологическими
процессами и производствами (на транспорте)
05 13.17 - Теоретические основы информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
003445В46
Ростов-на-Дону 2008
003445646
Работа выполнена в государственном образовательном учреждении высшего профессионального образования «Ростовский государственный университет путей сообщения» (РГУПС)
Научный руководитель доктор технических наук, профессор
Ковалев Сергей Михайлович
Официальные оппоненты доктор технических наук, профессор
Лябах Николай Николаевич
кандидат технических наук, профессор Тарасов Валерий Борисович
Ведущая организация Таганрогский технологический институт
Южного федерального университета (ТТИ ЮФУ), г. Таганрог
Защита диссертации состоится 24 сентября 2008 г в 15 00 на заседании диссертационного совета Д 218010 03 при Ростовском государственном университете путей сообщения по адресу 344038, г. Ростов-на-Дону, пл Ростовского Стрелкового Полка Народного Ополчения, 2, конференц-зал.
С диссертацией можно ознакомиться в библиотеке Ростовского государственного университета путей сообщения по адресу 344038, г Ростов-на-Дону, пл Ростовского Стрелкового Полка Народного Ополчения, 2
Автореферат разослан 12 августа 2008 г
Ученый секретарь
диссертационного совета Д 218 010 03 доктор технических наук, доцент
Бутакова М А
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы В последние годы на железных дорогах Российской Федерации наблюдается постоянный рост грузовых и пассажирских перевозок, что влечет за собой усиление требований к стабильности земляного полотна железнодорожного пути В этом плане определяющую роль играют оперативные диагностические мероприятия, прямым образом влияющие на реализацию превентивных мер по предотвращению деформаций рельсовой линии и достижению требуемой работоспособности железнодорожного пути
Диагностирование состояния зечпяного полотна железнодорожного пути включает массу мероприятий, основанных на геофизических методах, многие из которых базируются на традиционных технологиях сбора и обработки данных, что заметно ограничивает их возможности Повышение требований к оперативности, производительности, достоверности и качеству принимаемых решений обусловили перевод диагностических систем на новую информационную основу В частности, это касается развития методов диагностирования состояния земляного полотна железнодорожного пути на основе использования технологий георадиолокационного неразрушающего зондирования
На сегодняшний день такой подход удовлетворяет большинству предложенных требований, но главным его достоинством является наличие потенциальных возможностей интеллектуализации Под интеллектуализацией понимается извлечение полезных знаний из «сырых» георадиолокационных данных и автоматический вывод заключений о состоянии зондируемой среды, представленных в форме лингвистических экспертных оценок Процесс выявления знаний подразумевает анализ данных с целью получения знания, представленного в виде новых, полезных, доступных для понимания и пригодных для автоматической интерпретации образов в данных.
Многие проблемы, связанные с анализом данных, включают в себя темпоральные аспекты Наиболее распространенный вид темпоральных данных - временные процессы и ряды, в которых повторяющиеся наблюдения признаков порождают схожие по структуре последовательности данных. Особый класс временных процессов образуют слабо формализованные процессы, порожденные отраженными электромагнитными сигналами, распространяемыми в нелинейных средах Одной из ключевых проблем, возникающих при разработке систем выявления знаний, автоматической интерпретации и архивирования информации в системах диагностики, базирующихся на таких принципах, является проблема представления данных в информационных базах экспертно-диагностических систем
Развитие новых подходов к представлению информации в базах данных временных рядов (БД ВР), ориентированных на использование в геодиагностических системах, является необходимым условием на пути к
автоматизации процессов мониторинга и диагностаки железнодорожных объектов
Большой вклад в развитие интеллектуальных технологий и теоретических основ информатики внесли такие ученые как АН Аверкин, И 3 Батыршин, Л С Берштейн, Г И Белявский, В Н Вагин, А Н Гуда, А П Еремеев, В В Емельянов, А Н Каркшценко, С М Ковалев, В М Курейчик, Н Н Лябах, Г С Осипов, Э В Попов, Д А Поспелов, В Б Тарасов, В К Финн, В И Финаев, И Б Фоминых, Н Г Ярушкина и др
Большой вклад в развитие теории и практики георадиолокационной диагностики на железнодорожном пути и автомобильных дорогах внесли отечественные ученые Е С Ашпиз, В И Грицык, А Г Круглый, В В Помозов, Н П Семейкин, В А Явна и др
Цель работы Целью диссертационной работы является исследование и разработка новых методов формализации, выявления и представления знаний в базах данных временных рядов, с последующим и< использованием при выявлении и текстовом резюмировании аномалий в базах данных геодиагностических систем
Для достижения поставленной цели требуется решить следующие задачи
1 На основе комплексного анализа современных методов и средств извлечения знаний в БД ВР определить концепцию совершенствования средств автоматической обработки диагностической информации
2 Разработать методологию представления нечетко-определенных знаний в темпоральных базах данных, ориентированную на поддержку процессов текстового резюмирования в подсистемах лингвистического обеспечения АСУ ТП
3 Сформировать методологию оценки интерпретационной пригодности и эффективности работы моделей представления и текстового резюмирования нечетких темпоральных знаний в БД ВР
4 Адаптировать статические алгоритмы выявления знаний к процедурам поиска нечетких темпоральных знаний, представленных в форме текстовых резюме
5 Разработать методы извлечения и текстового резюмирования знаний в БД геодиагностических систем с целью автоматизации процесса интерпретации георадиолокационной информации
Методы исследования Для решения поставленных задач использовались следующие методы исследований, элементы темпоральной логики, методы теории множеств и нечетких множеств, методы теории графов, элементы теории эволюционного моделирования, методы цифровой обработки временных сигналов
Научная новизна Научная новизна диссертационной работы заключается в следующем
1 На основе общесистемных принципов организации человеческого мышления и речевой коммуникации впервые разработана формализованная методология оценки адекватности и интерпретационной пригодности
моделей представления нечетких темпоральных знаний в базах данных интеллектуальных информационно-диагностических систем
2 На основе предложенной методологии оценки эффективности представления знаний разработана иерархическая модель представления нечетко-определенных знаний в темпоральных базах данных, удовлетворяющая критериям интерпретационной пригодности и ориентированная на поддержку процессов текстового резюмирования в подсистемах лингвистического обеспечения специализированных АСУ ТП
3. Разработаны алгоритмы и программы поиска нечетких темпоральных знаний в базах данных временных рядов, основанные на концепциях эволюционного моделирования и «априори-поиска», позволяющие выявлять элементы знаний в текстовой форме, пригодной для непосредственного использования в подсистемах лингвистического обеспечения автоматизированных информационно-диагностических систем
4 Разработан комплекс алгоритмов и программ для автоматического поиска темпоральных знаний в темпоральных базах данных геодиагностических систем и их лингвистической интерпретации в организационно-технологической системе диагностирования состояния земляного полотна железнодорожного пути
Практическая ценность Практическая ценность диссертационной работы заключается в следующем.
1 Разработанная иерархическая модель представления нечетких темпоральных знаний в БД ВР, ориентирована на использование в различных поисковых системах, системах архивации данных, подсистемах лингвистического обеспечения и текстового резюмирования данных
2 Разработана методология оценки эффективности моделей представления нечетких темпоральных знаний в БД ВР, нашедшая применение при разработке широкого класса систем интеллектуального анализа темпоральной информации
3 Формализованы темпоральные признаки, выступающие в качестве базовых примитивов экспертного инструментария при создании программных средств автоматической интерпретации георадиолокационной информации
4 Реализован программный комплекс автоматического профилирования и интерпретации георадиолокационных данных «СсоЯа11\уау+», позволяющий формировать подробное и наглядное заключение о состоянии балластного слоя и в разы сокращающий время обработки информации в БД геодиагностических систем (ГДС)
Достоверность и обоснованность Достоверность и обоснованность научных положений, выводов и результатов, сформулированных в диссертации, подтверждается доказательством утверждений, результатами вычислительных экспериментов на практических и модельных задачах, публикациями и докладами на научно-практических конференциях, а также актами внедрения результатов работы
Реализация результатов работы Предложенные алгоритмы выявления нечетких темпоральных признаков и представления знаний в БД ГДС были
реализованы в программном комплексе автоматического профилирования и интерпретации георадиолокационных данных «GeoRailway+», разработанного согласно плану НИОКР Департамента пути и сооружений ОАО «РЖД» на тему «Разработка технологии и программно-технического комплекса для скоростной диагностики состояния балластной призмы методом георадиолокации», в 2007-2008 гг
Апробация Апробация основных теоретических и практических результатов работы проводилась на научных семинарах кафедр «Автоматика и телемеханика на железнодорожном транспорте» и «Физика» (с 2005 по 2008 гг , РГУПС), Шестом всероссийском симпозиуме по прикладной математике в 2005 г, международных научно-практических конференциях «Инженерная геофизика 2006», «Инженерная и рудная геофизика 2007», «Инженерная и рудная геофизика 2008» (Геленджик, 2006-2008 гг )
Публикации По теме диссертационной работы опубликовано 11 печатных работ, в том числе 7 работ опубликованы в изданиях, входящих в перечень ведущих рецензируемых научных журналов и изданий ВАК
Структура и объем работы Диссертация состоит из введения, четырех глав, общих выводов и списка литературы и приложения Общий объем работы составляет 192 страницы машинописного текста, 54 рисунка, 11 таблиц Список литературы включает 103 наименования отечественных и зарубежных авторов
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертационной работы, сформулированы цели, дано общее описание выполненной работы
В первой главе выполнен комплексный анализ об ьекта исследования -баз данных временных рядов, включая хранилища геодиат иостических данных, методы и модели поддержки извлечения знаний из баз данных
В процессе анализа произведена комплексная классификация различных принципов построения современных БД, определены основные проблемы, стоящие перед разработчиками соврем« нных программных средств СУБД, а именно постоянно растущие объемы БД и необходимость совершенствования существующих технологий извлечения знаний и адаптации их к решению частных задач Рассмотрены ос новные задачи, фазы и этапы процесса Knowledge Discovery in Databases (KDD), описана типовая архитектура его программной реализации, а также приведены примеры существующих систем KDD, базирующихся на различных вычислительных инструментариях
Руководствуясь интересами автора в области геодиагностики, обоснована необходимость интеллектуализации процесса анализа получаемых диагностических данных Определена базовая концепция формирования экспертных заключений о состоянии объектов диагностирования по средствам текстовых резюме На основании этого описана методика формирования баз знаний (БЗ) IДС основываясь на
лингвистических описаниях отраженных электромагнитных сигналов на примере гранулирования осей направления временных рядов и степени выпуклости-вогнутости функций
Во второй главе предложена новая иерархическая модель представления нечетко-темпоральных знаний, опирающаяся на адекватное обобщение существующих методов формализации темпоральных отношений
Разработанная иерархическая модель представления нечетких темпоральных образов включает три уровня, позволяющих представить в модели все основные темпорально-логические концепты данных Первый, нижний уровень представлен темпоральными образами нечетких событий и отражает темпорально-логический концепт нечеткой продолжительности Второй уровень представлен нечеткими темпоральными отношениями и отражает два основных темпоральных концепта одновременности и очередности, описывающих координацию нечетких событий во времени Третий, верхний уровень модели представлен нечетко-темпоральными структурами, объединяющими образы событий и отношений в единый нечетко-темпоральный образ
Предложен подход к формализации нечетких темпоральных признаков в виде семиотических кортежей-двоек, обеспечивающий возможность унификации систем нечетких темпоральных признаков, а также их алгоритмическую, синтаксическую и семантическую поддержку в процессе выявления знаний Для описания синтаксиса образов используется конечное множество меток А = {Я,}, а для описания семантики - множество нечетких характеристических функций Ф = {Фг Х-»[0,1]}, где £ - конечное множество всех временных интервалов на дискретной временной шкале Т
Первый уровень модели представлен образом нечеткого темпорального ПРИЗНАКА (НТП)
РТ =< Л,ф% >,
где Я е Д - метка, обеспечивающая текстовое описание образа, Фх е Ф -характеристическая функция выраженности признака на данном временном интервале
Второй уровень представлен образом ОТНОШЕНИЯ, в основу определения которого положено обобщение темпоральных отношений Алена на случай нечетких событий
Нечетким темпоральным образом ОТНОШЕНИЯ называется двойка <р=<д,**д^,/л1р> еФ),
где (р = ц,П* - название отношения, п* е ИТ, ИТ - множество временных отношений Алена, - нечеткая характеристическая функция образа,
указывающая на наличие во ВР У нечеткого темпорального отношения <р между событиями ц, и </7, определяемая на основе выражения
А* (АО = вир {М,, (/(?,))& МЯ1(Д<7,))//(?,) С А', 1{я,) С )п* ЦЧ,}, (1)
где I(q,) - темпоральная интерпретация признака q,
Истинность нечетко-темпорального отношения <р = q, rt* qj на интервале At определяется как величина, равная максимальному значению истинности по всем возможным интерпретациям данного отношения на интервале At
Для упрощения процедуры вычисления характеристической функции нечетко-темпорального отношения предлагается подход, основанный на сведении нечетких интервальных отношений, использу емых в критерии (1), к эквивалентной форме представления через отношения между граничными точками интервалов
Граничные точки нечетких интервалов определяются с помощью нечетких характеристических функций-маркеров F„(t) и Fk(t) Тогда нечеткая характеристическая функция НТП определится через характеристические функции его граничных точек как
,",(['„ (Л) = & МО (2)
Логическое условие, которому должны удовлетворять граничные точки интервалов L находящихся в отношении rt* при их проецировании
на шкалу Т, формализовано следующим образом
=1 0 = Ь .и),
где tj (j = 1,2, ,к) - образы граничных точек интервалов [C>'iM',f>'Л' спроецированные на временную шкалу Т и упорядоченные в соответствии с семантикой отношения rt*
4
Выражение Fr, >{th t2, J к) = & F:J (t t) называется функтором отношения
rt*
Используя понятие функтора, факт наличия отношения a rt* ¡3 на интервале [/s, te] формально описывается как
art*j3<^(3ti <t, <t2 <tk <te), F„.(/,,i2> ,ft) = l,(*S4) (3) Опираясь на условие (2), характеристическую функцию темпорального отношения art* р можно выразить через функтор
мЛ*.>1.))= max F„.(i,,/2, ,tk) (А < 4) (4)
/v</!</2</3<M</t
Имеет место следующее
Утверждение Для любых НТП a, fi е Q , характеристические функции которых удовлетворяют условию (2), определения характеристических функций (1) и (4) являются эквивалентными
На основе приведенного утверждения предложен более простой по сравнению с «переборной» формулой (1) способ вычисления характеристических функций, опираясь на принцип ДП-программирования, имеющий квадратичную оценку сложности
В общем случае, образ нечеткого темпорального ОТНОШЕНИЯ на интервале т допускает дизъюнктивную форму представления
Дизъюнктивным нечетко-темпоральным образом ОТНОШЕНИЯ (НД-образ) называется двойка
<Р=<Я, {rl„,rt,2, ,rllk}qj),Mr> К, бД7\^„еФ), где q, {rtñ,rtn, 'rtik)4¡ ~ название отношения, - нечеткая
характеристическая функция НД-образа, характеризующая возможность нахождения НТП q„ qj в нескольких отношениях
Характеристическая функция НД-образа определена на основе выражения-
/V(r) = /4(r)v//„;¡(r)v
Третий уровень иерархической модели представлен нечетким темпоральным образом СТРУКТУРА (НТС), характеризующим наличие нескольких нечетко-темпоральных отношений на заданном временном интервале
Нечетко-темпоральным образом СТРУКТРА называется двойка"
W =< w,f¿v>,
где w - название структуры, Ц,р - нечеткая характеристическая функция, указывающая на наличие нескольких образов ОТНОШЕНИЙ на заданном временном интервале, определяемая на основе выражения
где 1 - нечеткие характеристические функции образов ОТНОШЕНИЙ, входящих в структуру
Образ СТРУКТУРЫ позволяет отражать более специализированные знания, включающие большее число различных нюансов о временном взаимодействии НТП в структуре исследуемого ВР, нежели просто образ ОТНОШЕНИЯ Поэтому данный тип образа выбран в качестве универсального средства представления нечетких темпоральных знаний о структуре ВР, позволяющего отразить в нем все темпоральные аспекты знаний.
Рассматривается техника оперирования £-срезами нечетко-темпоральных структур на основе их представления в виде конъюнктивно-дизъюнктивных форм (КД-формы), применяемых в темпоральной логике для описания неопределенных отношений
В заключении второй главы проведено исследование по оценке эффективности предложенного класса иерархических моделей (HFTI-моделей), опираясь на критерии, затрагивающие аспекты выразительности и интерпретационной пригодности моделей представления знаний. В качестве объектов сравнения рассматривается TSKR-методология, UTG-методология, НТВ-модели и специальный класс рекурсивных моделей (RFT-моделей) Результаты проведенного анализа сведены в таблице 1 Строки таблицы соответствуют отдельным концептам критериев выразительности и интерпретационной пригодности, а столбцы - типам моделей Крестики
проставлены в столбцах напротив тех концептов, которые отражены в соответствующих моделях
Таблица 1
Сравнительные оценки моделей представления темпоральных образов
ТЭКЛ и ТС НТВ ИР НРТ1
Выразительность Концепт нечеткости + + +
Концепт продолжительности + + +
Концепт одновременности + + + +
Концепт очередности + + + + +
Интерпретационная пригодность Концепт количества + +
Концепт качества + + + + +
Концепт манерности + +
Анализ показал, что главными недостатками ЯР и итв-моделей является их плохая выразительность, однако эти модели в наилучшей мере удовлетворяют концепту манерности Основным недостатком НТВ-моделей является их плохая интерпретационная пригодность, что выражено только в удовлетворении одному из трех концептов интерпретационной пригодности Иерархическая структура ТЭКЯ и НРТЬмоделей обеспечивает лучшие показатели по сравнению с другими моделями, однако НРТ1-модели являются более предпочтительными по критерию выразительности, поскольку позволяют в отличие от Т8КЯ-моделей удовлетворить концепту нечеткости
В третьей главе разработана общая схема выявления знаний в БД ВР представленных в виде НРТ1-образов, а также методика вычисления характеристических функций Для поиска частных модификаций нечетких темпоральных структур предложены адаптированные алгоритмы выявления знаний на основе методов «априори» и генетического поиска
Общая поисковая схема (рис 1) состоит из пяти этапов, охватывающих все основные операции, связанные с предобработкой и постобработкой темпоральных данных
На примере георадиолокационных данных приведены основные процедуры препроцессинга, такие как бинаризация, аст'ктирование и описание радарограммы языком трендовых шейпов На концептуальном уровне рассмотрены возможные варианты методов нахождения трендовых и шейповых НТП, используемые при поиске знаний в БД ГДС
о © © © ©
ПЮТ;*>!к-ы:>1>11 Н(МгГК^Д'мпо(И.1И!ис гк'ьодугсшорашю« Мскк^темн^яьпм^ П|ВДИЛ1 пчпинедиии
Рис. 1. Общая схема поиска знаний
Далее рассматриваются процедуры вычисления характеристических функций, являющиеся базовыми в решении всех поисковых задач.
Предложен метод вычисления характеристических функций нечетко-темпоральных структур последовательного вида, основанный на идеях ДП-программирования путем представления НТП в виде последовательности граничных точек, доставляющих максимум функционалу Ф„.(/, ,/2..... ) .
При практической реализации поисковых алгоритмов в БД ВР нечеткие темпоральные образы представляются в виде КД-форм, являющихся г-срезами нечетких образов. В основе предлагаемого подхода к определению е-срезов нечетких темпоральных образов лежит идея анализа временных соотношений между интервалами, полученными путем проецирования на временную ось е-срезов граничных точек темпоральных событий, входящих в описание образа. Если при заданном пороге а в нечетко-темпоральном образе ОТНОШЕНИЯ требуется выявить весь £-срез отношений, то для этого достаточно на основе пересечений граничных г-интервалов, входящих в данный образ событий, сформировать все возможные соотношения между временными отсчетами, пересекаемых граничных интервалов и включить в е-срез соответствующие им темпоральные отношения. Данная процедура реализуется средствами булевой алгебры, для этого необходимо:
1) всем возможным пересечениям граничных интервалов )п сопоставить дизъюнкции
ограничений, порождаемых этими пересечениями;
2) взять конъюнкцию всех сформированных в п.1) дизъюнктивных ограничений, в результате чего получить конъюнктивно-дизъюнктивную форму Ф„.(«*);
3) путем раскрытия скобок в Ф£ (/'*), получить все возможные соотношения между граничными точками интервалов и сформировать из них множество ограничений Гс(п*);
4) выбрать в Г,(г/*) все допустимые по семантике темпоральных
отношений ограничения и из соответствующих темпоральных отношений сформировать е-срез нечетко-темпорального образа
Далее рассмотрен метод извлечения темпоральных структур
последовательного вида, представленных в форме выражений
(( (Я,«*, Л2) п*г А3) Ак), где П*еЯТР, ЛТР - подмножество
тепморальных отношений Алена, включающее семь прямых отношений Элементарные события А представлены в виде троек <А, (е >, где А&<2, тип НТП, и, - начальное и конечное время (номера трасс) интервала радарограммы проявления НТП типа А В основе работы настоящего алгоритма лежит концепция «априои-поиска» в сочетании с процедурами хеширования
Для работы с большими БД НТП предложен метод поиска НТС частного вида (4 г/*, Л2п*2 А„) п\ п*к_г{Ак^п*^ А,_„ Л), где гГ*еЯ7Т, ЯТТ-
подмножество тепморальных отношений Алена, включающее три следующих отношения- тп (СТЫК), Пб (СЛЕДОВАНИЕ), Пе (СОВПАДЕНИЕ), основанного на использовании концепций эволюционного моделирования
Извлекаемые частные структуры НТС представляются в лингвистической форме, удобной для непосредственного использования в системах текстового резюмирования, например, (событие А во время события Б) перед событием В
В четвертой главе для предложенных ранее моделей и методов выявления знаний описаны результаты их практического использования в задачах автоматического анализа состояния земляного полотна железнодорожного пути на основе георадиолокационных данных (ГД)
Теоретической основой методологии интерпретации ГД является интеллектуальная модель выявления нечетких темпоральных признаков в БД ГДС с последующим текстовым резюмированием В ьачестве базовых НТП (рис 2) в предложенной модели используются.
- НТП ТРЕНД (НТПТ), характеризующий «поведение» линий синфазности (ЛС), посредством лингвистических значений «спад», «подъем», «ровно» и «хаос», присваиваемых согласно системе нечетких правил, описывающих связь между количеством ЛС и значениями их тренда, с одной стороны, и типом самого тренда, с другой, например «Если количество тупых углов мало, количество острых углов велико и количество прямых углов немало, значит НТПТ- спад»
- НТП КРУТИЗНЫ (НТПКр) описывает среднюю степень отклонения ЛС от горизонтального положения. Данный признак песет детализирующую информацию, повышающую полноту описания НТПТ за счет использования дополнительных термов «Резкий», «Плавный»
- НТП СТРУКТУРЫ (НТПС) характеризует целостность фрагмента радарограммы через характер ЛС, имеет два значения - «целостный», «нецелостный» - отражающих среднюю степень целостности слоев в теле земляного полотна
- НТП КОЛИЧЕСТВО (НТПК) детализирует информацию о количестве обнаруженных ЛС и, по мнению экспертов, служит одним из индикаторов наличия в земтяном полотне переувлажненного грунта В нем используются нечеткие термы «Большое», «Среднее», «Малое»
А СПАД }-,
. НТПКр
НТПК
-Г
РЕЗКИИ ' [
Ц ПЛАВНЫЙ
1Г
ровно Ь
■У
ПОПЪРМ
НТПКр
' РЕЧКИИ | 1]
плавный| ? т. ? ✓ 4
Рис. 2 Иерархическая система НТП
При выявлении и формализации НТП важную роль играет выбор масштаба временной шкалы, на которой оценивается значение НТП Один и тот же фрагмент ВР может восприниматься экспертом по разному, следовательно, при формализации НТП необходимо выработать единый критерий выбора масштаба В качестве такого критерия предложено использовать устойчивость оценок к масштабным изменениям
Основой оценивания НТП являются специальные системы правил, регулирующие приоритет тех или иных значений НТП Например, значения основного НТП ТРЕНД определены в соответствии со следующими правилами
- при равных значениях НТПТ на соседних подинтервалах,
П, Р, X}) где С - СПАД, П - ПОДЪЕМ,
Р - РОВНО, X - ХАОС (то есть, значение НТП на большем интервале повторяет значения на меньших подинтервалах),
- при неравных значениях НТПТ на соседних подинтервалах,
(г,) & />(г,+1) V Гг (г,) & Ь (тп1) => /V (г.), (Г, ) & ^ <Г,41 ) V ^ (Г, ) & (Г„, ) =» (г„ X ^ (г,) & Еп <г„,) V (г,) & Гс (г1+1) => /ч (г.)
Особую категорию НТП представляет НТП КОНТРАСНОСТИ, для формализации которого используется процедура фаззификации параметров преобразования Хафа, применяемого к фрагментам ВР, характеризующим отдельные временные интервалы радарограмм НТП КОНТРАСНОСТИ определяется на основе оценки поведения временного процесса, отражающего динамику перемещения зон пересечения параметрических кривых на плоскости Хафа при монотонном изменении контрастности Номинальное значение
признака определяется путем фаззификации величины производной, характеризующей эту динамику
После извлечения из БД ГДС всех содержащихся в ней НТП, применяется процедура формирования предложений, описывающих текущий георадиолокационный процесс, то есть интеграция НТП в форме текстовых резюме Ниже приведен практический пример текстового резюме фрагмента радарограммы
«С 1 по 350 трассы наблюдается среднеслойная горизонтальная среда целостной структуры С 325 по 500 трассы обнаружена балластная просадка с начальной глубиной деформации около 1 метра В ней, начиная с 325 по 375 трассы, наблюдается среднеслойная среда с нерезким спадом, с 375 по 400 трассы наблюдается малослойная горизонтальная среда нерегулярной структуры, с 400 по 500 трассы наблюдается среднеслойная среда с нерезким подъемом С 500 по 1000 трассы наблюдается среднеслойная горизонтальная среда целостной структуры»
Далее рассмотрен комплексный подход к оценке интерпретационной пригодности моделей обобщения и текстового резюмирования данных в интеллектуальных системах автоматической интерпретации БД ГДС, основанный на разработанной методологии оценки моделей представления нечетко-определенных знаний В основу предложенного подхода положены два критерия Первый основан на сравнении результатов, полученных в процессе экспертного оценивания с результатами работы формальной модели Второй -на принципах разговорной кооперации Герберта Пола Грайса, а именно- принцип качества Извлечение НТП осуществляется с использованием параметрического преобразования Хафа, так как при интерпретации радарограмм основной информацией являются общие тенденции поведения ЛС, а не положения конечных точек временного ряда (например, при использовании простой интерполяции),
- принцип количества Предложенная система формализованных НТП является информативно безызбыточной и составляет часть базового экспертного инструментария, используемого при интерпретации радарограмм;
- принцип манерности Наличие двух вариантов текстовых резюме с различной степенью детализации, предназначенных для различных групп пользователей (эксперты и операторы),
- принцип способа В формируемых текстовых резюме, допускается возможность использования как прямых, так и исключающих признаков для целей более компактного выражения смысла без потери точности
В РГУПСе, в рамках плана выполняемой НИОКР Департамента пути и сооружений ОАО «РЖД» на тему «Разработка технологии и программно-технического комплекса для скоростной диагностики состояния балластной призмы методом георадиолокации», в 2007-2008 гг был спроектирован и реализован программный комплекс автоматического профилирования и интерпретации георадиолокационных данных «СеоКа1К\1у+» (рис 3)
Программный комплекс «Оео11а11\уау+» позволяет формировать более подробные и наглядные заключения о состоянии балластного слоя, а также
исключать пропуск деформаций слоев земляного полотна железнодорожного пути по причине человеческого фактора.
Рис. 3. Пример работы программного комплекса «ОеоКаИ\\<ау+» на участке Северо-Кавказской железной дороги с антенным блоком АБ-400 в пошаговом режиме
В заключении изложены основные выводы и результаты ^ диссертационной работы.
| ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
В ходе выполнения диссертационной работы получены следующие основные результаты:
1. На основе анализа практических проблем и существующих подходов к выявлению темпоральных знаний и формирования БЗ разработана
I иерархическая модель представления нечтко-определенных знаний в ! темпоральных базах данных, ориентированная на поддержку процессов текстового резюмирования в подсистемах лингвистического обеспечения АСУ ТП.
2. Разработана методология оценки эффективности моделей представления нечетких темпоральных знаний в БД ВР, основанная на формализации критериев выразительности и интерпретационной пригодности, опираясь на общепринятые принципы человеческой коммуникации и организации человеческого мышления. Элементы данной методологии нашли применение в комплексном подходе к оценке работы модели текстового резюмирования БД ГДС.
3. В рамках разработанной НРТ1-модели представления нечетких темпоральных образов, предложена формализованная схема выявления нечетких темпоральных знаний в БД ВР.
4 Рассмотрен подход и алгоритм вычисления характеристических функций нечетких темпоральных образов, а также предложены алгоритмы поиска частных НТС, основанные на концепциях эволюционного моделирования и «априори-поиска», позволяющие выяв тять элементы знаний в текстовой форме
5 Разработана модель текстового резюмирования темпоральных данных в БД ГДС, на основе которой, в рамках плана НИОКР 2007-2008 гг, был спроектирован и реализован программный комплекс автоматического профилирования и интерпретации георадиолокационных данных «Сео11а11\¥ау+»
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИОННОЙ РАБОТЫ
1. Долгий А И, Ковалев С.М Модель представления и обработки нечетко-временной информации о последовательных событиях в слабо формализованных динамических процессах // Перспективные информационные технологии и интеллектуальные системы -Таганрог Изд-во ТРТУ, 2004 (19) -С 77-79.
2 Долгий А И Идентификация неоднородностей почвенных покровов на основе алгоритмов распознавания // Сборник тезисов докладов 64-й студенческой научно-практической конференции - Ростов н/Д Изд-во РГУПС, 2005 -С. 6
3. Долгий А И, Ковалев С М Гибридная нечетко-динамическая модель анализа отраженных сигналов георадара в неоднородной среде // Обозрение прикладной и промышленной математики Т 12 Вып2 -2005 -С 386
4 Долгий А И, Ковалев С М, Хатламаджиян А Е Модель локализации неоднородностей в георадиолокационных данных на основе нейросетей Кохонена // Известия ТРТУ Тем вып «Инт еллектуальные САПР» -Таганрог. Изд-во ТРТУ, 2006 -№8 -С 180-186
5 Долгий А И , Ковдус В В , Явна В А Программно-аппаратное профилирование балластной призмы и основной площадки земляного полотна II Тезисы докладов второй международной научно-практической конференции «Инженерная геофизика-2006».-Геленджик, 2006 - С 72-73
6 Долгий А И, Хатламаджиян А Е Модель локализации и определения характера деформаций в горизонтально-слоистой среде земляного полотна на основе искусственной нейронной сети и преобразования Хафа // Известия ТРТУ Тем вып «Актуальные проблемы производства и потребления электроэнергии». - Таганрог-Изд-во ТРТУ, 2006 -№15 -С 232-235
7 Долгий А И, Хатламаджиян А Е Модель интерпретации деформаций в балластной призме и основной площадке земляного полотна// Тезисы докладов третьей международной научно-практической конференции «Инженерная и рудная геофизика - 2007» - Геленджик, 2007 - С 139-141
8 Долгий А И, Хатламаджиян А Е Гибридна 1 модель интерпретации деформаций в балластной призме и основной площадке земляного полотна на
основе целевого преобразования Хафа и нейронной сети Кохонена // Известия ЮФУ Технические науки Тем вып «Интеллектуальные САПР» - Таганрог Изд-во ЮФУ, 2007 -№2 -С 180-186
9 Долгий А И Программный комплекс автоматического профилирования и сегментной интерпретации георадиолокационных данных «ОеоЯа1^ау+»// Вестник РГУПС, 2008 -№1 -С 30-37
10 Долгий АИ, Хатламаджиян АЕ, Окост МВ Программный комплекс автоматического анализа георадиолокационных данных «ОЕОКАПЛ\'АУ+» // Тезисы докладов четвертой международной научно-практической конференции «Инженерная и рудная геофизика - 2008» -Геленджик, 2008
11 Долгий А И Комплексный подход к оцениванию интерпретационной пригодности систем текстового резюмирования баз данных геодиагностических систем // Вестник РГУПС, 2008 - №1 - С 53-57
Долгий Александр Игоревич
ИНТЕЛЛЕКТУАЛЬНЫЕ МОДЕЛИ И КОМПЛЕКСЫ ПРОГРАММ ОБРАБОТКИ ТЕМПОРАЛЬНОЙ ИНФОРМАЦИИ В БАЗАХ ДАННЫХ ГЕОДИАГНОСТИЧЕСКИХ СИСТЕМ НА ЖЕЛЕЗНОДОРОЖНОМ ТРАНСПОРТЕ
Автореферат диссертации на соискание ученой степени кандидата технических наук
Подписано к печати Формат 60x84/16
Бумага офсетная Печать офсетная Уел печ л 1,4
Уч.-издЛ 1 Тираж 100 Заказ № ■№59.
Ростовский государственный университет путей сообщения Ризография РГУПС
Адрес университета 344038, г Ростов-на-Дону, ил Ростовского Стрелкового полка Народного Ополчения, 2
Оглавление автор диссертации — кандидата технических наук Долгий, Александр Игоревич
ВВЕДЕНИЕ.
ГЛАВА 1. ТЕХНОЛОГИИ ИЗВЛЕЧЕНИЯ ЗНАНИЙ В БАЗАХ ДАННЫХ ВРЕМЕННЫХ РЯДОВ. СОСТОЯНИЕ ПРОБЛЕМЫ.
1.1 Извлечение знаний в базах данных: основные термины, процессы и типовая архитектура программной реализации.
1.2 Классификация задач и примеры моделей извлечения знаний в базах данных.
1.3 Проблемы диагностирования и извлечения знаний в диагностических базах данных.
1.4 Лингвистические модели представления темпоральных знаний в базах данных временных рядов.
1.5 Выводы.
ГЛАВА 2. МОДЕЛИ ПРЕДСТАВЛЕНИЯ НЕЧЕТКО-ТЕМПОРАЛЬНЫХ ЗНАНИЙ В БАЗАХ ЗНАНИЙ ВРЕМЕННЫХ РЯДОВ.
2.1 Представление темпоральных и нечетко-темпоральных образов во временных рядах.
2.2. Методы формализации нечетких событий в иерархической модели представления нечетких темпоральных образов временных рядов.
2.3. Методы формализации отношений и структур в иерархической модели представления нечетких темпоральных образов временных рядов
2.4. Комплексная методология оценки адекватности и интерпретационной пригодности иерархической модели представления нечетких темпоральных образов BP.
2.5. Выводы.
ГЛАВА 3. АВТОМАТИЗАЦИЯ ПРОЦЕССОВ ВЫЯВЛЕНИЯ НЕЧЕТКИХ ТЕМПОРАЛЬНЫХ ЗНАНИЙ В БАЗАХ ДАННЫХ ВРЕМЕННЫХ РЯДОВ
3.1. Общая схема выявления знаний в БД BP.
3.2. Вычисление характеристических функций и поиск нечеткотемпоральных образов по прототипу.
3.3 Поиск нечетко темпоральных образов в БД ГДС на основе алгоритма «априори».
3.4 Поиск нечетко темпоральных образов в БД ГДС на основе генетического алгоритма.;.
3.5 Выводы.
ГЛАВА 4. АВТОМАТИЗАЦИЯ ПРОЦЕССОВ ТЕКСТОВОГО РЕЗЮМИРОВАНИЯ НА ОСНОВЕ ВЫЯВЛЕНИЯ НЕЧЕТКИХ ТЕМПОРАЛЬНЫХ ПРИЗНАКОВ ИЗ ГЕОДИАГНОСТИЧЕСКИХ ДАННЫХ
4.1 Георадиолокационный метод как средство геофизического мониторинга.
4.2 Интеллектуальные модели выявления нечетких темпоральных признаков в БД ГДС.
4.3 Оценивание интепретационной пригодности систем текстового резюмирования БД ГДС.
4.4 Выводы.
Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Долгий, Александр Игоревич
Актуальность работы. В последние годы на железных дорогах Российской Федерации наблюдается постоянный рост грузовых и пассажирских перевозок, что влечет за собой усиление требований к стабильности земляного полотна железнодорожного пути. В этом плане определяющую роль играют оперативные диагностические мероприятия, прямым образом влияющие на реализацию превентивных мер по предотвращению деформаций рельсовой линии и достижению требуемой работоспособности железнодорожного пути.
Диагностирование состояния земляного полотна железнодорожного пути включает массу мероприятий, основанных на геофизических методах, многие из которых базируются на традиционных технологиях сбора и обработки данных, что заметно ограничивает их возможности. Повышение требований к оперативности, производительности, достоверности и качеству принимаемых решений обусловили перевод диагностических систем на новую информационную основу. В частности, это касается развития методов диагностирования состояния земляного полотна железнодорожного пути на основе использования технологий георадиолокационного неразрушающего зондирования.
На сегодняшний день такой подход удовлетворяет большинству предложенных требований, но главным его достоинством является наличие потенциальных возможностей интеллектуализации. Под интеллектуализацией понимается извлечение полезных знаний из «сырых» георадиолокационных данных и автоматический вывод заключений о состоянии зондируемой среды, представленных в форме лингвистических экспертных оценок. Процесс выявления знаний подразумевает анализ данных с целью получения знания, представленного в виде новых, полезных, доступных для понимания и пригодных для автоматической интерпретации образов в данных.
Многие проблемы, связанные с анализом данных, включают в себя темпоральные аспекты. Наиболее распространенный вид темпоральных данных - временные процессы и ряды, в которых повторяющиеся наблюдения признаков порождают схожие по структуре последовательности данных. Особый класс временных процессов образуют слабо формализованные процессы, порожденные отраженными электромагнитными сигналами, распространяемыми в нелинейных средах. Одной из ключевых проблем, возникающих при разработке систем выявления знаний, автоматической интерпретации и архивирования информации в системах диагностики, базирующихся на таких принципах, является проблема представления данных в информационных базах экспертно-диагностических систем.
Развитие новых подходов к представлению информации в базах данных временных рядов (БД BP), ориентированных на использование . в геодиагностических системах, является необходимым условием на пути к автоматизации процессов мониторинга и диагностики железнодорожных объектов.
Большой вклад в развитие интеллектуальных технологий и теоретических основ информатики внесли такие ученые как А.Н. Аверкин, И.З. Батыршин, JI.C. Берштейн, Г.И. Белявский, В.Н. Вагин, А.Н. Гуда, А.П. Еремеев, В.В. Емельянов, А.Н. Каркищенко, С.М. Ковалев, В.М. Курейчик, Н.Н. Лябах, Г.С. Осипов, Э.В. Попов, Д.А. Поспелов, В.Б.Тарасов, В.К. Финн, В.И. Финаев, И.Б. Фоминых, Н.Г. Ярушкина и др.
Большой вклад в развитие теории и практики георадиолокационной диагностики на железнодорожном пути и автомобильных дорогах внесли отечественные ученые Е.С. Ашпиз, В.И. Грицык, А.Г. Круглый, В.В Помозов, Н.П. Семейкин, В.А. Явна и др.
Цель работы. Целью диссертационной работы является исследование и разработка новых методов формализации, выявления и представления знаний в базах данных временных рядов, с последующим их использованием при выявлении и текстовом резюмировании аномалий в базах данных геодиагностических систем.
Для достижения поставленной цели требуется решить следующие задачи:
1. На основе комплексного анализа современных методов и средств извлечения знаний в БД BP определить концепцию совершенствования средств автоматической обработки диагностической информации.
2. Разработать методологию представления нечетко-определенных знаний в темпоральных базах данных, ориентированную на поддержку процессов текстового резюмирования в подсистемах лингвистического обеспечения АСУ ТП.
3. Сформировать методологию оценки интерпретационной пригодности и эффективности работы моделей представления и текстового резюмирования нечетких темпоральных знаний в БД BP.
4. Адаптировать статические алгоритмы выявления знаний к процедурам поиска нечетких темпоральных знаний, представленных в форме текстовых резюме.
5. Разработать методы извлечения и текстового резюмирования знаний в БД геодиагностических систем с целью автоматизации процесса интерпретации георадиолокационной информации.
Методы исследования. Для решения поставленных задач использовались следующие методы исследований: элементы темпоральной логики, методы теории множеств и нечетких множеств, методы теории графов, элементы теории эволюционного моделирования, методы цифровой обработки временных сигналов.
Научная новизна. Научная новизна диссертационной работы заключается в следующем:
1. На основе общесистемных принципов организации человеческого мышления и речевой коммуникации впервые разработана формализованная методология оценки адекватности и интерпретационной пригодности моделей представления нечетких темпоральных знаний в базах данных интеллектуальных информационно-диагностических систем.
2. На основе предложенной методологии оценки эффективности представления знаний разработана иерархическая модель представления нечетко-определенных знаний в темпоральных базах данных, удовлетворяющая критериям интерпретационной пригодности и ориентированная на поддержку процессов текстового резюмирования в подсистемах лингвистического обеспечения специализированных АСУ ТП.
3. Разработаны алгоритмы и программы поиска нечетких темпоральных знаний в базах данных временных рядов, основанные на концепциях эволюционного моделирования и «априори-поиска», позволяющие выявлять элементы знаний в текстовой форме, пригодной для непосредственного использования в подсистемах лингвистического обеспечения автоматизированных информационно-диагностических систем.
4. Разработан комплекс алгоритмов и программ для автоматического поиска темпоральных знаний в темпоральных базах данных геодиагностических систем и их лингвистической интерпретации в организационно-технологической системе диагностирования состояния земляного полотна железнодорожного пути.
Практическая ценность. Практическая ценность диссертационной работы заключается в следующем:
1. Иерархическая модель представления нечетких темпоральных знаний в БД BP, ориентированная на использование в различных поисковых системах, системах архивации данных, подсистемах лингвистического обеспечения и текстового резюмирования данных.
2. Методология оценки эффективности моделей представления нечетких темпоральных знаний в БД BP, нашедшая применение при разработке широкого класса систем интеллектуального анализа темпоральной информации.
3. Формализованные темпоральные признаки, выступающие в качестве базовых примитивов экспертного инструментария программных средств автоматической интерпретации георадиолокационной информации.
4. Программный комплекс автоматического профилирования и интерпретации георадиолокационных данных «GeoRailway+», позволяющий формировать подробное и наглядное заключение о состоянии балластного слоя и в разы сокращающий время обработки информации в БД геодиагностических систем (ГДС).
Достоверность и обоснованность. Достоверность и обоснованность научных положений, выводов и результатов, сформулированных в диссертации, подтверждается доказательством утверждений, результатами вычислительных экспериментов на практических и модельных задачах, публикациями и докладами на научно-практических конференциях, а также актами внедрения результатов работы.
Реализация результатов работы. Предложенные алгоритмы выявления нечетких темпоральных признаков и представления знаний в БД ГДС были реализованы в программном комплексе автоматического профилирования и интерпретации георадиолокационных данных «GeoRailway+», разработанного согласно плану НИОКР Департамента пути и сооружений ОАО «РЖД» на тему «Разработка технологии и программно-технического комплекса для скоростной диагностики состояния балластной призмы методом георадиолокации», в 2007-2008 гг.
Апробация. Апробация основных теоретических и практических результатов работы проводилась на научных семинарах (с 2005 по 2008 гг., РГУПС), «Шестом всероссийском симпозиуме по прикладной математике» в 2005 г., международных научно-практических конференциях «Инженерная геофизика 2006», «Инженерная и рудная геофизика 2007», «Инженерная и рудная геофизика 2008» (Геленджик, 2006-2008 гг.).
Публикации. По теме диссертационной работы опубликовано 11 печатных работ, в том числе 7 работ опубликованы в изданиях, входящих в перечень ведущих рецензируемых научных журналов и изданий ВАК.
Структура и объем работы. Диссертация состоит из введения, четырех глав, общих выводов, списка литературы и приложений. Общий объем работы составляет 193 страницы машинописного текста, 54 рисунка, 11 таблиц. Список литературы включает 103 наименования отечественных и зарубежных авторов.
Заключение диссертация на тему "Интеллектуальные модели и комплексы программ обработки темпоральной информации в базах данных геодиагностических систем на железнодорожном транспорте"
4.4 Выводы
1. Разработанная модель текстового резюмирования темпоральных данных в БД ГДС, основана на представлении данных в классе иерархических моделей НТП. Эксперименты с моделью показали, что информация, выявленная в БД ГДС и представленная в вербализованном виде, обладает рядом преимуществ по сравнению с традиционными методами представления БД, а именно она имеет более высокую информативность, отличается простотой интерпретации данных и позволяет в порядки раз сократить объем архивных данных.
2. Разработан комплексный подход к оценке интерпретационной пригодности моделей обобщения и текстового резюмирования данных в прикладных интеллектуальных системах. В основу предлагаемого подхода положены два критерия. Первый основан на сравнении результатов, полученных в процессе экспертного оценивания с результатами работы формальной модели, второй - на принципах разговорной кооперации Герберта Пола Грайса, который предполагает формализацию ассоциативных правил человеческого общения, имитирующих восприятие лингвистической информации пользователем. Приведенные результаты экспериментальных оценок продемонстрировали точность и эффективность работы модели вербализации ГД.
3. В рамках плана НИОКР, 2007-2008гг., был спроектирован и реализован программный комплекс автоматического профилирования и сегментной интерпретации «GeoRailway+». Разработанный программный комплекс позволяет в разы сократить время обработки больших массивов георадиолокационной информации и дает возможность экспертам формировать более подробное и наглядное заключение о состоянии балластного слоя ж.д. пути. Основным достоинством GeoRailway+, связанным с безопасностью перевозочного процесса, является исключение пропусков деформаций слоев в земляном полотне ж.д. пути, причиной которых является человеческий фактор.
ЗАКЛЮЧЕНИЕ
В результате выполненных теоретических и практических исследований по теме диссертационной работы реализованы следующие научные и практические положения:
1. Произведен комплексный анализ и дана классификация основных фаз интерактивного процесса извлечения знаний в базах данных временных рядов.
2. Сформулированы актуальные проблемы диагностирования, извлечения знаний в диагностических базах данных, а также сделан вывод о необходимости интеллектуализации моделей автоматической интерпретации в геодиагностике.
3. Рассмотрены методы гранулирования образных перцепций в выпукло-вогнутых паттернах функций, которые могут быть использованы в задачах текстового резюмирования временных процессов.
4. На основе анализа практических проблем и существующих подходов к выявлению темпоральных знаний и формирования баз знаний, можно сформулировать конечную целью исследования, заключающуюся в разработке методов представления и обработки темпоральной и нечеткой темпоральной информации в базах данных временных рядов с целью поддержки процессов выявления знаний. При этом модели представлений должны допускать возможность эффективного поиска темпоральных образов при помощи компьютерных программ.
5. В рамках разработки иерархической модели представления нечетких темпоральных образов BP, предложен новый подход к формализации нечетких темпоральных признаков в виде семиотических кортежей-двоек, обеспечивающий возможность унификации систем нечетких темпоральных признаков, а также их алгоритмическую, синтаксическую и семантическую поддержку в процессе выявления знаний.
6. С целью разработки методов построения баз данных и баз знаний геодиагностических систем предложена классификация систем нечетких темпоральных признаков на основе выделения трех классов признаков, а также предложен способ визуализации этих признаков с использованием граничных характеристических функций, обеспечивающий поддержку процессов формирования баз данных и баз знаний геодиагностических систем в интерактивном режиме с привлечением экспертов.
7. Разработан новый тип трехуровневой модели представления нечетко-темпоральных образов, описывающих нечеткие темпоральные знания в БЗ BP, основанных на нечетком обобщении темпоральных отношений Алена и принципах иерархического представления, согласно которым каждый последующий уровень иерархии сдерживает увеличение сложности и темпоральной абстракции предыдущих уровней.
8. Предложенная иерархическая модель нечеткого темпорального знания, опирающаяся на адекватное обобщении существующих методов формализации темпоральных знаний, удовлетворяет основным требованиям по компактности представления, темпоральной выраженности и интерпретационной пригодности, а также возможности адекватного представления как нечетко-определенной, так и зашумленной информации с целью последующей ее корректной обработки.
9. В рамках разработки иерархической модели представления нечетких темпоарльных образов предложен новый подход к формализации нечетких темпоральных отношений на основе граничных характеристических функций, имеющий квадратичную оценку алгоритмической сложности и являющийся в вычислительном плане более эффективным, нежели известные подходы.
10. Разработана методология оценки эффективности моделей представления нечетких темпоральных образов в базах данных временных рядов, основанная на формализации критериев выразительности и интерпретационной пригодности с использованием общепринятых принципов человеческой коммуникации и оптимальной организации человеческого мышления. На основе данной методологии было установлено, что разработанный класс иерархических моделей представления нечетких темпоральных образов удовлетворяет большему числу критериальных концептов, нежели существующие модели. Полученные результаты экспериментальных оценок продемонстрировали точность и эффективность работы модели вербализации георадиолокационных данных.
11. Предложена формализованная многошаговая схема выявления нечетких темпоральных знаний в базах данных временных рядов, ориентированная на использованием иерархической HFTI-модели представления нечетких темпоральных образов. Описанная схема позволяет решать широкий круг задач, связанных как с поиском аномалий в базах данных геодиагностических систем, так и с поиском часто встречающихся мотивов в различного рода баз данных временных рядов.
12. В рамках разработанной иерархической модели рассмотрен подход и алгоритм вычисления характеристических функций нечетких темпоральных образов ориентированный на максимально широкий класс структур и обладает предельно низкими линейными оценками алгоритмической сложности, что обеспечивает возможность его эффективного использования в поисковых процедурах, связанных с выявлением знаний в базах данных временных рядов.
13. Предложены алгоритмы поиска частных нечетких темпоральных структур, основанные на идеях применяемых в методах «априори» и генетического поиска, основным отличаем которых от классических алгоритмов поиска, является учет специфики баз данных нечетких темпоральных признаков геодиагностических систем, а также темпоральное представление выявляемых двух видов частных нечетких темпоральных структур. Использованные в них процедуры хеширования и эволюционных методов поиска заметно сокращает вычислительную сложность алгоритма, позволяя работать с большими базами данных нечетких темпоральных признаков.
14. Разработана модель текстового резюмирования темпоральных данных в БД ГДС Экспериментальная работа с моделью показала, что информация, выявленная в баз данных геодиагностических систем и представленная в вербализованном виде, обладает рядом преимуществ по сравнению с традиционными методами представления баз данных, а именно она имеет более высокую информативность, отличается простотой интерпретации данных и позволяет в порядки раз сократить объем архивных данных.
15. В рамках плана НИОКР, 2007-2008гг., был спроектирован и реализован программный комплекс автоматического профилирования и сегментной интерпретации «GeoRailway+». Разработанный программный комплекс позволяет в разы сократить время обработки больших массивов георадиолокационной информации и дает возможность экспертам формировать более подробное и наглядное заключение о состоянии балластного слоя ж.д. пути. Основным достоинством GeoRailway+, связанным с безопасностью перевозочного процесса, является исключение пропусков деформаций слоев в земляном полотне ж.д. пути, причиной которых является человеческий фактор.
Библиография Долгий, Александр Игоревич, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)
1. Aggarwal С. C. On eective classication of strings with wavelets. In D. Hand, D. Keim, and R. Ng, editors, Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'02), pages 163(172. ACM Press, 2002.
2. Agrawal R., Srikant R. Mining sequential patterns. In 11th International conference on Data Engineering, pages 3-14, March 1995.
3. Agrawal R., Psaila G., Wimmers E. L., Zaot M. Querying shapes of histories. In U. Dayal, P. M. D. Gray, and S. Nishio, editors, Proceedings of the 21st International Conference on Very Large Data Bases (VLDB'95), pages 502(514. Morgan Kaufmann, 1995b.
4. Allen J. F. Maintaining knowledge about temporal intervals. In Communications of the ACM 26(11), pages 832-843, 1983.
5. Badaloni S., Giacomin M. A fuzzy extension of Allen's interval algebra. In E. Lamma and P. Mello, editors, APIA99: Advances in Articial Intelligence, pages 155(165. Springer, 2000.
6. Bettini C., Sean X. Wang, Jajodia S., J.-L. Lin. Discovering frequent event patterns with multiple granularities in time sequences. IEEE Transactions on Knowledge and Data Engineering, 10(2):222{237, 1998.
7. Bradley P., Fayyad U., Mangasarian O. Data Mining Overview and Optimization Opportunity. Http://www.research.microsoft.com/datamine/. 1998.
8. Cabena P., Hadjinian P., Stadler R. et al. Discovering Data Mining. From Concept to Implementation. Prentice Hall PTR, 2000.
9. Calin M., Galea D. A fuzzy relation for comparing intervals. In B. Reusch, editor, Proceedings of the 7th Fuzzy Days on Computational Intelligence, Theory and Applications, pages 904(916. Springer, 2001.
10. Codd E., Codd S., Salley С Providing OLAP (On-Une Analytical Processing) to User-Analysts: An IT Mandate. E. F. Codd & Associates, 1993.
11. Dietterich T. Ensemble Methods in Machine Learning// Arbib M. (Ed.) Handbook of Brain Theory and Neural Networks. 2nd Edition. MIT Press, 2001
12. Dietterich T. Machine Learning Research: Four Current Directions // Al magazine. 1997.N" 18(4). P.97-136.
13. DuBois D., Prade. H. Processing fuzzy temporal knowledge. IEEE Transactions on Systems, Man and Cybernetics, 19(4):729 (744, 1989.
14. Fayyad U., Piatetsky-Shapiro G., Smyth P. From Data Mining to Knowledge Discovery: An Overview // Advances in Knowledge Discovery and Data Mining U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth. Cambridge; Mass: MIT Press, 1996. P. 1-34.
15. Freksa. Temporal reasoning based on semi-intervals. Artificial Intelligence, 54(1): 199(227, 1992.
16. Goodman I., Mahler R., Nguen H. Mathematics of Data Fusion. Kluwer Publishers, 1997.
17. Gorodetski V., Skormin V., Popyack L. et al. Distributed Learning in a Data Fusion System/ Proceedings of the Conference of the World Computer Congress (WCC-2000)«IntemgentInfomauon Processing* (IIP2000). Beijing, 2000. P. 147-154.
18. Grice H. P. Logic and Conversation. In Cole P. and Morgan J. (Eds), Syntax and Semantics: Vol 3, Speech Acts. Academic Press, New York, pp.43-58, 1975.
19. Guimaraes G., Ultsch A. A method for temporal knowledge conversion. In D. J. Hand, J. N. Kok, and M. R. Berthold, editors, Proceedings of the 3rd International Conference in Intelligent Data Analysis (IDA'99), pages 369(380. Springer, 1999.
20. Guimaraes G. Eine Methode zur Entdeckung von komplexen Mustern in Zeitreihen mit Neuronalen Netzen und deren Uberfuhrung in eine symbolische Wissensreprasentation. PhD thesis, Philipps-University Marburg, Germany, 1998. Germany.
21. Guimaraes G., J. Peter, T. Penzel, A. Ultsch. A method for automated temporal knowledge acquisition applied to sleep-related breathing disorders. Articial Intelligence in Medicine, 23 (3):211 (237, 2001.
22. Han J., Pei J. Pattern growth methods for sequential pattern mining: Principles and extensions. In Workshop on Temporal Data Mining, 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'01). ACM Press, 2001.
23. Han J., Kamber M. Data Mining. Concept and Techniques. Morgan Kaufman Publishers, 2000.
24. Hough P.V. Methods and means for recognizing complex patterns. U.S. Patent 069654. 1962.
25. Inmon W.H. Building the Data Warehouse. Wellesley: MA, QED Technical PublishingGroup.1992.
26. Jin Yu, Jim Hunter, Ehud Reiter, Somayajulu Sripada. Recognising visual patterns to communicate gas turbine time-series data. In A. Macintosh, R. Ellis, andF. Coenen, editors, Proceedings ofES2002, pages 105-118, 2002.
27. Kloesgen W. Versatile Discovery System // Knowledge Discoveiy in Data Bases/ U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth. Cambridge; Mass: MIT Press, 1995. P. 249-271.
28. Kohonen, T. Self-Organizing Maps, Second Edition. Berlin: Springer-Verlag. 1997.
29. Last M., Klein Y., Kandel A. Knowledge discovery in time series databases. IEEE Transactions on Systems, Man, and Cybernetics, 31(1): 160(169, 2001.
30. Lenat D. V., Feigenbaum E.A. On the Thresholds of Knowledge // Artificial Intelligence. 1991.V.47.P. 185-250.
31. Morchen F., Ultsch A. Discovering temporal knowledge in multivariate time series. In C. Weihs and W. Gaul, editors, Proceedings of the 28th Annual Conference of the German Classification Society (GfKl'04), pages 272(279. Springer, 2005a.
32. Morchen F. Time series feature extraction for data mining using DWT and DFT. Technical Report 33, Department of Mathematics and Computer Science, Philipps-University Marburg, Germany, 2003.
33. Morchen F., Ultsch A., Hoos O. Extracting interpretable muscle activation patterns with Time Series Knowledge Mining. International Journal of Knowledge-Based & Intelligent Engineering Systems, 2006. to appear.
34. Ohlbach H. J. Relations between fuzzy time intervals. In Proceedings 11th International Symposium on Temporal Representation and Reasoning (TIME'04), pages 44(51. IEEE Press, 2004.
35. Roddick J. F., Mooney С. H. Linear temporal sequences and their interpretation using midpoint relationships. IEEE Transactions on Knowledge and Data Engineering, 17(1):133(135, 2005. C.
36. Snoek С., M. Worring. Multimedia event based video indexing using time intervals. IEEE Transactions on Multimedia, 7(4):638(647, 2004.
37. Sripada Somayajulu G., Gao Feng Linguistic Interpretations of Scuba Dive Computer Data. Information Visualization, 2007. IV apos; 07. 11th International Conference. Volume , Issue , 4-6 July 2007 Page(s):436 441.
38. Sripada S., Reiter E., Hunter J., Yu, J. (2001). SUMTIME: Observation from KA for Weather Domain. Technical Report AUCS/TR0102. Dept. of Computing Science, University of Aberdeen.
39. Sripada, S. G., Reiter, E., Hunter, J., Yu, J., "Generating English Summaries of Time Series Data Using the Gricean Maxims", SIGKDD, USA, 2003.
40. Vilain M. A system for reasoning about time. In Proceedings of the 2nd National Conference on Articial Intelligence (АААГ82), pages 197(201. AAAI Press / MIT Press, 1982.
41. Weiss G. M. Timeweaver: A genetic algorithm for identifying predictive patterns in sequences of events. In Proceedings of the Genetic and Evolutionary Computation Conference (GECCO-99), pages 718(725. Morgan Kaufmann, 1999.
42. Yu J, Hunter J, Reiter E, Sripada S. An approach to generating summaries of time series data in the gas turbine domain. In Proceedings of ICII2001,Beijing, 2001, pp 44-51
43. Yu J., Hunter J., Ehud Reiter, Somayajulu Sripada. Recognising visual patterns to communicate gas turbine time-series data. In A. Macintosh, R. Ellis, and F. Coenen, editors, Proceedings ofES2002, pages 105-118, 2002.
44. Zadeh L.A. From computing with numbers to computing with words -from manipulation of measurements to manipulation of perceptions.- IEEE Trans, on Circuits and Systems 1: Fundamental Theory and Applications, 45, 1, 1999, 105 -119.
45. Zaki M. J. Fast mining of sequential patterns in very large databases. Technical report 668 of the Department of Computer Science, University of Rochester, Nov 1997.
46. Батыршин И.З. Общий взгляд на основные черты и направления развития нечеткой логики Л.Заде //Новости искусственного интеллекта №2-3, 2001
47. Батыршин И.З. Основные операции нечеткой логики //Новости искусственного интеллекта №4, 2001
48. Батыршин И.З., Шереметов Л.Б. Модели и методы перцептивного дата майнинга временных рядов для систем поддержки принятия решений. Нечеткие системы и мягкие вычисления. Том 2, №1, 2007
49. Буре P. XML и базы данных // Открытые системы. 2000. № 10. С.62.65.
50. Вершок Д.А. Алгоритмические средства обработки и анализа изображений на основе преобразования Хафа // Диссертация. Минск, 2002 г.
51. Владов М.Л. Старовойтов А.В., Калашников А.Ю Некоторые вопросы интерпретации георадиолокационных данных при изучении железнодорожных насыпей// Тр. 4-й меж.-нар. науч.-практич. конф. «Георадар-2004».-М.: МГУ, 2004.
52. Владов М.Л., Старовойтов А.В. Георадиолокационные исследования верхней части разреза. 2002, Изд-во МГУ. 90 с.
53. Владов М.Л., Старовойтов А.В., Калашников А.Ю Основные типы деформаций в железнодорожных насыпях по данным георадиолокационного профилирования Владов.// Меж.-нар. науч.-практ. конф. «Инженерная геофизика 2006». Геленджик, 2006. С 73-75.
54. Вороновский Г.К., Махотило К.В., Петрашев С.Н., Сергеев С.А. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности. Харьков: ОСНОВА, 1997. 112 с.
55. Городецкий В.И., Тулупьев А.Л. Формирование непротиворечивых баз знаний с неопределенностью // Изв. РАН. Теория и системы управления. 1997. №5. С. 33-42.
56. Городецкий В.И. Современное состояние технологии извлечения знаний из баз и хранилищ данных (Часть1) // Новости ИИ, 2002. №3.-c.3-12.
57. Городецкий В.И. Современное состояние технологии извлечения знаний из баз и хранилищ данных (Часть2) // Новости ИИ, 2002. №4.-с.З-9.
58. Долгий А.И. Идентификация неоднородностей почвенных покровов на основе алгоритмов распознавания // Сборник тезисов докладов 64-й студенческой научно-практической конференции. Ростов н/Д: Изд-во РГУПС, 2005. - С.6.
59. Долгий А.И. Программный комплекс автоматического профилирования и сегментной интерпретации георадиолокационных данных «GeoRailway+»// Вестник РГУПС. Ростов-на-Дону: Изд-во РГУПС, 2008, №1.-с.30-37.
60. Долгий А.И., Ковалев С.М. Гибридная нечетко-динамическая модель анализа отраженных сигналов георадара в неоднородной среде // Обозрение прикладной и промышленной математики, том 12, вып.2. М.: Редакция журнала «ОП и ПМ», 2005.- С.386.
61. Долгий А.И., Ковалев С.М., Хатламаджиян А.Е. Модель локализации неоднородностей в георадиолокационных данных на основе нейросетей Кохонена // Известия ТРТУ. Тематический выпуск: «Интеллектуальные САПР». Таганрог: Изд-во ТРТУ, 2006. №8. - С. 180-186.
62. Долгий А.И. Комплексный подход к оцениванию интерпретационной пригодности систем текстового резюмирования баз данных геодиагностических систем // Вестник РГУПС. Ростов-на-Дону: Изд-во РГУПС, 2008, №1.- С.53-57.
63. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд. Института математики, 1999.
64. Ивашко В.Г., Кузнецов С.О. Оценки правдоподобия в продукционных экспертных системах // Экспертные системы: состояние и перспективы. -М.: Наука, 1989. с. 92-103.
65. Кандрашина Е.Ю., Литвинцева Л.В., Поспелов Д.А. Представление знаний о времени и пространстве в интеллектуальных системах // Под редакцией Д.А. Поспелова. — Москва, Наука, 1989. 328 с.
66. Капустин В.В., Владов M.JI. Опыт применения площадной георадарной сьемки для обнаружения и изучения локальных и линейно-протяженных объектов.// Меж.-нар. науч.-практ. конф. «Инженерная геофизика 2006». Геленджик, 2006. С 75-77.
67. Ковалев С.М. Модели анализа слабо формализованных динамических процессов на основе нечетко-темпоральных систем. // Изв. вузов. Сев.-Кав. регион. Естественные науки, 2002. № 2. С. 10-13.
68. Ковалев С.М. Структурное обобщение нечетко-временных признаков в интеллектуальных моделях анализа динамических процессов // Обозрение прикладной и промышленной математики. Москва, 2002. Т. 9. Вып. 1.С. 207.
69. Кулаичев, А.П. Методы и средства комплексного анализа'данных. — М.: ФОРУМ: ИНФРА-М, 2006. 512 с.
70. Курейчик В.М. Генетические алгоритмы. Монография. Таганрог, ТРТУ, 1998.
71. Медведев B.C., Потемкин В.Г. Нейронные сети. MATLAB 6 / Под общ. ред. к.т.н. В.Г. Потемкина. М.: ДИАЛОГ-МИФИ, 2002. - 496с.
72. Морозова Г. Полный мониторинг способна обеспечить система IRISSys / Г. Морозова // Октябрьская магистраль / Газета октябрьской железной дороги. 2007. - №3 (43). С.
73. Помозов В.В., Семейкин Н.П. Георадар как универсальный поисковый прибор // Специальная техника. 2001. № 2. — с. 2-6.
74. Попов Э.Б. Экспертные системы. Решение неформализованных задач в диалоге с ЭВМ. Москва: Наука, 1987.
75. Потемкин В.Г. Вычисления в среде Matlab // Учебно-справочное издание. М.: Диалог-МИФИ, 2004.-720с.
76. Потемкин В.Г. Вычисления в среде MATLAB. М.: ДИАЛОГ-МИФИ, 2004. - 720 с.
77. Пржиялковский В. В. Сложный анализ данных большого объема: новые перспективы компьютеризации //СУБД. 1996. №4. С. 71-83.
78. Пьянников Д.А., Болондзь В.В. Практика применения метода подповерхностного георадиолокационного зондирования Восточно-Сибирской железной дороги.// Меж.-нар. науч.-практ. конф. «Инженерная геофизика 2006». Геленджик, 2006. С 70-72.
79. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы // Научное издание. Перс. С польск. И.Д. Рудковского.- М.: Горячая линия — Телеком, 2004. — 452 с.
80. Старовойтов А.В., Владов М.Л. Интерпретация данных георадиолокационных наблюдений. Разведка и охрана недр, 2001, №3.
81. Уоссерман Ф. Нейрокомпьютерная техника / Пер. на русский язык Ю. А. Зуев, В. А. Точенов. М.: Мир, 1992.
82. Явна В.А., Грицык В.И. и др. Проведение измерений и интерпретация георадиолокационной съемки земляного полотна с выдачей рекомендаций для проектов его усиления // Методические указания. Ростов-на-Дону: РГУПС, 2004г.
-
Похожие работы
- Совершенствование метода георадиолокационной диагностики в системе мониторинга железнодорожного пути
- Определение состояния балласта и земляного полотна железнодорожного пути георадиолокационным методом в режиме скоростного мониторинга
- Скоростная георадиолокационная диагностика балластного слоя железнодорожного пути
- Усиление подбалластной зоны железнодорожного пути покрытиями с использованием органических вяжущих
- Радиотехнический мониторинг балластной призмы и земляного полотна железнодорожных путей
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность