автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Интеллектуальная информационная система для поиска и идентификации медиа-данных

кандидата технических наук
Алёшин, Александр Владимирович
город
Краснодар
год
2004
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Интеллектуальная информационная система для поиска и идентификации медиа-данных»

Автореферат диссертации по теме "Интеллектуальная информационная система для поиска и идентификации медиа-данных"

На правах рукописи

ИНТЕЛЛЕКТУАЛЬНАЯ ИНФОРМАЦИОННАЯ СИСТЕМА ДЛЯ ПОИСКА И ИДЕНТИФИКАЦИИ МЕДИА-ДАННЫХ

Специальность 05.13.01 - «Системный анализ, управление и обработка информации (информационные и технические системы)»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Краснодар - 2004

Работа выполнена в Кубанском государственном технологическом

университете

Научный руководитель: кандидат технических наук,

профессор Частиков Аркадий Петрович

Официальные оппоненты: доктор физико-математических наук,

профессор Чижиков Владимир Иванович

кандидат технических наук,

доцент Варламова Жанна Николаевна

Ведущая организация Государственное унитарное предприятие

«Краснодарская государственная краевая телерадиовещательная компания «Новое телевидение Кубани», г. Краснодар

Защита диссертации состоится 25 февраля 2004 г. в 13:00 на заседании диссертационного совета Д 212.100.04 в Кубанском государственном технологическом университете (350072, г. Краснодар, ул. Московская, 2А, конференц-зал).

С диссертацией можно ознакомиться в библиотеке Кубанского государственного технологического университета по адресу: 350072, г. Краснодар, ул. Московская, 2А.

Автореферат разослан 23 января 2004 г. \

Отзывы на автореферат, заверенные печатью учреждения, проси?л направлять по адресу: 350072, г. Краснодар, ул. Московская, 2А, КубГТУ, ученому секретарю диссертационного совета Д 212.100.04, к.т.н., доценту Зайцеву И.В.

Ученый секретарь диссертационного совета Д 212.100.04, к.т.н., доцент

И.В. Зайцев

2004-4 24323

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Практически любая человеческая деятельность связана с сохранением и повторным использованием информации, контента. Сохранение самого контента (медиа-данных, объединяющих все многообразие представлений, пригодных для компьютерной обработки от чисел, текста, звуков, изображений и видеопоследовательностей до абстрактных математических представлений) подразумевает организацию хранилища, проведение операций каталогизации и последующего поиска по запросам.

Как правило, медиа-данные хранятся отдельно от каталога в специальном хранилище из-за требований сохранности физического носителя либо большого объема, ограничивающего непосредственный доступ пользователей. В каталоге описание каждой единицы медиа-данных обычно представляется в однообразной стандартизованной форме в виде набора ключевых слов или текстовых значений определенных свойств (в лучшем случае добавляется поле свободного текстового ввода).

Поисковый запрос, формируемый пользователем, составляется из ключевых слов, по которым организуется перебор информации в каталоге, в результате которого пользователю предоставляется список найденных элементов, отсортированный по точности совпадения. Данная схема каталогизации, наиболее распространенная в настоящее время, показала свою непригодность для средних и-крупных архивов медиа-данных в связи с резким падением эффективности поиска при возрастании объема архива. Множество современных разработок, направленных на решение этой проблемы (например, за счет введения семантического анализа, использования тезауруса и синонимов и т.д.) в рамках существующей схемы, не позволяют достичь желаемых результатов - существенного увеличения точности и полноты поиска.

В результате пользователь должен сформировать несколько запросов, варьируя ключевыми словами, для получения максимального качества выборки (в которую заведомо не попадет часть искомых медиа-данных), по которой он в дальнейшем получает доступ к медиа-данным и проверяет их соответствие своим потребностям. В результате эффективность его поиска - это не только временные затраты (которые, тем не менее могут быть оценены в денежном выражении как затраты рабочего времени), но и прямые материальные издержки, связанные с использованием средств просмотра медиа-данных — компьютеров, видеомагнитофонов, плееров, мониторов и телевизоров; затрат на доставку медиа-данных - создание просмотровой копии на физическом носителе, затрат на оцифровку; затрат на замену физических носителей в архиве из-за ускоренного износа и т.д.

Всестороннее исследование этой сложной проблемы возможно только на основе принципов и методов системного анализа, но одно очевидно уже сейчас — «узким местом» большинства подходов к каталогизации является однообразное представление описательной информации, не позволяющее в полной мере детально отразить архивируемые медиа-данные. Поэтому задача создания и практической реализации метода поиска и идентификации медиа-данных на основе принципов искусственного интеллекта и систем, основанных на знаниях, является актуальной.

Цель работы и основные задачи исследования. Целью настоящей работы является разработка и теоретическое обоснование метода поиска и идентификации медиа-данных, осуществление его реализации на практике в виде интеллектуальной информационной системы(далее по тексту ИИС).

Задачи исследования:

- обобщить опыт создания архивов и систем управления медиа-

данными, выявить основные недостатки и пути их преодоления;

- разработать .принципы построения ИИС для поиска и идентифи-

- провести анализ существующих систем представления и управления выводом знаний, выработать неформальную модель систем продукций;

- разработать формальную математическую модель системы логического вывода создаваемой ИИС, дополнить ее компонентами, необходимыми для решения поставленных задач в выбранной предметной области;

- на основе разработанного метода осуществить программную реализацию ИИС для поиска и идентификации медиа-данных;

- провести экспериментальную проверку применимости предложенного метода для задачи организации и ведения телерадиовещательного медиа-архива, определения эффективности поиска и идентификации медиа-данных на информационном массиве в реальных производственных условиях.

Методы исследования. Поставленные задачи решены с применением теории графов, теории нечетких множеств, аппарата математической логики, системного анализа, вычислительной математики, методов инженерии знаний и построения экспертных систем, методов экспертных оценок и математического моделирования.

Научная новизна выполненных в диссертационной работе исследований заключается в разработке метода поиска и идентификации медиа-данных и состоит в следующем:

1. Осуществлена постановка задачи поиска и идентификации медиа-данных с использованием систем, основанных на знаниях.

2. Предложен метод поиска и идентификации медиа-данных на базе интеллектуальных систем, основанных на знаниях.

3. Сформулированы принципы построения ИИС для поиска и идентификации медиа-данных.

4. Разработана неформальная модель систем продукций для поиска и идентификации медиа-данных.

5. Разработана формальная математическая модель логического вывода с использованием ненадежных знаний ИИС для поиска и идентификации медиа-данных.

6. Для расширения возможностей механизма логического вывода предложены и неформально описаны языки управления применением продукций и выбором данных.

7. Разработана структура ИИС для поиска и идентификации медиа-данных.

Практическая ценность работы заключается в разработке и апробации метода поиска и идентификации медиа-данных, создания на его основе интеллектуальной информационной системы «Медиа-архив», реализованной в ряде аппаратно-адаптированных комплексов, позволяющей ощутимо повысить эффективность (точность и полноту) поиска мультимедийных, графических и текстовых материалов по сравнению со стандартными алгоритмами поиска по ключевым словам.

Испытания в производственных условиях телерадиовещательных компаний показали, что разработанные принципы и метод поиска и идентификации медиа-данных могут быть как интегрированы в существующие системы управления медиа-данными (заменяя стандартные процедуры и модули поиска), так и поставляться как независимые программные и-про-граммно-аппаратные решения, полностью совместимые со стандартами профессионального телерадиовещательного оборудования.

Более того, за счет универсального принципа организации медиа-данных в виде знаний предлагаемая технология пригодна для упорядочивания, хранения и обработки знаний о любых массивах сложных объектов - в концепцию медиа-данных могут быть объединены любые объекты, информация о которых доступна для компьютерной обработки. Соответст-

венно, разработанная ИИС также может использоваться компаниями, владеющими специализированными архивами и хранилищами, научными и исследовательскими организациями, страховыми компаниями, финансовыми и юридическими организациями и т.д.

Реализация научно-технических результатов работы в промышленности. В настоящее время результаты исследования,. включая прикладное программное обеспечение, используются следующими организациями, что подтверждается соответствующими актами внедрения:

- Государственное унитарное предприятие «Краснодарская государственная краевая телерадиовещательная компания «Новое телевидение Кубани» (НТК, г. Краснодар) - для ведения цифрового видеоархива на основе аппаратно-адаптированного комплекса «Интеллектуальная информационная система «Медиа-архив»;

- Муниципальная телерадиокомпания «Краснодар» (МТРК «Краснодар», г. Краснодар) - для ведения видеоархива и каталогизации хранилища видеокассет на основе аппаратно-независимого комплекса «Интеллектуальная информационная система «Медиа-архив»;

- Общество с ограниченной ответственностью «Страховая медицинская компания «Черномормедстрах» (г. Краснодар) - для ведения мультимедийного архива с использованием аппаратно-независимого прототипа «Интеллектуальная информационная система «Медиа-архив».

Апробация работы.

Результаты работы докладывались и обсуждались на 14 конференциях и научных семинарах, основными из которых являются:

- X Международная конференция «Применение новых технологий в образовании» (г. Троицк, 1999 г.);

- Международная научно-техническая конференция «50 лет развития кибернетики» (г. Санкт-Петербург, 1999 г.);

- V Всероссийская научная конференция студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления» (г. Таганрог, 2000 г.);

- 2-й Международная научно-техническая конференция «Информационные технологии в моделировании и управлении» (г. Санкт-Петербург, 2000 г.);

- X Юбилейная конференция-выставка «Информационные технологии в образовании ИТО-2000» (г. Москва, 2000 г.);

- Вторая Международная научно-техническая конференция «Измерение, контроль, информатизация» (г. Барнаул, 2001 г.);

- IX Всероссийская научно-практическая конференция «Инновационные процессы в высшей школе» (г. Краснодар, 2003 г.).

Данная работа выполнялась в рамках гранта Российского фонда фундаментальных исследований 0-01-96009 «Исследование и разработка принципов и методологии построения регенеративных экспертных систем» (Руководитель проекта - профессор Частиков А.П.).

Публикации результатов работы. По теме диссертации опубликовано 21 печатная работа. Из них: 16 статей, 1 учебное пособие и 4 тезиса докладов на вышеперечисленных конференциях.

Основные положения, выносимые на защиту:

- результаты сравнительного анализа существующих систем поиска и управления медиа-данными;

- неформальная модель систем продукций для поиска и идентификации медиа-данных;

- принципы построения и структура ИИС для поиска и идентификации медиа-данных;

- формальная математическая модель логического вывода с использованием ненадежных знаний ИИС для поиска и идентификации медиа-данных;

- архитектура машины логического вывода ИИС, модули управления применением продукций и выбором данных;

- критерии оценки эффективности поиска и идентификации медиа-данных;

- результаты оценки прямого экономического эффекта от внедрения ИИС для поиска и идентификации медиа-данных «Медиа-архив».

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 155 страницах. Работа содержит 29 рисунков, 11 таблиц и библиографию из 90 наименований на 8 страницах.

КРАТКОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во введении обоснована актуальность темы исследования, определена научная проблема, поставлены цели и задачи исследования, дан обзор содержания работы.

В первой главе проведен углубленный анализ отечественной и зарубежной литературы, Интернет-источников, из которого следует, что в абсолютном большинстве систем управления медиа-данными для нахождения хранимой информации используется простой поиск по ключевым словам (в лучшем случае, по части слова с использованием логических операторов И, ИЛИ, НЕ).

Современная система управления медиа-данными (например, система архивирования SONY на базе сервера BZA-7010, структурная схема которой приведена на рисунке 1) имеет клиент-серверную структуру, ориентирована на работу совместно с профессиональным вещательным оборудованием и может использоваться как в качестве оперативного архива, (когда медиа-данные из библиотеки доступны пользователям напрямую,

например, из вещательного видеосервера), так и в качестве каталога архива на физических носителях (например, хранилища видеокассет).

В первом случае недостатки простого поиска по ключевым словам нивелируются небольшим объемом архива (как правило, не более 100-150 часов материала) и возможностью сразу просмотреть интересующие фрагменты. И именно при отсутствии прямого доступа к медиа-данным, когда для получения необходимого материала по выборке из каталога нужно дать заявку в хранилище, получить копию носителя и просмотреть его, максимально возможная эффективность механизма поиска является критической для всей системы.

Предлагается новый подход, не имеющий прямых аналогов, в котором в каталоге вместо учетных карточек сохраняются подробные знания о медиа-данных архива в виде правил-продукций, а поиск и идентификация

осуществляется прямым логическим выводом. Это позволит вводить в каталог связанные знания о медиа-данных любого объема и содержания, а поиск (нахождение фрагментов знаний, соответствующих введенным в запросе фактам) и идентификацию (получение целевых знаний о медиа-данных по найденным фрагментам) проводить с ощутимо большей эффективностью.

В работе подробно рассмотрены недостатки традиционного подхода поиска медиа-данных по ключевым словам, показана нецелесообразность его дальнейшего совершенствования, представлены преимущества использования нового метода поиска и идентификации медиа-данных на базе интеллектуальных систем, основанных на знаниях, обоснован выбор продукционного представления знаний.

Во второй главе диссертации приводится описание математического обеспечения разработанной ИИС для поиска и идентификации медиа-данных.

Так как разрабатываемая ИИС должна гибко настраиваться к специфике каждой предметной области при внедрении в производство, вначале необходимо решить вопрос формирования технологической базы разрабатываемой интеллектуальной системы - неформальной модели систем продукций, состоящей из схем и спецификаций по созданию и настройке специализированных и проблемно-ориентированных систем продукций.

В рамках неформальной модели рассмотрены основные компоненты систем продукций (структура модуля базы данных и операций, модуля правил и модуля управления), выделены составляющие их объекты и взаимосвязи. Создание неформальной модели систем продукций позволяет, во-первых, сформировать спецификации компонентов разрабатываемой ИИС, во-вторых, выделить систему «строительных блоков», уточнив диапазон возможных изменений каждого из них, в-третьих, определить способ оформления этих блоков и организации интерфейса между ними.

В соответствии с неформальной моделью систем продукций на основе работ А.С. Клещева, В.Е. Кузнецова, 8. Уеге, М. Оеощей", Т.М. Яхно и А.С. Нариньяни была построена математическая модель системы логического вывода для поиска и идентификации медиа-данных, которая обобщает подходы большинства перечисленных выше ученых и позволяет описывать работу машины логического вывода продукционной системы в самом общем виде.

Из теории' моделей известно, что многосортная алгебра состоит из семейства множеств-носителей и семейства частичных функций,

/^^х^х^х^..-^^, пТ> О 0)

Сигнатура = состоит из непустого множества сортов 5 -

символов для обозначения индексов множеств-носителей, и непустого множества ¥ функциональных символов, каждому из которых приписана схема отображения

означающая запись арности функции, сортность аргументов и результата.

Для сигнатуры многосортная алгебра А называется Е»

алгеброй, если схемы отображений для всех согласованы с соответствующими отображениями С каждым сортом свяжем конечное множество ^ переменных, определим множество термов ТЯ и функцию тип: ТЯ-* 5" следующим образом:

— всякая переменная хеЛ^есть терм, причем тип(х) =.у;

- всякий нульарный функциональный символ (константа) со схемой отображения /:-* я есть терм, причем типуф =

- если/eFимеет схему /: j, xs} x-xs.^ s, и th t2,..., ■ термы, где mun(ti) = i/, .... mun(t„.i) = $„./, то /fy. t2, W терм,

Назовем фактом упорядоченный список вида.

<f,eh...,e,), (3)

где/eF, / : 5, х jj х... х -» j,, е, еТЛ, тип(е) =Si, i = 1 ...и.

Под ситуацией d понимается конечная конъюнкция фактов, образующая множество различных ситуаций D. Очевидно, что введенное понятие ситуации соответствует понятию текущего состояния базы данных продукционной системы, ее ассоциированной (рабочей) памяти.

Множество имен переменных ситуации: d обозначим через var(d)., а множество их типов через

Введем понятие подстановки:

0= {tl/vbyv2,...,tjvm}, (4)

где tj — термы, щ- переменные, mun(tj) — mun(Vj)t i = \...т. В таком случае d6— результат одномоментной замены каждого вхождения переменной Vi в d на соответствующий терм Для подстановки 0 = {x/yi,X;/y2,...,X„/y„}, где X/, у( (/ = \...т) - переменные, называемой алфавитным вариантом, может существовать обратная подстановка ff1 при определении между переменными взаимно-однозначного соответствия.

Эквивалентность двух ситуаций d я d'возможна в случае, если существует такой алфавитный вариант что:

dsd'G и d'sdff'. (5)

Основными операциями преобразования ситуации является добавление и исключение фактов. Для фиксированного

1. операция исключения: elim[dr]: D-* D (6)

еПтЩ(<1) = (Ы'\

2. операция добавления: асЫ^^.Ю-* £> (7)

сиЩ^Кф^ аи <!'.

Операции формируют программы преобразования ситуации, а . множество программ R преобразования ситуации определяется следующим образом:

1. Элементами программы являются <хи^с1'},еНт\с1г] приУ1 с1'

2. Если две программы Г/, Гг в Я, то программа (г^Гг) определенная равенством (г/^Хс/) = Гг(Г/(</)), V¿1 е £), также элемент Я.

Дня любого гей введем множество /л(г) переменных, добавляемых программой Г, и множество оШ(г) переменных, исключаемых г, по следующим правилам:

1. ои1{а(Щ(1']) = 0, т{а(М[с1г\) = (8)

2. о«г(е//т[<|) = уаг(<;0> ш(е/нп[<*]) = 0; (9)

3. ои/(г,,т2) = о«Г(г;)иои<г2), т{г,-,л) = 1п{г,)ит{г2). (10)

Через Г0, где # = {¡(¡/х^^Х^—Ап/Хт} - произвольная подстановка,

обозначим программу во всех операциях которой аргументы-переменные X/заменены на сопоставленные им в # "термы (¡, / = 1___771. Переменные программы, которым не сопоставлены в подстановке никакие термы, заменяются на новые, еще неиспользованные переменные из множества

В таком случае продукцией является пара <^,Г> , в которой д - ситуация, называемая условием применимости продукции, - программа, € Я, называемая действием, причем дкг связаны соотношением

уаг(д)^оиф-). 01)

Под системой продукций будем понимать конечное множество пар Рг={<<1,г'>}. Будем говорить, что непосредственно выводимо из (1/ при

помощи продукции (</1—если найдется такая подста-

новка в, что ¿¡^дв, а ¿2 = гв{ и ( ¿¡\дв).

Если найдется последовательность продукций /V/, рг^,..., рг¡¡, рг,вРГу / = 1 ...к,к> 0, и состояний базы ¿о, с1¡,..., с4 таких, что

то говорим, что выводимо из ¿0, и пишем -^^к или

(10—рг1-рг* ><1к, а рг], рг"2, рГ). назовем последовательностью применимых к продукций.

Если назовем

результирующей ситуацией

Далее в диссертационной работе рассмотрены условия корректности вычислений над конъюнктивной базой данных (базой фактов ассоциируемой памяти), введены понятия корректности и конфлюэнтности системы продукций.

Система продукций Рг — {рГ{ —^¡М >}, / = 1...И, И корректна на исходном состоянии ¿/о, если не существует бесконечной последовательности применимых к (¡д продукций, и для любых двух результирующих ситуаций <1 нс[\ выводимых из^ыполненойГ = «/".

Система продукций является конфлюэнтной, если для любых состояний базы таких, что найдется такое, что

В диссертационной работе сформулированы три достаточных в совокупности локальных условия конфлюэнтности систем продукций:

1. детерминированность: V*/, с1, с!" е И Ург е Рг, если <1—и

2. коммутативность: Ус/ е £) Vрг/, рг^ е Рг, если Зс/, такие, что а п-п ></' и Л "-"'ХТ, то ЗбС" такое, что а ></"' и

3. устойчивость: е £> Ург/, /зг; £ Рг, если рг&ръ и 3 сС, с!" такие, что й.....и Л ъ »¿",то ЗсТ такое, что <1 " ^ ><Г'

Выполнение условий 1 и 2 исключает неоднозначность, связанную с выбором подстановки, выполнение условий 2 и 3 исключает неоднозначность, связанную с выбором продукции.

В дальнейшем введенные понятия в работе обобщены на ситуацию с дизъюнктивными фактами. Очевидно, что любая система продукций конфлюэнтна относительно дизъюнктивного вывода, и все возможные результирующие ситуации, получаемые конъюнктивным выводом, входят в результирующую ситуацию в виде дизъюнктных членов.

Дизъюнктивный вывод представляет собой полный перебор альтер -нативных вариантов, основной недостаток которого - комбинаторный рост дизъюнктов. Поэтому математическая формальная модель была дополнена средствами для представления эвристических функций сокращения перебора и управления выводом - языком управления применением продукций и языком управления выбором данных.

На языке управления порядком задается управляющая формула, описывающая множество активированных продукций А„А1 с: Рг,,для которых на текущем шаге вывода г проверяются условия применимости. Язык управления представляет собой множество правильно построенных формул над состояниями продукций и бинарными операциями между ними. Такие формулы называются управляющими, а множество продукций

с заданной на нем управляющей формулой - системой структурированных продукций.

Неформально язык управления данными аналогичен языку управления применением продукций, цель его использования - сужение массива обрабатываемых данных до окрестности цели поиска логического вывода, (так называемого «окна активации»).

В результате разработки формальной модели системы логического вывода была реализована продукционная машина логического вывода, представленная в третьей главе диссертационной работы.

В третьей главе работы рассмотрены практические вопросы разработки и создания интеллектуальной информационной системы для поиска и идентификации медиа-данных, представлена структура разработанной интеллектуальной системы, проведен анализ предметной области внедрения, обоснован выбор программных и аппаратных средств реализации.

Структура разработанной «Интеллектуальной информационной системы «Медиа-архив» представлена на рисунке 2.

Сферой применения проектируемой системы в первую очередь является организация цифровых архивов аудиовизуальной информации телерадиовещательных компаний (максимальный эффект от внедрения достигается в случае, когда медиа-данные конечным пользователям напрямую недоступны - например, в хранилищах видеокассет), но теоретическая основа интеллектуальной информационной системы - формальная математическая модель - не накладывает принципиальных ограничений на предметную область практической части диссертационной работы.

ИИС «Медиа-архив» реализована с помощью среды визуального программирования Borland Delphi 5 на объектно-ориентированном языке программирования Object Pascal, который позволяет реализовать все математические методы и алгоритмы и обладает развитыми средствами работы с базами данных.

В четвертой главе рассмотрены вопросы отладки баз знаний и тестирования разработанной ИИС, результаты экспериментального исследования работоспособности и эффективности «Интеллеюуальнон информа-

циоиной системы «Медиа-архив», приведен расчет экономического эффекта от внедрения.

В работе проведена классификация ошибок в базах знаний систем продукций, выделены две группы методов отладки баз знаний: статический анализ баз знаний (верификация) и тестирование баз знаний.

Из методов статического анализа был выбран метод попарного сравнения правил как наименее ресурсоемкий, не использующий предметные знания и позволяющий выявлять следующие типы ошибок в базах знаний: избыточность, противоречивость, неполнота (только недостижимые и терминирующие продукции, пропущенные продукции не могут быть созданы при работе с конструктором правил).

Тестирование базы знаний ИИС проводилось как по принципу «черного ящика» сотрудниками предприятий, на которых осуществлялось внедрение, так и принципу «белого ящика» по группам правил-продукций каждого из объектов цифрового архива.

Эффективность работы ИИС оценивалась по результатам поиска и идентификации медиа-данных на основе двух основных критериев:

1. полнота поиска и идентификации Р (процент найденных релевантных медиа-дзнных г от их общего числа в поисковом массиве по данному вопросу

2. точность поиска и идентификации R (процент релевантных медиа-данных в выборке г от общего числа выданных медиа-данных по данному вопросу v), которые могут быть выражены соотношениями:

Р = -100%;/г=-100%> (13)

Разработанная ИИС сравнивалась с архивным комплексом «Видео-архивъ» компании «JC System Integration» и комплексом «Фабрика Новостей» проекта «ИнтерНовости». На рисунке 3 представлен график эффективности поиска, усредненные данные получены по 10 запросам к тесто-

вой базе знаний из 452 правил-продукций (или базе данных для сравниваемых систем). График зависимости эффективности поиска ИИС от сложности запроса представлен на рисунке 4. Скоростные характеристики разработанной ИИС приемлемы, а среднее время выполнения поиска и идентификации на тестовой базе не превышало 40-50 секунд.

Рисунок 3 - График эффективности

поиска и идентификации медиа-данных эффективности поиска

от сложности запроса

Результаты тестирования показывают, что «Интеллектуальная информационная система «Медиа-архив» сопоставима по быстродействию с другими анализируемыми системами, значительно превосходя их по точности и полноте результирующих выборок знаний, что говорит о явных преимуществах интеллектуального подхода над методами простого поиска по ключу.

На основании практических результатов тестирования разработанной ИИС можно сделать следующие выводы: в среднем полнота поиска

разработанной Интеллектуальной информационной системы «Медиа-архив» составляет около 90%, точность - около 80%.

В работе приводится оценка прямого годового экономического эффекта от внедрения на ведущем предприятии, связанная с экономией средств на материалы, эксплуатацию техники и рабочего времени сотрудников. Ожидаемый годовой экономический эффект от внедрения «Интеллектуальной информационной системы «Медиа-архив» в ГУП КГКТРК «Новое телевидение Кубани» составляет ориентировочно 150 тыс. рублей.

Годовой экономический эффект от внедрения на двух других предприятиях составляет приблизительно по 50 тыс. рублей, что связано меньшим использованием техники при создании цифрового архива (расчет в большей мере отражает экономию рабочего времени сотрудников).

В заключении перечислены научные и практические результаты, полученные автором в ходе исследований. Предложены направления дальнейших исследований в области поиска и идентификации медиа-данных.

В приложениях представлен фрагмент тестовой базы знаний, акты внедрения диссертационной работы.

ВЫВОДЫ И РЕКОМЕНДАЦИИ

В диссертационной работе предложен, сформулирован, разработан, математически обоснован, успешно апробирован на практике и внедрен в производство в виде ИИС новый метод поиска и идентификации медиа-данных. Основные теоретические и практические результаты работы заключаются в следующем:

1. Обобщен опыт создания цифровых архивов и систем управления медиа-данными, выявлены и исследованы существенные недостатки применяемых методов поиска и идентификации медиа-данных, показаны пути их преодоления.

2. На базе проведенного анализа осуществлена постановка задачи поиска и идентификации медиа-данных с использование систем, основанных на знаниях.

3. Для решения поставленной задачи предложен метод поиска и идентификации медиа-данных на базе интеллектуальных систем, основанных на знаниях, не имеющий прямых аналогов.

4. Проведен анализ систем представления и управления выводом знаний, обоснована продукционная форма представления знаний и сформулирована неформальная модель систем продукций предлагаемого метода, реализуемая в виде ИИС для поиска и идентификации медиа-данных.

5. Разработана формальная математическая модель системы логического вывода для поиска и идентификации медиа-данных, реализованная на практике в виде продукционной машины логического вывода разрабатываемой ИИС.

6. Разработаны принципы построения и структура ИИС для поиска и идентификации медиа-данных, предложены и неформально описаны языки управления применением продукций и выбором данных, расширяющие возможности продукционной машины логического вывода.

7. Создана, протестирована и внедрена ИИС для поиска и идентификации медиа-данных «Интеллектуальная информационная система «Медиа-архив», разработанная в среде программирования Borland Delphi, произведена оценка прямого экономического эффекта от внедрения в производство.

8. Разработана система критериев оценки эффективности работы созданной ИИС для поиска и идентификации медиа-данных, показано, что в среднем полнота поиска разработанной ИИС составляет около 90%, точность - около 80% при сопоставимых с существующими системами управления медиа-данными временных затратах.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Частиков А.П., Алёшин А.В., Дедкова Т.Г. Системы искусственного интеллекта. От теории к практике / Учеб. пособие. - Краснодар: Изд-во Куб-ГТУ, 1998.-166 с.

2. Частиков А.П., Алёшин А.В. Синтаксический анализатор экспертной системы продукционного типа // Сб. тезисов научных работ студентов и аспирантов, отмеченных наградами и поощрениями на конкурсах. Выпуск 2. /КубГТУ. - Краснодар, 1998.

3. Частиков А.П., Алёшин А.В., Частикова В.А Методология построения экспертных систем на основе инструментальных оболочек // Педагогические нововведения в высшей школе: технологии, методики, опыт. Материалы IV Всероссийской научно-методической конференции /КубГТУ. Часть И. Информатизация образования и вопросы экранной культуры. - Краснодар, 1998.

4. Частиков А.П., Алешин А.В., Ничепуренко СВ., Частикова В.А Принципы конструирования систем, основанных на знаниях // Педагогические нововведения в высшей школе: технологии, методики, опыт. Материалы IV Всероссийской научно-методической конференции /КубГТУ. Часть II. Информатизация образования и вопросы экранной культуры. - Краснодар, 1998.

5. Малыхина М.П., Алешин А.В., Частикова В.А. Процедуры регенеративного подхода к построению экспертных систем // Инновационные процессы в высшей школе. Материалы V Всероссийской научно-практической конференции/ КубГТУ. Часть II. - Краснодар, 1999.

6. Малыхина М.П., Алешин А.В., Частикова В.А. Экспертная система для оценки качества учебных программ // Материалы X Международной конференции «Применение новых технологий в образовании», 30 июня-3 июля 1999 г., Троицк. - Фонд новых технологии в образовании «Бай-тик», 1999.

7. Частиков А.П., Алёшин А.В., Частикова ВА. Использование метапродукций при проектировании систем, основанных на знаниях // Инновационные процессы в высшей школе. Материалы V Всероссийской научно-практической конференции / КубТТУ. Часть II. - Краснодар, 1999.

8. Частиков А.П., Алёшин А.В., Частикова В.А Выявление аномалий в базах знаний интеллектуальных систем // Международная' научно-техническая конференция «50 лет развития кибернетики». Труды конференции. - СПб: СП6ТТУ, 1999.

9. Частиков А.П., Алёшин А.В., Частикова ВА. Реализация параллельных вычислений в экспертных системах // Интеллектуальные многопроцессорные системы. Тезисы докладов международной научно-технической конференции 1-5 сентября 1999, Таганрог, Россия.

Ю.Частикова В.А., Алешин А.В., Аблязов К.А., Алимова Л.И. Удаленная репликация - средство осуществления электронного обмена данными // Аппаратные и программные средства систем управления в пищевой промышленности // Сборник научных трудов / КубГТУ. - Краснодар, 1999.

П.Алёшин А.В., Частикова В.А. Технология разработки регенеративных экспертных систем // Информационные технологии в образовании. Часть II: Интеграция информационных технологий в образование: Сборник трудов IX международной конференции-выставки. - Москва, 1999.

12.Частиков А.П., Алёшин А.В. Задача выбора инструментальных сред для построения систем, основанных на знаниях // Измерение, контроль, информатизация: Материалы международной научно-технической конференции. - Барнаул: АГТУ, 2000.

13-Алешин В.И., Алешин А.В. Экспертная система мониторинга для обеспечения решений врача в медицине критических состояний // Измерение, контроль, информатизация: Материалы международной научно-технической конференции. - Барнаул: АГТУ, 2000.

14.Частиков А.П., Алешин А.В., Волков С.С. Проблема выбора инструментальных оболочек для построения систем, основанных на знаниях // Сб. Всероссийской научно-технической конференции студентов, молодых ученых и специалистов "Новые информационные технологии в научных иссл. и в образовании". РГРТА. - Рязань, 2000.

15.Частиков А.П., Алешин А.В., Волков С.С. Тенденции развития информационно-поисковых систем // Сб. Всероссийской научно-технической

конференции студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и в образовании». РГРТА. -Рязань, 2000.

16.Частиков А.П., Алёшин А.В. «Select» - эффективная система выбора интеллектуальных оболочек для построения экспертных систем // V Всероссийская научная конференция студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления». Тезисы докладов. - Таганрог: ТРТУ, 2000.

П.Частиков А.П., Алёшин А.В. Разработка метаэкспертной системы для выбора инструментальных систем, основанных на знаниях // X юбилейная конференция-выставка «Информационные технологии в образовании» (ИТ0-2000): Сб. трудов участников конференции. Ч. II. - М.: МИФИ, 2000.

18.Частиков А.П., Алёшин А.В. Разработка системы, основанной на знаниях, для идентификации аудио и видеоданных // Компьютерные технологии в науке, производстве, социальных и экономических процессах: Материалы международной научно-практической конференции / ЮРГТУ. - Новочеркасск: НАБЛА, 2000.

19.Частиков А.П., Алёшин А.В., Частикова В.А. Принципы создания регенеративных экспертных систем // Информационные технологии в моделировании и управлении: Труды II Международной научно-практической конференции. СПб.: Изд-во СП6ТТУ, 2000.

20.Частиков А.П., Алёшин А.В. Идентификация аудио- и видеоданных с использованием систем, основанных на знаниях // Измерение, контроль, информатизация: Материалы второй международной научно-технич. конфЛГод ред. А.Г. Якунина - Барнаул: АГТУ, 2001.

21.Частиков А.П., Алёшин А.В. Решение задачи поиска и идентификации медиаресурсов с использованием интеллектуальной системы, основанной на знаниях // Инновационные процессы в высшей школе. Материалы IX Всероссийской научно-практической конференции. - Краснодар: КубГТУ, 2003.

-2096

РНБ Русский фонд

2004-4 24323

Отпеч ООО «Фирма Тамзи» Зле № 64 тираж 100 экз ф А5, г Краснодар, ут Пашксвская, 79 Гел 55-73-16

Оглавление автор диссертации — кандидата технических наук Алёшин, Александр Владимирович

ВВЕДЕНИЕ

1 СОСТОЯНИЕ ВОПРОСА. ИССЛЕДОВАНИЕ И АНАЛИЗ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ

1.1 Общие сведения. Основные понятия и определения

1.2 Обзор существующих систем поиска и управления медиа-данными

1.2.1 Система архивирования нижнего уровня SONY BZA

Каталогизация

Поиск

Процесс работы

Рабочая среда

Сервер базы данных.

Рабочая станция каталогизации

Просмотровая рабочая станция

1.2.2 Система "Видеоархивъ" компании JCSystem Integration

Пользователи

Поиск

1.2.3 Открытые протоколы файлового обмена AAF и MXFв телерадиовещании

1.2.4 Комплекс «Фабрика Новостей» проекта «ИнтерНовости»

1.3 Недостатки существующих систем поиска и управления медиа-данными

1.4 Постановка задачи поиска и идентификации медиа-данных

1.5 Преимущества метода поиска и идентификации медиа-данных на базе систем, основанных на знаниях

1.6 Обзор существующих систем представления и управления выводом знаний

1.6.1 Логические модели

1.6.2 Сетевые модели

1.6.3 Фреймовые модели

1.6.4 Продукционные модели (системы продукций)

1.7 Выбор формы представления знаний интеллектуальной информационной системы

1.8 Выводы

2 ТЕОРЕТИЧЕСКИЕ ОСНОВЫ И МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ИНТЕЛЛЕКТУАЛЬНОЙ

ИНФОРМАЦИОННОЙ СИСТЕМЫ

2.1 Неформальная модель систем продукций

2.1.1 Основные подсистемы

2.1.2 Неформальная структура модуля базы данных

Характер организации данных

Операции над базой данных

Контроль несовместимости

Ассоциативная надстройка

2.1.3 Неформальная структура модуля правил

Аппарат активации

Структура правил

Представление правил и интерпретатор

2.1.4 Неформальная структура модуля управления

2.1.5 Технология поддержки разработки систем продукций

2.2 Формальные модели систем логического вывода

2.2.1 Реляционная модель Клещева А. С.

2.2.2 К-системы Кузнецова В.Е.

2.2.3 Реляционная модель S. Vere

2.3 Формальная математическая модель системы логического вывода для поиска и идентификации медиа-данных

2.3.1 Основные определения

2.3.2 Операции преобразования ситуации

2.3.3 Условия корректности вычислений над конъюнктивной базой данных

2.3.4 Однозначность вычислений над дизъюнктивной базой

2.4 Управление выводом в системах продукций

2.4.1 Язык управления применением продукций

2.4.2 Язык управления выбором данных

2.5 Выводы

3 АРХИТЕКТУРА ИНТЕЛЛЕКТУАЛЬНОЙ

ИНФОРМАЦИОННОЙ СИСТЕМЫ «МЕДИА-АРХИВ»

И ЕЕ ПРОГРАММНАЯ РЕАЛИЗАЦИЯ

3.1 Структура интеллектуальной информационной системы «Медиа-Архив»

3.1.1 Модуль правил

3.1.2 Модуль управления

3.1.3 Модуль базы данных

3.2 Предметная область

3.2.1 Поиск и идентификация медиа-данных

3.2.2 Ведение баз знаний в медицинском страховании

3.3 Выбор аппаратных и программных средств реализации

3.4 Выводы

4 ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ РАБОТОСПОСОБНОСТИ И ЭФФЕКТИВНОСТИ ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ «МЕДИА-АРХИВ»

4.1 Методы отладки баз знаний интеллектуальных систем

4.1.1 Классификация ошибок в базах знаний

4.1.2 Методы статического анализа баз знаний

4.1.3 Тестирование баз знаний

4.2 Тестирование интеллектуальной информационной системы «Медиа-архив»

4.2.1 Требования к аппаратному обеспечению

4.2.2 Требования к программному обеспечению

4.2.3 Тестирование программного комплекса

4.2.4 Тестирование базы знаний интеллектуальной информационной системы «Медиа-архив»

4.3 Оценка работоспособности и эффективности

4.3.1 Методика оценки эффективности

4.3.2 Экспериментальное исследование эффективности интеллектуальной информационной системы «Медиа-Архив»

4.4 Оценка и расчет экономического эффекта от внедрения

4.4.1 Методика расчета прямого экономического эффекта

4.4.2 Расчет прямого экономического эффекта от внедрения

4.5 Выводы

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Алёшин, Александр Владимирович

Накопление, сохранение и использование информации, знаний и опыта является неотъемлемой частью человека.

На заре цивилизации наши предки рисовали на стене своей пещеры. Со временем мы научились лучше собирать, хранить и распределять информацию при помощи изобразительного искусства, печатного станка, фотографии, кино и видеопроизводства. Дальнейшим шагом в прогрессе стала возможность преобразования накопленной информации в цифровую форму для хранения, управления и распределения при помощи компьютеров и электронных сетей. Такой переход от аналоговых данных к цифровым - огромное достижение, позволяющее взаимодействовать с данными без физических ограничений носителя информации.

Компьютеры уже сравнительно давно стали средством хранения, распределения и управления цифровой информации в таких областях, как банковская деятельность, страхование, управление производством и ряде других. Однако до последнего времени большей частью использовалась текстовая информация, занимавшая небольшие объемы хранения. Значительная же часть информации, описывающая окружающий нас мир, существует в более естественных формах. За пределами компьютерного хранения, например, долгое время оставались обширные звуковые библиотеки, наборы изображений и видеопоследовательностей.

С увеличением быстродействия компьютеров, появлением плат оцифровки видео и звука, разработкой 2D- и ЗО-сканеров и мощных графических программ и акселераторов, стало возможным преобразование в цифровую форму практически любого вида информации. Развитие сетевых и Интернет-технологий позволило передавать эту информацию на любые расстояния без передачи физического носителя.

С появлением новых возможностей все больше и больше данных преобразовывается в цифровой вид. При этом, что также немаловажно, они сохраняются в том виде, в котором были созданы, не подвергаясь каким-либо изменениям под воздействием времени.

Все это огромное количество текстов, изображений, звуковых и видеопоследовательностей, преобразованных в цифровой вид, можно объединить в понятие медиа-данные (или медиаресурсы).

Чем большее количество данных появляется, чем обширнее становятся возможности доступа к ним, тем сложнее отыскать среди всего многообразия именно то, что нужно, а, отыскав, преобразовать (если это необходимо) в нужную форму и использовать с запланированной целью.

Цикл жизни любого контента (содержимого, медиа-данных) начинается с его создания. Создание может происходить как в аналоговом (изделие из любого материала, набросок рисунка на холсте и многое другое), так и сразу в цифровом виде (текст документа на компьютере, ЗБ-модель изделия, цифровая фотография и прочее). Цифровой контент, как правило, легче подвергать редактированию.

Перевод аналогового содержания в цифровое может осуществляться без потерь. Однако такая схема по-прежнему требует больших объемов хранения и больших скоростей передачи данных по компьютерным сетям. Для решения проблемы были разработаны различные варианты алгоритмов компрессии.

После создания того или иного цифрового контента его нужно где-либо сохранить. Важными условиями хранения является легкость поиска и доступа к нему, контроль доступа, целостность справочной информации.

АКТУАЛЬНОСТЬ РАБОТЫ

Только в последние несколько лет компьютерные технологии вышли на тот уровень, когда появилась реальная возможность говорить о возможности внедрения цифровых архивов и компьютеризированных систем управления медиа-данными в видео- и телевизионном производстве. Телевизионные и радиовещательные компании, киностудии и студии видеомонтажа, до недавнего времени консервативно настроенные, захлестнул «цифровой бум».

Переход от аналоговой аудио- и видеозаписи к цифровой, массовое внедрение цифровых носителей данных на магнитной ленте (а в последнее время и систем непосредственной записи на жесткие диски или вещания в локальную сеть - так называемые «безленточные» технологии), возможности организации на базе компьютеризированных рабочих мест и локальной сети единого медиаинформационного пространства компании — все это, без сомнения, гигантский шаг в развитии всей медиа-индустрии. Добавим к этому с каждым годом возрастающие емкости компьютерных носителей информации при постоянном снижении стоимости хранения единицы данных, возможности современных наземных магистральных и спутниковых каналов передачи информации, позволяющих мгновенно получать доступ из любой точки мира к тысячам и десяткам тысяч часов аудио- и видеоматериалов.

К сожалению, неизменным осталось отношение специалистов к качеству (точнее, технологии) хранения информации. Проблемы поиска нужного аудио- или видеофрагмента (изображения, текста и т.д.), с которыми раньше сталкивались только национальные архивы (например, коллекция аудиома-териалов Гостелерадиофонда России — более 390 тысяч рулонов магнитной ленты, содержащей все значительное и ценное из области музыкального и театрального искусства, что было записано для радиовещания с момента появления у нас в стране магнитофонов в первые послевоенные годы и до середины 1990-х годов, то есть до распада единой системы радиовещания), уже сейчас стоят перед крупными и средними компаниями.

Сложность ситуации в том, что методы описания и каталогизации архивируемых материалов остались на прежнем уровне — на каждую единицу архива заполняется стандартная электронная карточка, которая попадает в единую (в лучшем случае иерархическую) базу данных, в которой пользователь может искать информацию по ключевым словам с применением максимум стандартных логических операторов И, ИЛИ, НЕ.

Более того, мировые (SONY, JVC, Grass Valley, Pinnacle, Panasonic) и отечественные (JC System Integration) производители профессионального вещательного оборудования пока не уделяют этой проблеме должного внимания. Их больше интересуют вопросы интеграции разностандартного оборудования, увеличения емкости носителей информации, объединения вещательного тракта с IP-сетями, чем вопросы увеличения эффективности поиска информации в медиа-архивах.

В результате архивирование информации превращается в «вещь в себе», т.к. при неэффективном поиске коэффициент использования архивных материалов ничтожно мал (по сути, основной массив крупного архива никогда не будет найден и повторно использован), в то время как на их хранение затрачиваются немалые средства.

Например, на канале ВВС Choice была поставлена задача более активно использовать архивные материалы, так как реально использовалось всего 28% (!) архивов из-за сложности поиска необходимого материала. И если для ВВС это очень мало, то для отечественных региональных телерадиовещательных компаний процент использования архивных материалов составит не более 5-8%, и то за счет того, что из-за недостатка средств в архив заносятся только выборочные материалы. Или другая ситуация — вместо накопительной схемы добавления информации в архив при недостаточном бюджете на ведение архивного дела старые материалы через определенное время перезаписываются новыми, тем самым компания старается сохранить данные среднесрочного периода, у которых больше всего шансов быть затребованными в производстве.

В таком случае использование прогрессивных технологий искусственного интеллекта для каталогизации и поиска требуемой информации позволит восстановить баланс между опережающим ростом возможностей техники и принципами, технологией производства.

Предлагается для каждой единицы информации, заносимой в архив, помимо стандартных данных, вносить максимум дополнительной уточняющей информации, формализуемой в виде знаний в правила-продукции. В таком случае поиск и идентификация информации будет осуществляться механизмом логического вывода на основе комплексного пользовательского запроса, включающего как точные, так и приблизительные (ненадежные) данные. Соответственно, в результате запроса пользователю будет выдан список конкурирующих гипотез об искомом материале, ранжированных по коэффициенту достоверности.

Следует отметить, что поставленная задача выходит за рамки телерадиокомпаний, а предлагаемое решение - не только для архивов видеоматериалов. Разработанный метод пригоден для упорядочивания, хранения и обработки знаний о любых массивах сложных объектов - в концепцию медиа-данных могут быть объединены любые сущности, информация о которых может быть формально представлена для компьютерной обработки (и чем сложнее природа и свойства каталогизируемых сущностей, тем больший эффект будет получен).

Соответственно, разрабатываемая интеллектуальная информационная система (здесь и далее по тексту ИИС) может с учетом адаптации к специфике предметной области использоваться:

- телерадиовещательными компаниями;

- любыми организациями, использующими крупные специализированные архивы и хранилища;

- научными и исследовательскими организациями, ведущими каталогизацию объектов исследования;

- страховыми компаниями, финансовыми и юридическими организациями.

ЦЕЛЬ РАБОТЫ

Целью настоящей работы является разработка и теоретическое обоснование метода поиска и идентификации медиа-данных, осуществление его реализации на практике в виде интеллектуальной информационной системы.

ЗАДАЧИ ИССЛЕДОВАНИЯ

1. Обобщить опыт создания архивов и систем управления медиа-данными, выявить основные недостатки и пути их преодоления.

2. Разработать принципы построения ИИС для поиска и идентификации медиа-данных.

3. Провести анализ существующих систем представления и управления выводом знаний, выработать неформальную модель систем продукций.

4. Разработать формальную математическую модель системы логического вывода создаваемой ИИС, дополнить ее компонентами, необходимыми для решения поставленных задач в выбранной предметной области.

5. На основе разработанного метода осуществить программную реализацию ИИС для поиска и идентификации медиа-данных.

6. Провести экспериментальную проверку применимости предложенного метода для задачи организации и ведения телерадиовещательного медиа-архива, определить эффективность поиска и идентификации медиа-данных на информационном массиве в реальных производственных условиях.

МЕТОДЫ ИССЛЕДОВАНИЯ

Поставленные задачи решены с применением теории графов, теории нечетких множеств, аппарата математической логики, системного анализа, вычислительной математики, методов инженерии знаний и построения экспертных систем, методов экспертных оценок и математического моделирования.

НАУЧНАЯ НОВИЗНА

Теоретическая значимость выполненных в диссертационной работе исследований заключается в разработке метода поиска и идентификации медиа-данных и состоит в следующем:

1. Осуществлена постановка задачи поиска и идентификации медиа-данных с использованием систем, основанных на знаниях.

2. Предложен метод поиска и идентификации медиа-данных на базе интеллектуальных систем, основанных на знаниях, не имеющий прямых аналогов.

3. Сформулированы принципы построения ИИС для поиска и идентификации медиа-данных.

4. Разработана неформальная модель систем продукций для поиска и идентификации медиа-данных.

5. Разработана формальная математическая модель логического вывода с использованием ненадежных знаний ИИС для поиска и идентификации медиа-данных.

6. Для расширения возможностей механизма логического вывода предложены и неформально описаны языки управления применением продукций и выбором данных.

7. Разработана структура ИИС для поиска и идентификации медиа-данных.

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ

Прикладная ценность полученных результатов заключается в создании интеллектуальной информационной системы «Медиа-архив», реализованной в ряде аппаратно-адаптированных комплексов и позволяющей ощутимо повысить эффективность (точность и полноту) поиска мультимедийных, графических и текстовых материалов по сравнению со стандартными алгоритмами поиска по ключевым словам.

Испытания в производственных условиях телерадиовещательных компаний показали, что разработанные принципы и метод поиска и идентификации медиа-данных могут быть как интегрированы в существующие системы управления медиа-данными (заменяя стандартные процедуры и модули поиска), так и поставляться как независимые программные и программно-аппаратные решения, полностью совместимые с открытыми протоколами и стандартами межпрограммного и программно-аппаратного взаимодействия профессионального телерадиовещательного оборудования.

РЕАЛИЗАЦИЯ РЕЗУЛЬТАТОВ РАБОТЫ

В настоящее время разработанный метод поиска и идентификации медиа-данных программно реализован на языке Object Pascal в среде программирования Borland Delphi и используется в следующих организациях:

1. Государственное унитарное предприятие «Краснодарская государственная краевая телерадиовещательная компания «Новое телевидение Кубани» (НТК, г. Краснодар) - для ведения цифрового видеоархива на основе аппаратно-адаптированного комплекса «Интеллектуальная информационная система «Медиа-архив».

2. Муниципальная телерадиокомпания «Краснодар» (МТРК «Краснодар», г. Краснодар) - для ведения видеоархива и каталогизации хранилища видеокассет на основе аппаратно-независимого комплекса «Интеллектуальная информационная система «Медиа-архив».

3. Общество с ограниченной ответственностью «Страховая медицинская компания «Черномормедстрах» (г. Краснодар) — для ведения мультимедийного архива с использованием аппаратно-независимого прототипа «Интеллектуальная информационная система «Медиа-архив».

Акты, подтверждающие внедрение результатов диссертационной работы в производство, приведены в Приложении А.

АПРОБАЦИЯ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ

Результаты работы докладывались и обсуждались на:

- IV Всероссийской научно-методической конференции «Педагогические нововведения в высшей школе: технологии, методики, опыт» (г. Краснодар, 1998 г.);

- V Всероссийской научно-практической конференции «Инновационные процессы в высшей школе» (г. Краснодар, 1999 г.);

- X Международной конференции «Применение новых технологий в образовании» (г. Троицк, 1999 г.);

- Международной научно-технической конференции «Интеллектуальные многопроцессорные системы» (г. Таганрог, 1999 г.);

- Международной научно-технической конференции «50 лет развития кибернетики» (г. Санкт-Петербург, 1999 г.);

- IX Международной конференции-выставке «Информационные технологии в образовании ИТО-1999» (г. Москва, 1999 г.);

- Международной научно-технической конференции «Измерение, контроль, информатизация» (г. Барнаул, 2000 г.);

- Всероссийской научно-технической конференции студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и в образовании» (г. Рязань, 2000 г.);

- V Всероссийской научной конференции студентов и аспирантов ч

Техническая кибернетика, радиоэлектроника и системы управления» (г. Таганрог, 2000 г.);

- 2-й Международной научно-технической конференции «Информационные технологии в моделировании и управлении» (г. Санкт-Петербург, 2000 г.);

- Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах» (г. Новочеркасск, 2000 г.);

- X Юбилейной конференции-выставке «Информационные технологии в образовании ИТО-2000» (г. Москва, 2000 г.);

- Второй Международной научно-технической конференции «Измерение, контроль, информатизация» (г. Барнаул, 2001 г.);

- IX Всероссийской научно-практической конференции «Инновационные процессы в высшей школе» (г. Краснодар, 2003 г.).

Данная работа выполнялась в рамках гранта Российского фонда фундаментальных исследований 0-01-96009 «Исследование и разработка принципов и методологии построения регенеративных экспертных систем» (Руководитель проекта - профессор Частиков А.П.).

ПУБЛИКАЦИИ

По теме диссертации опубликовано 21 печатная работа. Из них: 16 статей, 1 учебное пособие и 4 тезиса докладов на вышеперечисленных конференциях.

ОСНОВНЫЕ ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ

- результаты сравнительного анализа существующих систем поиска и управления медиа-данными;

- неформальная модель систем продукций для поиска и идентификации медиа-данных;

- принципы построения и структура ИИС для поиска и идентификации медиа-данных;

- формальная математическая модель логического вывода с использованием ненадежных знаний ИИС для поиска и идентификации медиа-данных;

- архитектура машины логического вывода ИИС, модули управления применением продукций и выбором данных;

- критерии оценки эффективности поиска и идентификации медиа-данных;

- результаты оценки прямого экономического эффекта от внедрения в производство ИИС для поиска и идентификации медиа-данных «Медиа-архив».

СТРУКТУРА И ОБЪЕМ РАБОТЫ

Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 155 страницах.

Заключение диссертация на тему "Интеллектуальная информационная система для поиска и идентификации медиа-данных"

4.5 ВЫВОДЫ

В четвертой главе приведены результаты экспериментальных исследований работоспособности и эффективности ИИС «Медиа-архив».

Выполнен обзор методов отладки баз знаний интеллектуальных систем, рассмотрены методы статистического анализа и тестирования продукционных баз знаний.

На основе проведенного сравнительного анализа для проверки баз медиа-знаний из статистических методов был выбран метод попарного сравнения правил и из принципов тестирования было выбрано тестирование по принципу «белого ящика».

Рассмотрены результаты тестирования программного комплекса и баз знаний прототипа ИИС «Медиа-архив» на примере тестового телевизионного архива. Полученные результаты подтвердили стабильность и работоспособность ИИС «Медиа-архив» и оптимальность выдаваемых ею рекомендаций.

Приведена оценка быстродействия и эффективности ИИС «Медиа-архив». Полученные данные позволяют утверждать, что ИИС «Медиа-архив» превосходит по эффективности работы все рассмотренные альтернативные системы при сопоставимых скоростных характеристиках. В среднем, полнота поиска разработанной интеллектуальной информационной системы «Медиа-архив» составляет около 90%, точность - около 80%.

Приведено обоснование экономической эффективности разработки и внедрения ИИС «Медиа-архив». Ожидаемый экономический эффект от внедрения в ГУП КГКТРК «Новое телевидение Кубани» составляет 150000 руб.

ЗАКЛЮЧЕНИЕ

Основным научным результатом диссертационной работы является разработка интеллектуальной информационной системы «Медиа-архив».

Основные теоретические и практические результаты работы заключаются в следующем:

1. Осуществлена постановка задачи, определены методы решения задачи поиска и идентификации медиа-данных.

2. Предложен метод поиска и идентификации медиа-данных на основе систем продукций, не имеющий аналогов для выбранной предметной области.

3. Разработаны принципы построения интеллектуальной системы для поиска и идентификации медиа-данных.

4. Разработана формальная математическая модель логического вывода для поиска и идентификации медиа-данных.

5. Предложены и неформально описаны языки управления применением продукций и выбором данных.

6. Разработана структура интеллектуальной системы для поиска и идентификации медиа-данных.

7. Разработан алгоритм взаимнооднозначного преобразования фреймового и продукционного представления знаний для выбранной предметной области.

8. Разработана, внедрена и протестирована интеллектуальная информационная система для поиска и идентификации медиа-данных.

Библиография Алёшин, Александр Владимирович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Частиков А.П., Гаврилова Т.А., Белов Д.Л. Разработка экспертных систем. Среда CLIPS. СПб.: БХВ-Петербург, 2003. - 608 с.

2. Гаврилова Т.А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992.

3. Дургарян И.С., Пащенко Ф.Ф. Информационные методы идентификации / Препринт. М.: Институт проблем управления им. В.А. Трапезникова РАН, 1999.

4. Нильсон Н. Принципы искусственного интеллекта. М.: Радио и связь, 1985.

5. Статические и динамические экспертные системы: Уч. Пособие / Попов Э.В., Фоминых И.Б., Кисель Е.Б., Шапот М.Д. М.: Финансы и статистика, 1996. — 320 с.

6. Попов Э.В. Особенности разработки и использования экспертных систем // Искусственный интеллект. Системы общения и экспертные системы / под. ред. Попова Э.В., Кн. 1.- М.: Радио и связь, 1990.

7. Вальковский В.А. Семантика манипуляции с базой данных интеллектуальных систем// НТИ. 1984. - Сер. 2, N 3. - С. 14-19.

8. Осуга С. Обработка знаний: Пер. с япон. М.: Мир, 1989.

9. Уотерман Д. Руководство по экспертным системам. — М.: Мир, 1989. — 384 с.

10. Ю.Ростов Е. Системы управления медиаресурсами // 625. 2000. - № 5. С. 5-28.

11. Н.Мазо В., Лобунец А., Соколов Ю. О пользе консерватизма в консервировании, или Еще раз о цифровых видеоархивах // 625. — 2002. -№ 4. С. 5-40.

12. Немцова С., Ратманский Л. Проблемы телевизионного архивирования Софрино-2001 и Восточно-европейский семинар. // 625. 2001. — № 7. С. 50-56.

13. З.Виноградова Э.Л. Повсеместное внедрение цифровых технологий опирается на массовый спрос // Broadcasting Телевидение и радиовещание. -2001.-№4(16). С. 12-18.

14. К. Tahara, Н. Gaggioni. MXF Technology Enabler for IT-Based Broadcast Operations. SONY Electronics inc.

15. Представление и использование знаний: Пер. с япон. /Под ред. X. Уэно, М. Исидзука. М.: Мир, 1989.

16. Экспертные системы: инструментальные средства разработки: Учебн. Пособие / Керов JI.A., Частиков А.П., Юдин Ю.В., Юхтенко В.А.; Под ред. Юдина Ю.В. СПб.: Политехника, 1996 - 220 с.

17. Частиков А.П., Дедкова Т.Г., Бельченко В.Е. Инструментальные средства программирования экспертных систем. Экспертные оболочки: Учеб. пособие. Краснодар: КубГТУ, 1996. - 102 с.

18. Краткий словарь иностранных слов. Изд. четвертое/ Под общ. ред. И.В. Лёхина, Ф.Н. Петрова. // М.: ОГИЗ Государственное издательство иностранных и национальных словарей. 1947,480 с.

19. Нариньяни А.С. Недоопределенные множества новый тип данных для представления знаний. - Новосибирск, 1980. - 28 с. - (Препр./АН СССР. Сиб. отд-ние. ВЦ; 232).

20. Нариньяни А.С. Система продукций как модульный программный комплекс// Прикладные и экспериментальные процессоры. — Новосибирск, 1985. с. 125-152.

21. Нариньяни А.С. Технология интеллектуальных систем: итоги и перспективы // Конструирование программных средств интеллектуализации. Новосибирск, 1988. - с. 6-35.

22. Клещев А.С. Реляционный язык как программное средство для искусственного интеллекта. Владивосток, 1980. 17 с. (Препринт/ ДВНЦ АН СССР; 26).

23. Клещев А.С. Реляционная модель вычислений // Программирование. -1980.-№4.-с. 20-29.

24. Кузнецов В.Е. Представление в ЭВМ неформальных процедур. — М.: Наука, 1989. -158 стр.

25. Яхно Т.М. Формальная модель вычислений в системах продукций // Известия АН СССР. Техническая кибернетика. —1988. -№ 2. с. 76-81.

26. Нариньяни А.С., Яхно Т.М. Продукционные системы // Представление знаний в человеко-машинных и робототехнических системах. — М.: Изд. ВИНИТИ. 1984. - с. 136-177.

27. Поспелов Д.А. Ситуационное управление: теория и практика. — М.: Наука, 1986.

28. Поспелов ДА., Кандрашина Е.Ю., Литвинцева JI.B. Представление знаний о времени и пространстве в интеллектуальных системах. М.: Наука, 1989.

29. Осипов Г.С. Инструментарий для экспертных систем. Технология SIMER+MIR // Программные продукты и системы. № 3, 1990. — с. 2332.

30. Попов Э.В., Фирдман Г.Р. Алгоритмические основы интеллектуальных роботов и искусственного интеллекта. — М.: Наука, 1976. 235 с.

31. Нариньяни А., Яхно Т. Продукционные системы, -в кн. Представление знаний в человеко-машинных и робототехнических системах. -М.: ВЦ АН СССР, ВИНИТИ, 1984. с. 136-177.

32. Попов Э.В. Экспертные системы. М.: Наука, 1987.

33. Поспелов И.Г., Поспелова Л.Я. Динамическое описание систем продукций и проверка непротиворечивости продукционных экспертных систем. Изв. АН СССР, ТК, 1987, №1,-с. 184-192.

34. Кузнецов В.Е. Представление в ЭВМ неформальных процедур/с послесловием Д.А. Поспелова. М.: Наука, 1989. - 160 с.

35. Клоксин У., Меллиш К. Программирование на языке Пролог: Пер. с англ. М.: Мир, 1987. - 336 с.

36. Нильсон Н. Искусственный интеллект. Методы поиска решений. М.: Мир, 1973.

37. Долинина О.Н. Обнаружение ошибок типа «забывание об исключении» в продукционных базах знаний экспертных систем. Сарат. гос. техн. ун-т. Саратов, 1997. - Деп. в ВИНИТИ N678-B97.

38. Построение экспертных систем // Ред.: Хейес-Рот Ф., Уотерман Д., Ле-нат Д. М.: Мир, 1987.

39. Яхно Т.М. Управление выводом в системах продукций // Теоретические и прикладные вопросы обработки параллельной информации. — Новосибирск, 1984. С. 34-43.

40. Девис М. Устранение лишнего из механических доказательств // Кибернетический сб.: Пер. с англ. М.: Мир, 1970. — Вып.7. - с. 160-179.

41. Артемьева И.Л. и др. Инструментальный комплекс для реализации языков представления знаний // Программирование. 1983. — № 4. - с. 7889.

42. Хогтер К. Введение в логическое программирование: пер. с англ.- М.: Мир, 1988.-348 с.

43. Яхно Т.М. Системы продукций в логике поведения и средства их спецификации. Новосибирск, 1985. - 31 с. — (Препринт/ АН СССР. Сиб. отд-ние. ВЦ; 608).

44. Клоксин У., Меллиш К. Программирование на языке ПРОЛОГ. -М.: Мир, 1987.

45. Мальцев А.И. Алгоритмы и рекурсивные функции. М.:Наука, 1965.

46. Лозовский B.C. Задание реляционной базы данных в виде мультисети и реализация поиска по образцу / Информационное и программное обеспечение систем ситуационного управления (ИК АН УССР 78 -14) — с. 13-24.

47. Частиков А.П., Алёшин А.В., Частикова В.А. Принципы создания регенеративных экспертных систем // Информационные технологии вмоделировании и управлении: Труды II Международной научно-практической конференции. СПб.: Изд-во СПбГТУ, 2000.

48. Нечеткие множества в моделях управления и искусственного интеллекта (под ред. Поспелова Д.А.) -М., Наука, 1986.

49. Лифшиц А.Я. Реализация транслятора с реляционного языка и опыт его эксплуатации// Системное и теоретическое программирование. -Кишинев, 1984.-с. 245-248.

50. Марков А.А. Теория алгоритмов. М.: Изд. АН СССР, 1954. - (Тр. Мат. ин-та им. В.А.Стеклова; 42).

51. Майерс Г. Искусство тестирования программ / пер. с анг. под ред. Б.А. Позина. — М.:Финансы и статистика, 1982. 176 с.

52. Частиков А.П., Алёшин А.В., Частикова В.А. Выявление аномалий в базах знаний интеллектуальных систем // Международная научно-техническая конференция «50 лет развития кибернетики». Труды конференции. СПб: СПбГТУ, 1999.

53. Уинстон П. Искусственный интеллект. -М.: Мир, 1980.

54. Bertalanffy Ludwig von. General System Theory // Fifth Printing, George Braziller, New York, 1975.-176 p.

55. Nguyen Т., Perkins W., Laffey Т., Pecora W. Checking Expert System Knowledge bases for consistency and completeness // Proc. of the 9th Int. Joint Conf. on AI, Los.Ang. August 1985, p. 375-378.

56. Gallaire H., Minker J. (eds.) Logic and Data Bases. N.Y.: Plenum Press, 1978.-458 p.

57. Feigenbaum E., Feldman J. Computers and Thought. New York: McGraw-Hill, 1963.

58. Simon H. The Science of the Artificial. Cambridge, MA: The MIT Press, 1969.

59. Slagle J. Artificial Intelligence: The Heuristic Programming Approach. New York: McGraw-Hill, 1971.

60. Green С. Theorem Proving by resolution as a basis question-answering system // Mach. Intell. V.4. 1969. - P. 183 -205. 125.

61. Nazareth D.L. Issues in the verification of knowledge based systems. // Int. J. Man-Machine Studies, 30,1989, p. 251 271.

62. Robinson AJ. A Machine oriented Logic based on the Resolution. -JACM 12, 1965.-P. 23-41.

63. Newell A. Production systems: models of control structures // Visual Information Processing. 1969. - Vol. 3. - P. 362-414.

64. Padalkar S., Karsai G., Biegl C., Sztipanovits J. Real-Time Fault Diagnostics // IEEE Expert, vol.6, №3,1991p.75-84.

65. Qurston D., Mooney R.J. Changing the Rules: A Comprehensive Approach to Theory Refinement // Proc.8th National Conference on AI (АААГ90), 1990. — P.815-820.

66. Tepandi J. Comparison of Expert System Verification Criteria: Redundancy // Proc. ECAI 90 Conference, Stockholm, 1990. p. 49-62.

67. Quillian M.R. Semantic memory // Semantic Information Proc. Cambridge, Mass.: MIT Press, 1968. - P. 227-270.

68. Minsky M. A framework for representation knowledge. // The Psychology of Computer Vision, P. Winston (ed.), McGraw Hill, 1975. P.201-259.

69. Davis R. Application of meta-level knowledge to the consultation maintenance and use of large knowledge bases// Сотр. Sci. Dep. Stanford University: Report STAN-CS-76-552. -1976.

70. Miranker D. Special Issue on the Parallel Execution of Rule Systems // Journal of Parallel Distributed Computing V. 13. № 4,1991.

71. Davis R. et al. Production rules as a representation for a knowledge-based consultation program // Сотр. Sci. Dep. Stanford University: Report STAN-CS-75-519.-1975.-37p.

72. Suwa H., Scott A.C., Shotliffe. An Approach to verifying Consistency and Completeness in a Rule-Based Expert System // Rule-Based Expert Sys-tems.-London: Addison Wesley, 1984. - p. 159-170.

73. Forgy C., McDermott J. OPS: A domain-independent production system language// Proc. of IJCAI-5. Stanford, 1977. - P. 933-939.

74. Nguyen T.A. Verifying consistency of Production Systems // Proc. of Conf. on AI Applications (CAIA), 3rd, Kissimmee, Fl, 1987. p. 4-8.

75. Scambos E.T. A Scenario-Based Tool for Examining Expert systems // Proc. of IEEE Int. Conf. on Systems, Man, and Cybernetics, 1986. p. 131-135.

76. Vere S.A. Relational production system // Artificial Intelligence. — 1977. -№8.-P. 47-68.

77. Wizsing M. et al. On hierarchies of abstract data types// Acta Informatica. -1983.-Vol. 20.-P. 1-34.

78. Van Melle. A domain independent production rule system for consultation programs // Proc. of IJCAI-6. Tokyo, 1979. - P. 923-925.

79. Georgeff M.A. Procedural control in production systems// Artificial Intelligence. 1982.-Vol. 18. - P. 175-201.

80. Keller R.M. A fundamental theorem of asynchronous parallel computation // Lect. Notes in Сотр. Sci. Parallel Processing. 1975. - № 24. - P. 102-112.

81. Kowalski R. Algorithm=Logic+Control // Com. ACM. 1979. - Vol. 22, № 7.-P. 424-436.

82. McDermott J. et al. The efficiency of certain production system implementation / Pattern-Directed Inference Systems. 1978. - P. 155-176.

83. Erman L. et al. The HEARSAY-II speech understanding system. Integrating knowledge to resolve uncertainty // Сотр. Survey. 1980. - Vol. 12(2). -P. 213-253.