автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка и исследование нечетких моделей динамического упорядочения информационных ресурсов в хранилищах данных с учетом их востребованности потребителями информации
Автореферат диссертации по теме "Разработка и исследование нечетких моделей динамического упорядочения информационных ресурсов в хранилищах данных с учетом их востребованности потребителями информации"
МИНОБРНАУКИ РОССИИ
Федеральное государственное автономное образовательное учреждение высшего профессионального образования «ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ В г. ТАГАНРОГЕ
ного университета)
На правах рукописи ТИЕКЛЕНГ
РАЗРАБОТКА И ИССЛЕДОВАНИЕ НЕЧЕТКИХ МОДЕЛЕЙ ДИНАМИЧЕСКОГО УПОРЯДОЧЕНИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ В ХРАНИЛИЩАХ ДАННЫХ С УЧЕТОМ ИХ ВОСТРЕБОВАННОСТИ ПОТРЕБИТЕЛЯМИ ИНФОРМАЦИИ л
Специальность:
05.13.17 - Теоретические основы информатики
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
2 ИЮН 2011
Таганрог - 2011
4849345
Работа выполнена на кафедре математического обеспечения и применения ЭВМ факультета автоматики и вычислительной техники Федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный Федеральный Университет» Технологический институт в г. Таганроге (ТТИ Южного федерального университета).
НАУЧНЫЙ РУКОВОДИТЕЛЬ:
доктор технических наук, профессор Вишняков Юрий Муссович
ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:
доктор технических наук, профессор Чернухин Юрий Викторович;
кандидат технических наук, Спиридонов Олег Борисович.
ВЕДУЩАЯ ОРГАНИЗАЦИЯ:
ОАО «ТАНТК им. Г.М. Бериева», г.Таганрог.
Защита диссертации состоится « 17 » июня 2011 г. в 1420 на заседании диссертационного совета (Д 212.208.21) при Южном федеральном университете по адресу: 347928 г.Таганрог, пер.Некрасовский, 44, ауд. Д-406.
Просим Вас прислать отзыв, заверенный гербовой печатью учреждения, п адресу: 347928, Ростовская область, г. Таганрог, пре. Некрасовский, 44, Технологи ческий институт\Южного федерального университета в г. Таганроге. Ученому сек ретарю диссертационного совета Д 212.208.21 Чернову Николаю Иванову.
С диссертацией можно ознакомиться в Зональной научной библиотеке ЮФ1 по адресу: 344007, Ростовская обл. г., Ростов-на-Дону, ул. Пушкинская, 148.
Автореферат разослан «14» мая 2011 г.
Ученый секретарь
диссертационного совета Д 212.208.21, доктор технических наук, профессор
Чернов Н.И.
Актуальность проблемы. В настоящее время в связи с развитием глобальных информационных коммуникаций все большее значение приобретает доступ к информационным ресурсам, представленным в электронном виде. В связи с этим появляется острая необходимость создания различного рода электронных хранилищ данных (ХД), которые обладали бы свойствами адаптации к запросам потребителей и подстраивались под их потребности. Это может быть достигнуто, если в хранилищах данных будут предусмотрены соответствующие механизмы адаптации и динамического упорядочения информационных ресурсов (ИР).
Сегодня разработка хранилищ ИР, в которых предусматриваются выше названые функции, является сложной и до конца не решенной задачей, а ее исследованию посвящен ряд научных работ авторитетных исследователей. Среди них следует отметить работы: Уильяма Инмона (Liam Inmon), Дугласа Хэкниа (Douglas Hackney), Доринна Хосса (Dorinny Hoss), Вишнякова Ю.М.. Однако, общее решение данной проблемы до сих пор не найдено. Это обстоятельство послужило основанием для формулировки темы диссертационного исследования, которое направлено на разработку и исследование адаптационных механизмов хранилищ данных, ориентированных на потребности потребителей информации.
Целью работы является разработка и исследование нечетких моделей динамического упорядочивания информационных ресурсов в хранилищах данных с учетом их востребованности потребителями информации.
Основные задачи диссертационного исследования:
1. Провести сравнительный анализ эффективности известных подходов к хранению информационных ресурсов и доступу к ним, а также провести исследование факторов информационных запросов, влияющих на качество поиска информационных ресурсов в хранилищах данных.
2. Исследовать частотные характеристики востребованности информационных ресурсов хранилища данных и изучить вопросы использования данных частотных характеристик в качестве параметров востребованности информационных ресурсов со стороны потребителей информации.
3. Разработать нечеткую классификацию информационных ресурсов на основе их востребованности потребителями информации, нечеткую модель группы потребителей на основе их интересов к информационным ресурсам и модель учета интересов потребителей информационных ресурсов в упорядочении индекс-каталогов.
4. Провести экспериментальное исследование основных теоретических по-южений диссертационного исследования.
Объект исследований: нечеткие модели динамического упорядочения информационных ресурсов в хранилищах данных с учетом их востребованности потребителями информации.
Методы исследования основываются на нечеткой математике, комбинаторике, теории информационных систем, методах классификации, информационного поиска, а также методах обработки результатов экспериментов.
Научная новизна работы заключается в следующем:
1. На основе сравнительного анализа известных подходов к хранению информационных ресурсов и доступу к ним, а так же анализа факторов информацион-
ных запросов, влияющих на качество поиска информации в хранилищах данных, показано, что учет интересов потребителей может существенно повысить качество выдачи информационных ресурсов.
2. Предложено использовать частотную характеристику информационного ресурса в качестве характеристики его востребованности со стороны потребителей информации и на ее основе проводить динамическое упорядочение индекс-каталогов.
3. Разработаны нечеткая классификация информационных ресурсов на основе их востребованности потребителями информации, нечеткая модель группы потребителей на основе их интересов к информационным ресурсам и модель учета интересов потребителей информационных ресурсов в упорядочении индекс-каталогов, которые совместно образуют механизм эффективного доступа к информационным ресурсам хранилища данных, учитывающий их востребованность со стороны потребителей информации.
4. Проведено экспериментальное исследование основных теоретических положений диссертации, для которого разработана математическая модель представления запросов потребителей информации и построен моделирующий программный комплекс, результаты проведенных экспериментов на котором подтвердили основные теоретические положения.
Основные положения, выносимые на защиту:
1. Нечеткая частотная характеристика информационного ресурса, которая представляет его востребованность со стороны потребителей информации и используется для динамического упорядочения индекс-каталогов.
2. Нечеткие классификации информационных ресурсов на основе их востребованности потребителями информации, нечеткая модель группы потребителей на основе их интересов к информационным ресурсам и модель учета интересов потребителей информационных ресурсов в упорядочении индекс-каталогов, которые совместно реализуют механизм эффективного доступа к информационным ресурсам хранилища данных, учитывающий их востребованность со стороны потребителей информации.
Практическая ценность диссертационного исследования состоит в том, чт разработанные нечеткие модели динамического упорядочения информационны ресурсов в хранилищах данных с учетом их востребованности потребителями информации позволяют реализовать механизм эффективного доступа разных катего рий потребителей к информационным ресурсам с учетом их интересов, которы может быть использован в электронных хранилищах информационных ресурсо различного назначения.
Достоверность результатов подтверждается корректным использование! методов нечеткой математики, комбинаторики, теории информационных систем методов классификации, информационного поиска, а также методов обработки ре зультатов экспериментов.
Использование результатов работы. Результаты диссертационного исследования используются в ряде научно-исследовательских работ, выполненных в международной лаборатории ЕЬБГС, и учебном процессе по дисциплине "Организация электронных архивов данных" магистерской программы "Интеллектуальные
системы" по направлению 230100 "Информатика и вычислительная техника" факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Разработанный механизм доступа к информационным ресурсам хранилища данных, учитывающий их востребованность со стороны потребителей информации, реализован программно и использован при разработке электронной библиотеки международной лаборатории ELDIC, а также в научных исследованиях факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Апробация результатов работы. Основные результаты работы неоднократно докладывались и обсуждались на конференциях и семинарах различного уровня, в том числе на IV Всероссийской научной конференции молодых ученых, аспирантов и студентов "Техническая кибернетика, радиоэлектроника и системы управления", Таганрог, 2006; Всероссийской научной школа-семинар студентов, аспирантов и молодых ученых "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки", Таганрог, 2007; Всероссийской научной школа-семинар студентов, аспирантов и молодых ученых "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки", Таганрог, 2008; V Всероссийской конференции студентов, аспирантов и молодых ученых Технологии Microsoft в теории и практике программирования, Таганрог, 2008; VI Всероссийской научной конференции представлены доклады и сообщения студентов, аспирантов и молодых ученых вузов России по информационным технологиям, системную анализу и управлению "Информационные технологии, системный анализ и управление", Таганрог, 2008; Известия ЮФУ, "Технические науки", Тематический выпуск "Интеллектуальный САПР", Таганрог, 2008; Всероссийской научной школа-семинар молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки", Таганрог, 2009.
Публикации. По материалам диссертации автором опубликовано 13 печатных работ, в том числе одна статья в издании из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.
Структура и объем работы. Материал основной части работы изложен на 144 страницах машинописного текста. Работа состоит из введения, четырех разделов, заключения и списка литературы из 132 наименований, содержит 53 рисунки, л 1 таблицу и 2 приложения на 20 страницах.
Краткое содержанке работы
Во введении обоснована актуальность проблемы, сформированы цели и задачи диссертационного исследования.
В первом разделе определены основные понятия, используемые в диссертационном исследовании, проведен анализ существующих подходов к созданию эффективных методов хранения ИР и доступа к ним. Рассмотрены и проанализированы иерархические и фасетные методы классификации и предложено учитывать интересы потребителей информации в упорядоченности динамических индекс-каталогах. Рассмотрены особенности организации индекс-каталогов, кластеризация потребителей ИР по интересам и учету этих интересов в упорядоченности индекс-каталогов. Пока-
зано, что в качестве характеристики, отражающей интересы потребителей информа ции, может быть использована частота обращений к ИР.
Во втором разделе проведен анализ влияния факторов информационных запросов на качество поиска и информационную выдачу. Здесь выявлена зависимость точности поиска от числа слов в поисковом запросе, а также проанализирована процедуры сравнения слов.
Для решения поставленных задач была построена асимптотическая функция точности поиска из предположения, что поисковое пространство содержит только релевантные запросам ИР. Перове допущение, если на поисковый запрос выдается один ИР, то предполагается, что точность поиска соответствует /?, если п ИР, то точность соответствует а. Эти значения определены как крайние точки шкалы точности и из практического опыта для них выбраны следующие значения: п = 30, 0 = 1, а = 0,03.
Второе допущение состояло в том, что точность поиска (у) связана с числом ИР (х) линейной зависимостью вида:
у = к ■ х + Ь. (1)
Для определения параметров к иЬ составлена система уравнений вида: (р = к х 1 + Ь; 1а = к*п + Ь,
и для частного случая п = 30, /? = 1, а = 0,03 решения системы уравнений имеют следующий вид: Ь = 1,03 и к — —0,03.
Далее определялась точность поиска в зависимости от числа слов в поисковом запросе. Так, средние результаты точности по реквизиту "Авторы" и "Название" в зависимости от числа используемых ключевых слов в поисковом запросе представлены соответственно на следующих графиках.
Из анализа зависимости, который подтвержден экспериментами, следует, чт для обеспечения приемлемой точности поиска вполне достаточно в поисковом за просе использовать по два слова из каждого реквизита ИР.
Исследующее исследование точности связывалось с комбинаторной оценко числа сравниваемых букв словах. Пусть задан некоторый алфави ^ - {Яг1»Яг2. — |Ощ} и некоторая цепочка а из букв данного алфавита. Разделим це почку а на две подцепочки ар - голова и ач - хвост таким образом, что п = р + д.
Множество всех цепочек М длины п, которое можно построить из букв дан ного алфавита, имеет вид:
М = А1 и А2 и ... и А", (3)
мощность данного множества (3) без учета пустой цепочки представляется в виде:
\М\ = т1 +т2 + •■• + тп (4)
Если обозначить через подмножество М(аг1аг2 — агр) совокупность всех цепочек, имеющих одно и ту же голову ар = аг1аг2 ...аГр. то все цепочки множества М, имеющие не пустой хвост цепочки, неразличимы по голове ар.
Комбинаторно мощность множества М(аг1аг2... агр) определяется следующим образом:
|м(аг1аг2...агр)| = т° 4- т1 + ••• + т" (5)
При этом т° соответствует случаю пустого хвоста у головы аг1аг2... агр, ш1 соответствует однобуквенному хвосту, ... и тч соответствует хвосту из <7 букв.
Введем следующий коэффициент неразличимости цепочек:
К,,сГат, = ^ (6)
Здесь N соответствует числу всех цепочек до длины п включительно, а - числу неразличимых цепочек.
Неразличимую цепочку определим следующим образом. Выделим голову аг1аг2... агр из р символов некоторой цепочки а. Очевидно, что любая цепочка /? £ М, которая имеет длину меньше или равную р, является различимой по отношению к голове аг1аг2... агр, т.е. условие различимости записывается в виде: \Р\ < р . В тоже время условие |/?| > р является противоположным и представляет условие неразличимости.
В диссертации показывается, что коэффициент неразличимости для цепочек из р символов определяется соотношением вида:
_ трх(т1+т2+—+тп~р) кнеразл - т1+т2+...+тп
Из данного соотношения можно получить следующее выражение коэффициента неразличимости для голов цепочек из р символов:
_ тРх(то"-Р-1) _ _ тР-1 ^неразл ~ тП_г ~ 1 т„_1
Далее в диссертации проводится сравнительный анализ комбинаторных оценок коэффициента неразличимости и результаты его экспериментального моделирования для русского языка (т = 33) в предположении, что длина сравниваемых слов не превышает 10. Сравнительный анализ теоретических и экспериментальных данных показывают практических полное их совпадение.
В третьем разделе определяются базовые теоретико-множественные понятия и соотношения, которые составляют основу динамического упорядочения ИР. Здесь разрабатываются нечеткая классификация ИР на основе их востребованности потребителями ИР, нечеткая модель группы потребителей на основе их интересов к ИР и модель учета интересов потребителей ИР в упорядочении индекс-каталогов, которые совместно образуют механизм эффективного доступа к хранилищу данных.
Пусть индекс-каталог содержит следующее множество ИР:
/ = {аиа2,а3,...,ап}, (9)
где: а; - имя ИР, ау - его порядковый номер.
Пусть за некоторый, достаточно длительный период времени Т к ]-о.му ИР происходит обращения потребителей. Обозначим через текущую частоту обращения к данному ИР в момент времени £:. Отметим, что за период времени Т текущая частота обращения к данному ИР может изменять свои значения. Обозначим
через fmax - максимальное значение текущей частоты обращений ft за период Т для такого ИР индекс-каталога, к которому идет наибольшее число обращений:
/max = max (fi) (10>
т
Введем понятие нормализованного веса ИР, который обозначим через w и определим следующим образом:
w = (11)
Imax
Очевидно, что значение веса ИР всегда лежит в интервале 0 < w <1.
Введем для каждого ИР индекс-каталога характеристический вектор вида: (oi, Mj, W;), в котором aL - имя i-ro ИР, М, - число обращений к нему за период Т, vv; - вес ИР. Все характеристические вектора конкретного индекс-каталога соберем в одну таблицу, которую назовем характеристической таблицей векторов ИР данного индекс-каталога. Очевидно, что таблица характеристических векторов всегда отражает текущее состояние обращений к ИР.
Теперь рассмотрим нечеткую классификацию ИР на основе понятия нечеткой частоты востребованности. Для этого разобьем условно множество ИР на п подмножеств в соответствии с частотой обращения к ИР. Без потери общности рассуждения можно принять п = 3, что реально соответствует практическому случаю. Тогда множество ИР индекс-каталога разбивается на три подмножества А, В и С в соответствии со значением текущей частоты обращения к ИР. Будем считать, что подмножество А, В и С содержат ИР, к которым обращаются редко, средне и часто. Данные подмножества можно представить в виде:
А = {ас, /(а4)е[г! ..г2)};
В = {Ь0 /(Л()е[г2..г3)}; (12)
C = {q; f(Ci)e[r3..r4]}; h < r2 < r3 < r4.
Здесь параметрические переменные rb r2,r3 и г4 задают разбиение всего интервала нормализованных частот на непересекающиеся подинтервалы.
В процессе обращения потребителей информации к индекс-каталогу частоты обращения к ИР могут меняться и поэтому принадлежность элементов подмножеств может перераспределяться в соответствии с представленной ниже схемы.
Индекс-каталог
Если множество ИР индекс-каталога рассматривать как базовую шкалу, то на ней можно построить нечеткие множества ИР вида "Редко", "Средне" и "Часто":
"Редко" = {а<; wi . г2)};
"Средне" — {Ь^ ^(Ь,); ^ е[г2.. г3)}; (13)
"Часто" = {ас^ wl в[г3.. г4]};
где: ИР аь веса которых IV, . г2) составляют множество-носитель нечеткого множества "Редко"; ИР ¿¡, веса которых 1У£е[г2..г3) составляют множество-носитель нечеткого множества "Средне"; ИР сь веса которых и^е^Гз..^) составляют множество-носитель нечеткого множества "Часто".
Свяжем частоту обращения к ИР с лингвистической переменной (ЛП), которую определим следующим образом:
(a,T,X,G,M>, (14)
где: а - имя ЛП, в качестве которой выступает нормализованная частота обращения к ИР; Т - терм-множество ЛП, которое представляет следующее множество ее значений: Т = {"очень редко", "редко", "средне", "часто", "очень часто"}; X - базовое множество, которое является областью определения термов и представляет собой интервал значений [0. .1] нормализованных частот обращений к ИР; G - процедура образования новых термов с помощью связок "и", "или" и модификаторов типа "очень", "не", "очень" и др.; М - процедура задания на X — [0. .1] нечетких подмножеств А1 - "очень редко", Л2 = "редко", А3 = "средне", Л4 = "часто" и Л5 = "очень часто" а также нечетких множеств для термов из G(T) в соответствии с правилами трансляции нечетких связок и модификаторов "и", "или", "не", "очень", а также операций над нечеткими множествами.
Вместе с рассмотренными выше базовыми значениями ЛП а, которое представляет терм-множество Т ={"очень редко", "редко", "средне", "часто", "очень часто"}, можно в последующем определять значения ЛП а в виде нечетких чисел.
Очевидно, что используя частотные свойства ИР, можно их учитывать при управлении содержимым ХД. Так, невостребованные ресурсы могут удаляться, к некотором ресурсам может применяться условное удаление, наиболее востребованным ресурсам может приписываться особый статус, а в случае уменьшения их востребованности к ним могут применяться не жесткие санкции по удалению. Учитывая данные обстоятельства, можно построить правила редактирования ХД.
Рассмотрим нечеткие модели групп потребителей на основе интересов к ИР. В общем случае все группы потребителей ИР можно представить в виде множества: Us = {Name1,Name2, - .Namej, ...,Namen}, (15)
в котором список членов обобщенной группы имеет вид:
Namej = {namel,name2, ....namel,...,name4}. (16)
Введем для каждого члена некоторой группы Name характеристику р, принимающую значения на интервале [0..1], и свяжем ее с интересом потребителя. Тогда группу Name можно представить в виде нечеткого множества следующего вида: Name = {{Name1,p1), (Name2,p2),..., (/Vamei(p¿),..., (A/arnem,pm)} (17) С учетом выше рассмотренного нечеткое множество всех потребителей ИР можно представить в виде:
Us — {NameltName2,..-,Namej, ...,Namen). (18)
Определим для нечеткого множества группы потребителей Name абсолютный суммарный вес интересов в виде суммы интересов всех ее членов:
Pname = (Pi) (19)
По этой аналогии введем абсолютный суммарный вес интересов всего множества потребителей Us:
Pus = (^Namej) (20)
Проведем нормирование веса отдельной группы потребителей Namei.
кName i = ~7Г ^ (21)
а для отдельного j-го члена Namet группы потребителей его нормированный вес будет иметь вид:
/ Л РName;:
к{Ыатец) = -j^f, (22)
Таким образом, в формализованной нечеткой модели группы потребителей основу представляет интегральный вес интересов к ИР.
Теперь рассмотрим, каким образом следует учитывать этот интерес групп потребителей при упорядочении ИР в индекс-каталоге. Пусть существует М видов ИР некоторой предметной области, с которой работают все группы потребителей. Не трудно заметить, что у одной и той же группы потребителей степень востребованности разных видов ИР отличается. Очевидно, что для групп потребителей, интересы которых выше, должно отдаваться предпочтения и их интересы должны учитываться в первую очередь. Учтем этот интерес на основе текущей частоты обращения к ИР. Выделим некоторый отдельный ИР в индекс-каталоге и будем считать, что к нему за некоторый интервал времени происходит обращения всех групп потребителей. Очевидно, что частота обращений к данному ИР будет складываться из частот обращений каждого потребителя в виде:
ftName = JX=1ftNamei, (23)
где каждый член суммы определяется следующим образом:
/Гте> = CUname/- (24)
здесь rrij число членов j-ой группы потребителей.
Теперь введем текущую частоту обращения к ИР группы потребителей с учетом ее интересов, получим:
fNamei _ . fNamei
it — KNamei * h
С учетом данного выражения общая частота обращения к ИР может быть представлена в виде:
jrName _ fNamet (26)
Именно эта частота является характеристикой востребованности информационного ресурса и должно учитываться при упорядочении ИР в индекс-каталоге.
Далее общие теоретические результаты поясним на примере конкретных групп потребителей «Ученики» - Pup, «Студенты»- St, «Инженеры» - Eng, «Учителя» -Те и «Преподаватели»- Рг. Так, для этих групп интересы потребителей их интересы выражаются следующими соотношениями:
Гр = кРир * ftPup-, (27)
ftSt = kst * Л"; (28)
ftEn9 = кЕпд * ftEn9: (29)
ftTe = кТе * fle\ (30)
/Л = fcPr * /Л (3D
а общая частота обращения к ИР с учетом интересов всех потребителей примет вид:
f(us = ¡Pup + fst + ;яп3 + fre + /Л (32)
Экспериментальные данные по данным групп потребителей представлены в табл. I и 2.
Таблица 1. Нормированные весовые коэффициенты для членов групп потребителей
иБег Рир Епя Те Рг
/ к(рир() к(Б^) к(епд() кШ *(РП)
1 0.028 0.030 0.028 0.022 0.025
2 0.030 0.023 0.023 0.023 0.028
3 0.024 0.032 0.020 0.031 0.029
4 0.022 0.029 0.030 0.029 0.031
5 0.017 0.025 0.018 0.025 0.026
6 0.015 0.015 0.032 0.028 0.024
7 0.012 0.013 0.022 0.031 0.033
8 0.023 0.017 0.025 0.032 0.031
Таблица 2. Нормированные весовые коэффициенты для различных групп потребителей
крир кБ1 кТе кРг
0,170 0,184 0,198 0,221 0,227
Таким образом, в разделе разработаны: нечеткая классификация ИР на основе их востребованности, нечеткая модель группы потребителей на основе их интересов к ИР и модель учета интересов потребителей ИР в упорядочении индекс-каталогов, которые совместно образуют механизм эффективного доступа к ХД.
В четвертом разделе описывается структура моделирующего программного комплекса, схемы экспериментов и их результаты.
Ниже приводится общая схема экспериментов,
Оформленные результаты экспериментов
Блок обработки результаты экспериментов
Моделирование процедуры сравнения слов поискового запроса Моделирование построения характеристическ их векторов информационных ресурсов Построение нечеткой классификации информационных ресурсов по шкале «редко», «средне», «часто» Построение нечетких групп потребителей информационных ресурсов на основе интегрального веса интересов к информационным ресурсам Моделирование упорядоченности тематических индекс-каталогов с учетом интересов потребителей информационных ресурсов
111 1
Динамическое упорядочение нндекс-каталогов
Генератор запросов
Т Т 1 |
Ученики 1 Студенты | | Инженеры | | Учителя |Преподаватели
С Группы потребителей И)
в которой генератор запросов моделирует запросы групп потребителей; блок обработки данных отвечает за результаты экспериментов и управляет динамическим упорядочением индекс-каталогов, что показано на схеме в виде обратных связей от блока обработки данных к индекс-каталогам.
Для моделирования интересов потребителей и формирования от них запросов разработан механизм, которой представлен на следующей схеме:
Шкала моделирования востребованности к информационным ресурсам
Здесь ГСЧ - генератор случайных чисел, который формируют в конкретный момент времени случайное число R Е [0. .1] (Randomize). Совокупность сгенерированных случайных чисел имеет равномерную плотность распределения на отрезке [0..1]. Разобьем отрезок [0,1] на множество L непересекающихся подотрезков:
L = {llll2l...,ln}, (33)
длины которых определим следующим образом:
1г = [0..%] = аг-0,
h = (а1--аг] = «2 -а-1,
..................................(34)
lt = = а£-аг_г,
1п = («п-1--1] = 1 -«п-1-
Из способа построения множества отрезков Ь справедливо соотношение:
(1?=11д = 1; (35)
Введем следующую схему интерпретации запроса к ИР индекс-каталога. Пусть генератор случайных чисел генерирует некоторое число К. Если К 6 [¡, то будем считать, что произошел запрос к ¡-ому ИР. Пусть за некоторый период времени Г генератор случайных чисел выдал N чисел, а т чисел попали в отрезок ¿¿. Тогда востребованность ¡-го ИР будем представлять в виде:
Если Т —► оо, то в силу законов больших чисел востребованность /; будет стремиться к постоянному значению и зависеть только от длины отрезка Поэтому моделирование отличающихся востребованностей ИР в индекс-каталоге можно реализовать через формирование различных длин отрезков множество ¿. Очевидно, что при одинаковых длинах отрезков востребованности всех ИР индекс-каталога одинаковые. Если ¿1 < ¿у, то из двух ИР согласно схеме ИР) более востребован, чем ЯР,.
В наших экспериментах формирование разных востребованностей ИР (длин отрезков Ц основано на следующих соотношениях:
= 1 + <*; (37)
<1ь (38)
где с1 является некоторой константой. Назовем следующую величину:
к = £ (39)
'1
коэффициентом различения отрезков множества ¿. Здесь /п - длина п-го подотрезка, а ^ - длина первого подотрезка. Теперь задача заключается в том, что бы для некоторого п и к построить множество отрезков I.
Опуская математические выкладки, приведем общее решение, имеющее вид:
I П-1 J
2№-1) • (4°)
а —
п*(п-1)*(/с+1) В случае к = 3 данные решения приводятся к виду:
Г1 П-1 Л
и =-* я;
1 2
й =
(41)
п*(п-1)
С целью изучения текущего состояния таблицы характеристических векторов ИР проводилось моделирование динамики упорядочения ИР. Для этого был создан индекс-каталог, для него построена шкала востребованности (п=75, к-3), а также вычислены значения параметров с1 = 0,00018 и 11 ~ 0,00666. Ниже приводится пример фрагмента характеристической таблицы, в которую сведены экспериментальные данные по востребованности ИР при разном числе запросов. _ _ _
Таблица характеристических векторов ИР для индекс-каталога (п=75, к=3)
№ПП Имя ИР Длины отрезки М=3334 М=5451 М=7582 М=28045
ИР, м
1 ИР» ¿1.4 0,01998 100 130 200 1000
2 ИР3 0,0198 98 128 198 987
3 ИР„ 'зз 0,01962 97 127 196 966
4 ИР,2 47 0,01944 95 125 194 ,. 941
5 ИР43 '43 0,01926 94 124 190 921
22 ИР22 '22 0,01602 65 96 131 584
23 ИР52 0,01584 64 95 128 562
24 ИР„ 'п 0,01566 63 94 126 532
55 ИР50 ¿50 0,01188 28 58 81 156
56 ИР29 ¿29 0,0117 27 56 79 145
57 ИР,8 ¿18 0,01152 25 55 77 132
58 ИР47 ¿47 0,01134 24 75 125
59 ИР36 0,01116 17 33 74 110
60 ИР25 ¿25 0,01098 19 30 68 99
61 ИР54 0,0108 23 28 64 95
65 ИР3„ '39 0.00792 7 23 31 35
66 ИР|3 ¿13 0.00774 9 10 29 29
67 ИРб, '61 0.00756 1 28 24
68 ИР5 '5 0,00738 0 6 26 17
18 10
74 ИР*Ч ¡29 i 0.00684 0 0 7 3
75 ИР 14 0,00666 0 0 14 2
Нетрудно заметить, что при увеличении числа запросов достоверность востребованности ИР возрастает и уже при М=7582 становится полностью определенной. Так, при числе обращений М=3334 востребованности ИР, занявших последние строки таблицы с номерами 59 - 75, доверять нельзя. При М=5451 уже востребованности ИР, занявших последние строки таблицы с номерами 65-75, доверять нельзя, а при М=7582 востребованности всех ИР можно уже доверять.
Для экспериментального моделирования интересов потребителей и учету этих интересов при упорядочении тематического индекс-каталога были построены весовые коэффициенты интересов разных групп потребителей, которые представлены следующей таблицой._
Таблица характеристических весовых коэффициентов групп потребителей
Students Pupils Engineers Teachers Professors User
№ ИР wst| Wpup, Wengi wtei Wpr, wUsi
1 А 1,000 0,727 0,833 0,943 0,720 0,845
2 В 0,950 0,673 0,583 0,857 1,000 0,813
3 G 0,717 1,000 0,771 0,714 0,560 0,752
4 К 0,200 0,855 0,958 0.800 0,920 0,747
5 М 0,400 0,909 1,000 0.571 0,800 0,736
6 J 0,450 0,618 0,479 1,000 0,600 0,629
7 н 0,633 0,800 0,542 0,429 0,440 0,569
8 I 0,600 0,455 0,729 0,486 0,160 0,486
9 D 0.883 0,509 0.188 0,343 0.200 0,425
10 С 0.917 0,091 0,333 0,286 0,320 0.389
И L 0.283 0,236 0,396 0,514 0,480 0,382
12 Е 0.817 0,309 0,125 0,171 0,360 0,356
13 F 0,750 0,345 0,042 0,086 0,120 0,269
14 N 0,100 0,400 0,271 0,257 0,280 0,262
15 О 0,033 0,018 0,021 0,029 0,040 0,028
Здесь каждому ИР поставлен в соответствие весовой коэффициент в каждой отдельной категории потребителей, а также интегральный весовой коэффициент для категории User, который учитывает запросы всех категорий потребителей. Весовые коэффициенты /-го ИР отдельных категорий потребителей обозначены через wsti> wpupi> wengt' wtei• wprа через wUSi - интегральный весовой коэффициент всех категорий потребителей.
Вид текущего динамического упорядочения ИР, которое учитывает интегральный интерес различных групп потребителей, приведен ниже в таблице:_
Таблица упорядоченности ИР, учитывающая интегральный интерес групп потребителей
ИР Востребованность "w" Функция принадлежности элементов нечеткого множества «Часто» ц "часто Функция принадлежности элементов нечеткого множества «Средне» ^средне Функция принадлежности элементов нечеткого множества «Редко» а редко
A 0.845 0.845 0,31 0,155
В 0.813 0.813 0,374 0,187
G 0.752 | 0.752 0,496 0,248
М 0.747 0.747 0,506 0,253
К 0.736 0.736 0,528 0,264
J 0.629 0.629 0,742 0,371
н 0.569 0.569 0,862 0,431
I 0.486 0.486 0,972 0,514
D 0.425 0.425 0,85 0,574
С 0.389 0.389 0,778 0,575
L 0.382 0.382 0,764 0,618
Е 0.356 0.356 0,712 0,644
F 0.269 0.269 0,538 0,731
N 0.262 0.262 0,524 0,738
О 0.028 0.028 0,056 0,912
В диссертации представлены подробно результаты всех экспериментов по динамическому упорядочению индекс-каталогов.
Управление содержимым ХД необходимо для минимизации его объема при сохранении качества обслуживания различных категорий потребителей, поэтому в основу управления положена нечеткая классификация востребованности ИР:
Для управления ИР ХД построены правила работы, основу которых образуют составные высказывательные формы:
IF LSt.&Lpup.&Leng.&Lte.&Lpr <Редко THEN HPt удалить из ХД; IF LSt,&Lpup.&Leng.&Lte. &Lpr.>Редко THEN HPj условно удалить из ХД; (42) IF PeflKO<LSti&LpUp.&Leng]&LtCi&Lpr.<Средне THEN повысить внимание к ИР. Правила учитывают вычисленные значения ЛП, а их графическая интерпретация имеет вид:
Действия
Очевидно, что по аналогии с рассмотренной схемой можно построить более сложные стратегии управления, например, учитывающие историю востребованности ресурса и формирующие прогноз на востребованность.
В заключении формулируются основные результаты диссертационного исследования.
Список опубликованных работ по теме диссертации в издании ВАК
1. Тиек Ленг. Использование структурного подхода при разработке систем интеграции информационных ресурсов. // Известия ЮФУ. Технические науки. Тематический выпуск «Интеллектуальный САПР» - Таганрог. Изд-во ТТИ ЮФУ, 2008,№9 (86)-с. 171-175.
Основные публикации по теме диссертации
2. Тиек Ленг. Использование платформы XML для представления информация в электронных библиотеках. // Труды IV Всероссийской научной конференции молодых ученых, аспирантов и студентов «Техническая кибернетика, радиоэлектроника и системы управления» - Таганрог: ТРТУ, 2006г. - с. 43-46.
3. Тиек Ленг. Интеграция распределенных данных для создания развитой динамической библиотеки поддержки знаний. // Всероссийская научная школа-семинар студентов, аспирантов и молодых ученых «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки» - Таганрог: ТТИ ЮФУ, 2007г.-с. 50-56.
4. Тиек Ленг. Теоретическое построение интеллектуальной системы поиска в хранилище данных. // Известия ЮФУ. Технические науки. Тематический выпуск «Интеллектуальный САПР». - Таганрог: Изд-во ТТИ ЮФУ, 2007г. - № 2 (77). -с. 116-119.
5. Тиек Ленг. Распределённая поисковая система сбора и хранения информации Технологии Microsoft в теории и практике программирования: труды V-ой Всероссийской конференции студентов, аспирантов и молодых ученых. // Южный регион, Таганрог, 13-14 марта 2008 г. - Таганрог: Изд-во ТТИ ЮФУ, 2008. - с. 59-62.
6. Тиек Ленг. Развитие динамической библиотеки поддержки знаний при интегрировании распределенных данных. // Технологии Microsoft в теории и практике программирования: труды V-ой Всероссийской конференции студентов, аспирантов и молодых ученых. Южный регион, Таганрог, 13-14 марта 2008г. - Таганрог: Изд-во ТТИ ЮФУ, 2008. - с. 80-85.
7. Тиек Ленг. Интеграция неоднородных информационных электронных ресурсов в лаборатории Eldic. // Всероссийская научная школа-семинар студентов, аспирантов и молодых ученых «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки» - Таганрог: ТТИ ЮФУ, 2008г. - с. 99-104.
8. Тиек Ленг. Разработка глобального хранилища данных и средств интеграции в него информационных ресурсов для системы интеграции // Всероссийская научная школа-семинар молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" - Таганрог: Изд-во ТТИ ЮФУ, 2009. - с. 79-82.
Технологический институт Южного федерального университета в г. Таганроге
347928, Ростовская область г. Таганрог, пер. Некрасовский 44.
Оглавление автор диссертации — кандидата технических наук Тиек Ленг
ВВЕДЕНИЕ.
1 АНАЛИЗ ПОДХОДОВ К СОЗДАНИЮ ЭФФЕКТИВНЫХ МЕТОДОВ ХРАНЕНИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ И ДОСТУПА К НИМ.
1.1 Хранилища данных информационных ресурсов.
1.2 Классификация информационных ресурсов в хранилищах данных.
1.3 Классификация потребителей информации по интересам к информационным ресурсам.
1.4 Упорядочение информационных ресурсов в хранилищах данных.
1.4.1 Виды информационного поиска.
1.4.2 Упорядочение информационных ресурсов на основе индекс-каталогов. Виды индекс-каталогов.
1.5 Выводы.
2 АНАЛИЗ ФАКТОРОВ ИНФОРМАЦИОННЫХ ЗАПРОСОВ, ВЛИЯЮЩИХ НА ТОЧНОСТЬ ПОИСКА.
2.1 Факторы, влияющие на точность поиска.
2.2 Планирование эксперимента.
2.3 Математическая постановка задачи. Функция точности поиска.
2.4 Определение связи точности поиска с числом слов в поисковом запросе
2.5 Анализ процедуры сравнения слов поискового запроса и реквизитов информационного ресурса.
2.6 Выводы.
3 РАЗРАБОТКА НЕЧЕТКОЙ МОДЕЛИ ДИНАМИЧЕСКОГО УПОРЯДОЧЕНИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ В ИНДЕКС-КАТАЛОГЕ.
3.1 Частотная характеристика информационного ресурса. Функция частоты обращения. Характеристический вектор.
3.2 Разработка нечетких классификаций информационных ресурсов на основе нечеткой частоты востребованности.
3.3 Разработка нечеткой модели групп потребителей на основе интересов к информационным ресурсам хранилища данных.
3.4 Учет интересов потребителей информационных ресурсов в упорядоченности тематического индекс-каталога.
3.5 Выводы.
4 ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ НЕЧЕТКИХ МОДЕЛЕЙ ДИНАМИЧЕСКОГО УПОРЯДОЧЕНИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ В ИНДЕКС-КАТАЛОГАХ.
4.1 Виды и схема экспериментов.
4.2 Подготовка исходных данных.
4.3 Результаты эксперимента по исследованию точностных характеристик поиска.
4.4 Механизм формирования- запросов к информационным ресурсам и моделирования их востребованности.
4.5 Моделирование динамики упорядочения информационных ресурсов
4.6 Моделирование упорядочения тематического индекс-каталога с учетом интересов потребителей.
4.7 Построение нечеткой классификации информационных ресурсов по шкале востребованности.
4.8 Управление содержимым хранилища данных.
4.9 Выводы.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Тиек Ленг
Актуальность темы
В настоящее время в связи с развитием глобальных информационных коммуникаций все большее значение приобретает доступ к информационным ресурсам, представленным в электронном виде. В связи с этим появляется острая необходимость создания различного рода электронных информационных хранилищ данных [1], которые обладали бы свойствами адаптации к запросам потребителей и подстраивались под их потребности. Это может быть достигнуто, если в хранилищах предусмотрены механизмы адаптации и динамического упорядочения информационных ресурсов.
Следует отметить, что сегодня разработка электронных хранилищ информационных ресурсов, в которых предусматриваются все выше названые функции, является сложной и до конца не решенной задачей, а ее исследованию посвящен ряд научных работ. Так, этой проблемой занимался ряд авторитетных исследователей, которые внесли существенный вклад в развитие данной области. Среди них следует отметить работы: Уильям Инмон (Liam Inmon) [1618], Дуглас Хэкни (Douglas Hackney) [19], Доринн Хосс (Dorinny Hoss) [20]. Так же идея сведения разрозненных информационных ресурсов в Интернете в единое пространство хранилища данных развивается в работах [11—13,33, 117]. При рассмотрении специфических областей знаний кроме того можно четко выделить ориентацию на интеллектуализацию хранилищ данных, что представлено в работах [2, 3, 14, 15, 32, 37, 66], в которых рассматриваются вопросы каталогизации и анализа информационных ресурсов для определенных предметных областей. Усиленно интерес данной проблематике подогревают известные в IT области организации, которые проявляются повышенный практический интерес к научным результатам. Эта такие известные фирмы и корпорации, как IBM [21], Oracle [22], Hewlett Packard [23], SAS Institute [24], Software AG [25], Sybase [26, 27] и др.
Однако следует отметить, что общее решение данной проблемы и сегодня далеко от своего окончательного завершения. Данное обстоятельство послужило основанием для формулировки темы настоящего диссертационного исследования, которое направлено на реализацию адаптационных механизмов хранилищ информационных ресурсов к потребностям потребителей информации путем динамического переупорядочения индекс-каталогов. Следует указать, что задачей кластеризации потребителей по их интересам с точки зрения управления сервисами информационных систем посвящены ряд работ, среди которых следует отметить [123-132]. Однако, в данных работах не затронуты вопросы организации индекс-каталогов, как механизмов настройки хранилища информационных ресурсов на максимальное удовлетворение потребностей потребителей.
Объект исследование
Нечеткие модели динамического упорядочения информационных ресурсов в хранилищах данных с учетом их востребованности потребителями информации.
Цель диссертационного исследования
Разработка и исследование нечетких моделей динамического упорядочения информационных ресурсов в хранилищах данных с учетом их востребованности потребителями информации.
Для достижения поставленной цели в диссертации решаются следующие основные задачи:
1. Провести сравнительный анализ эффективности известных подходов к хранению информационных ресурсов и доступу к ним, а также провести исследование факторов информационных запросов, влияющих на качество поиска информационных ресурсов в хранилищах данных.
2. Исследовать частотные характеристики востребованности информационных ресурсов хранилища данных и изучить вопросы использования данных частотных характеристик в качестве параметров востребованности информационных ресурсов со стороны потребителей информации.
3. Разработать нечеткую классификацию информационных ресурсов на основе их востребованности потребителями информации, нечеткую модель группы потребителей на основе их интересов к информационным ресурсам и модель учета интересов потребителей информационных ресурсов в упорядочении индекс-каталогов.
4. Провести экспериментальное исследование основных теоретических положений диссертационного исследования.
Основные научные результаты
1. На основе сравнительного анализа известных подходов к хранению информационных ресурсов и доступу к ним, а так же анализа факторов информационных запросов, влияющих на качество поиска информации в хранилищах данных, показано, что учет интересов потребителей может существенно повысить качество выдачи информационных ресурсов.
2. Предложено использовать частотную характеристику информационного ресурса в качестве характеристики его востребованности со стороны потребителей информации и на ее основе проводить динамическое упорядочение индекс-каталогов.
3. Разработаны нечеткая классификация информационных ресурсов на основе их востребованности потребителями информации, нечеткая модель группы потребителей на основе их интересов к информационным ресурсам и модель учета интересов потребителей информационных ресурсов в упорядочении индекс-каталогов, которые совместно реализуют механизм эффективного доступа к информационным ресурсам хранилища данных, учитывающий их востребованность со стороны потребителей информации.
4. Проведено экспериментальное исследование основных теоретических положений диссертации, для которого разработана математическая модель представления запросов потребителей информации и построен моделирующий программный комплекс, результаты проведенных экспериментов на котором подтвердили основные теоретические положения.
Основные положения, выносимые на защиту
1. Нечеткая частотная характеристика информационного ресурса, которая представляет его востребованность со стороны потребителей информации и используется для динамического упорядочения индекс-каталогов.
2. Нечеткие классификации информационных ресурсов на основе их востребованности потребителями информации, нечеткая модель группы потребителей на основе их интересов к информационным ресурсам и модель учета интересов потребителей информационных ресурсов в упорядочении индекс-каталогов, которые совместно образуют механизм эффективного доступа к информационным ресурсам хранилища данных, учитывающий их востребованность со стороны потребителей информации.
Методы диссертационного исследования
При выполнении данной работы использовались: нечеткая математика, комбинаторика, теория информационных систем, методы классификации, информационного поиска, а также методы обработки результатов экспериментов.
Практическая ценность результатов диссертационной работы состоит в том, что разработанные нечеткие модели динамического упорядочения информационных ресурсов в хранилищах данных с учетом их востребованности потребителями информации позволяют реализовать механизм эффективного доступа разных категорий потребителей к информационным ресурсам с учетом их интересов, который может быть использован в электронных хранилищах информационных ресурсов различного назначения.
Практическая значимость диссертации подтверждается актами о внедрении результатов исследования в рамках госбюджетных научно-исследовательских работ и в учебном процессе по дисциплине "Организация электронных архивов данных" магистерской программы "Интеллектуальные системы" по направлению 230100 "Информатика и вычислительная техника" факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Разработанный механизм доступа к информационным ресурсам хранилища данных, учитывающий интересы потребителей информации, был реализован программно и использован при разработке электронной библиотеки международной лаборатории ELDTC, а также использован в научных исследованиях факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Апробация работы
Результаты работы докладывались и обсуждались на научно-практических конференциях:
• VII Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления" (Таганрог, ТРТУ, 2006г.).
• VIII Всероссийской научной конференции молодых ученых, студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления (КРЭС'06)" (Таганрог, ТРТУ, 2006г);
• IV Всероссийской научной конференции молодых ученых, аспирантов и студентов "Техническая кибернетика, радиоэлектроника и системы управления" (Таганрог, ТРТУ, 2006г.).
• Всероссийская научная школа-семинар студентов, аспирантов и молодых ученых "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2007г.).
• Всероссийская научная школа-семинар студентов, аспирантов и молодых ученых "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2008).
• V Всероссийской конференции студентов, аспирантов и молодых ученых Технологии Microsoft в теории и практике программирования "Южный регион", "Таганрог, 13-14 марта 2008г.".
• VI Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системы анализ и управление" (Таганрог, ТТИ ЮФУ, 04-05 декабря 2008г).
• Всероссийская научная школа-семинар молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2009г.).
Публикации автора по теме диссертации. По теме диссертации автором опубликовано 13 печатных работ, в которых отражены основные результаты диссертации, в том числе одна статья в издании из списка, рекомендованного ВАК РФ.
Структура и объем работы. Материал основной части работы изложен на 144 страницах машинописного текста. Работа состоит из введения, четырех разделов, заключения и списка литературы из 132 наименований, содержит 53 рисунки, 31 таблицу и 2 приложения на 20 страницах.
Заключение диссертация на тему "Разработка и исследование нечетких моделей динамического упорядочения информационных ресурсов в хранилищах данных с учетом их востребованности потребителями информации"
4.9 Выводы
Таким образом, в разделе приводятся результаты экспериментальных исследований основных теоретических положений диссертации, которые были проведены на специально разработанном для этого программном комплексе и сформированном пакете информационных ресурсов, который составил основное содержание хранилища данных. По информационным ресурсам, включенным в хранилище данных, построены вручную тематические выборки, которые собраны в экспериментальный индекс-каталог, а также сформированы кластеры потребителей информации и промоделированы их обращения к индекс-каталогам хранилища данных.
Для формирования запросов к информационным ресурсам и управления их востребованностью разработана математическая модель и соответствующий программный механизм, который основывается на генераторе случайных чисел, равномерно распределенных на отрезке [0,1] и шкалы моделирования востребованности. Данная востребованность регулируется длиной соответствующего отрезка шкалы, а сама шкала построена по аддитивному принципу, в ней заложена способность управления ее неравномерностью с помощью задания значения коэффициента различения отрезков. Данная схема распространена на комплексное моделирование интересов всех потребителей информационных ресурсов.
Полученные результаты моделирования полностью подтвердили основные теоретические положения диссертационного исследования.
ЗАКЛЮЧЕНИЕ
Итак, в настоящее время доступ к информационным ресурсам, представленным в электронном виде, является одним из самых востребованных сервисов в области информационных систем. В связи с этим появляется острая необходимость в создании различного рода электронных информационных хранилищ данных, которые обладали бы свойствами адаптации к запросам потребителей и подстраивались под их потребности.
В настоящей диссертационной работе развиты нечеткие модели динамического упорядочения информационных ресурсов в хранилищах данных с учетом их востребованности потребителей информации. В рамках данного исследования:
1. Проведен сравнительный анализ эффективности известных подходов к хранению и доступу информационных ресурсов, а так же влияния факторов информационных запросов на качество поиска информации в хранилищах данных и показано, что учет интересов потребителей может существенно повысить эффективность выдачи предоставляемых потребителям информационных ресурсов.
2. Исследованы предельные возможности поиска по индекс-каталогу, связанные с размерами длин сравниваемых частей слов в поисковом запросе и информационных ресурсах. Показано, что увеличение длины сравнения наталкивается на необходимость учета морфологических особенностей грамматики языка.
3. Предложено частотную характеристику информационного ресурса использовать в качестве параметра его востребованности потребителями информации и на ее основе проводить динамическое упорядочение индекс-каталогов.
4. Сформирована функция частоты обращения к информационному ресурсу индекс-каталога и построено ее нормализованное представление, которое положено в основу характеристические востребованности информационного ресурса.
5. Для представления частотной характеристики информационного ресурса введен характеристический вектор, который отражает текущее состояние обращения к информационному ресурсу, а все характеристические вектора предложено объединить в характеристическую таблицу, которая отражает востребованность информационных ресурсов конкретного индекс-каталога потребителя.
6. Для частотной классификации информационного ресурса построена нечеткая модель его востребованности в виде лингвистической переменной «частота обращения к информационному ресурсу».
7. Сформирована нечеткая модель групп потребителей по их интересам к информационным ресурсам.
8. Разработана нечеткая модель учета интересов потребителей информационных ресурсов и показано, каким образом учитывать интересы разных групп потребителей информационных ресурсов при формировании веса каждого информационного ресурса в индекс-каталоге потребителя и тематическом индекс-каталоге.
9. Проведено экспериментальное исследование основных теоретических положений диссертации, для которого разработана математическая модель представления запросов потребителей информации и построен моделирующий программный комплекс, подтверждающее основные теоретические положения.
Таким образом, использование полученных в диссертации научных результатов позволит реализовать в хранилищах информационных ресурсов механизмы их адаптации к потребностям потребителей информации и тем самым повысить эффективность обслуживания потребителей.
Библиография Тиек Ленг, диссертация по теме Теоретические основы информатики
1. Солтон Дж. Динамические библиотечно-информационные системы. — М.: Мир, 1979 г.,-560 с.
2. Виджей Сэрадхи (Vijay Saradhi). «Основные характеристики современного Хранилища данных. Часть 1. Критика традиционных ХД» (Essential Characteristics of a Modern Data Warehouse, Part 1: Critical Issues with a Conventional Data Warehouse), Июнь 2007 г.
3. Виджей Сэрадхи (Vijay Saradhi) «Основные характеристики современного Хранилища данных. Часть 2. Фундаментальные возможности» (Essential Characteristics of a Modern Data Warehouse, Part 2: Foundation Features), Июнь 2007 г.
4. Карташееа E. Интеллектуальные поисковые системы Excalibur. // Журнал Сети №06, 1997 г.
5. Тиек Ленг. Теоретическое построение интеллектуальной системы поиска в хранилище данных, текст. // Известия ЮФУ. Технические науки. Тематический выпуск «Интеллектуальный САПР». Таганрог: Изд-во ТТИ ЮФУ, № 2 (77), 2007 г., - с 116 -119.
6. Doug Tidwell, James Snell, Pavel Kulchenko. Programming Web Services with SOAP / Publisher: O'Rielly. First Edition December 2001. ISBN: 0596-0095-2, 216 pages.
7. Печников В.EI. Создание Web-сайтов без посторонней помощи. — М.: Изд-во Триумф, 2006 г., 464 с.
8. Спека М.В. Создание Web-сайтов. Самоучитель. — М.: Изд-во диалектика серия самоучитель, 2007 г., — 288 с.
9. Александров M. Смысловой поиск в Internet, текс. // Журнал Internet №19, 2000 г. [http://www.kv.by/index200019060l.htm]
10. Gudivada V.N., Raghavan V.V. Information Retrieval on the World Wide Web. text. // IEEE Internet Computing. 1997. V.l. N. 5. P. 58-68.
11. Лобачев С.Л., Попов А.Э., Семенихин И.IL Интернет-технологии в дистанционном и открытом образовании, текст. // Educational Technology & Society 4(2) 2001 ISSN 1436-4522 pp. 194-204.
12. Уильям Инмон (Liam Inmon). Типы хранилищ данных, текст. // Журнал Клуба знатоков DWH, OLAP, XML, №17, 2001г. [http://www.iso.ru/journal/articles/l 81 .html]
13. Уильям Инмон (Liam Inmon). Многочисленные Хранилища данных в одной компании, текст. // Журнал Клуба знатоков DWH, OLAP, XML, №17, 2001г. [http://www.iso.ru/iournal/articles/185.html]
14. Уильям Инмон (Liam Inmon). Обоснование Хранилища данных, текст. // Журнал Клуба знатоков DWH, OLAP, XML, №17, 2001 г. [http://www.iso.ru/journal/articles/182.html]
15. Дуглас Хэкни (Douglas Hackney). Успешное Хранилище данных: архитектурные решения, текст. // Журнал Клуба знатоков DWH, OLAP, XML, №17, 2001г. [http://www.iso.ru/iournal/articles/184.html]
16. Доринн Хосс (Dorinny Hoss). Десять основных тенденций в области Хранилищ данных, текст. // Журнал Клуба знатоков DWH, OLAP, XML, №17, 2001. [http://www.iso.ru/journal/articles/183 .html]
17. Дубова H. Динамическое хранилище данных, текст. // Журнал Открытые системы №5, 2007г. [http://www.osp.rU/os/2007/05/4259987/l22. http://www.oracle.com/ru
18. HP Oracle Exadata Storage Server — оптимизированная платформа для Oracle BI-хранилищ данных, текст. // Журнал «Storage News». rhttp://citforum.ru/database/oracle/exadata/l24. http://www.sas.com/
19. Цуприков С. Методология Sybase для создания хранилищ и витрин данных. текст. // Жунал КомпьютерПресс №3, 1999 г. lhttp://www.interface.ru/fset.asp?Url=/sybase/msy.htm]
20. Тиек Ленг. Усовершенствование научно-технического портала для развития научных электронных библиотек. текст. // VIII
21. Всероссийской научной конференции студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления».- Таганрог: ТРТУ, 2006 г., с 245.
22. Кришнамурти Б., Рексфорд Дж. Web-протоколы Теория и практика. — М.: ЗАО «Издательство БИНОМ» 2002 г., 592 с.
23. Гуруге А. Корпоративные порталы на основе XML и Web-служб // Пер. с англ. -М.: КУДИЦ-ОБРАЗ, 2004 г., -380 с.
24. Тиек Ленг. Использование структурного подхода при разработке систем интеграции информационных ресурсов. // Известия ЮФУ. Технические науки. Тематический выпуск «Интеллектуальный САПР». — Таганрог: Изд-во ТТИ ЮФУ, № 9 (86), 2008 г.,- с 171-175. ■ 1
25. Берштейн Л.С., Карелин В.П., Целых А.Н. Модели и методы принятия решений в интегрированных ИС. Ростов-на-Дону: Изд-во РГУ, 1999г.
26. Смирнов Н.В. «Курс теории вероятностей и математической статистики для технических приложений», 1969 г., 512 с.
27. Колмогоров А.Н., Фомин C.B. Элементы теории функций и функционального анализа. — М.: Наука, 1989 г., 544 с.
28. Аверкин А.IT., Батыршин И.З., Блишун А.Ф. и др. Нечеткие множества в моделях управления и искусственного интеллекта // Под ред. Д.А. Поспелова. -М.: Наука, 1986 г., 312 с.
29. Воройский Ф.С. Информатика. Новый систематизированные толковый словарь-справочник (Введение в современные информационные и телекоммуникационные технологии в терминах и фактах). М.: Физматлит, 2003 г., — 760 с.
30. Мелихов А.Н. Берштейн JI.C. Коровин С.Я. Ситуационные советующие системы с нечеткой логикой. М.: Наука. Гл. ред. Физ.-мат.лит., 1990 г., - 272 е., - ISBN 5-02-0141445.
31. Мандел Т. Разработка пользовательского интерфейса. — Пер. с англ. — М.: LVR Пресс, 2001 г.,-416 с. ил.
32. Илья Волков, Илья Галахов. Архитектура современной информационно-аналитической системы, текст. // Журнал "Директор ИС" №3, 2002 г. [http://citforum.ru/consulting/BI/ias/]
33. Adamson, С., Venerable, М. Data Warehouse Design Solutions. II John Wiley & Sons, Inc (1998). ISBN 047125195X.
34. Devlin, B. Data warehouse: from architecture to implementation. // Addison Wesley Longman, Inc. (1997). ISBN 0201964252.
35. Илья Шабаев, Павел Кириллов. Загрузка и согласование данных при построении хранилищ данных, текст. // Журнал открытые системы №11, 2000 г. [http://www.osp.ru/os/2000/ll/178324/]
36. Макарова Н.В. Система классификации. текст. // Учебник "Информатика", 2010 г. [http://high-info.ru/Sistema klassifikatsii.htm]45. http://ru.wikipedia.org
37. Заде Л. А. Понятие лингвистической переменной и его применение к принятию приближенных решений. М.: Мир, 1976 г., - 168 с
38. Кнут Д.Э. Искусство программирования, том 3. // Сортировки и поиск. М.: Изд. «Вильяме», 2003 г., - 832 с.
39. Черный А.И. Введение в теорию информационного поиска. М.: Наука, 1975 г.,-235 с.
40. Андриенко Е.В. Концепции поиска адекватной информации в полнотекстовых базах данных. // Перспективные информационные технологии и интеллектуальные системы. — Таганрог: Изд-во ТРТУ, №3, 2003 г.,-с. 68-72.
41. Андриенко Е.В. Методы хранения сложных структур при поиске релевантной информации. Новые информационные технологии. // Разработка и аспекты применения. // VI Всероссийской научной конференции с международным участием. - Таганрог, 2003 г., — с. 7578.
42. Кононенко Р.И. Разработка методов и алгоритмов мультиагентного поиска в информационных средах гипертекстовой организации. — Дисс. К.т.н., Таганрог: ТРТУ, 2000 г.
43. Ланкастер Ф.У. Информационно-поисковые системы. // Пер. с англ. — М.: Мир, 1972 г.,-308 с.
44. Павел Храмцов. Информационно-поисковые системы Internet. // Журнал открытые системы №3 , 1996 г. http://www.osp.rU/os/1996/03/178885/l
45. Поспелов Д. А. Ситуационное управление. // Теория и практика. — М.: Наука, 1986 г.,-288 с.
46. Аграновский А. В., Арутюнян Р. Э. Индексация массивов документов. — Мир ПК, №06, 2003 г.
47. Raghavan V., Wong S.K.M. A Critical Analysis of Vector Space Model for Information Retrieval // J. Am. Soc. Information Science. — 1986. V. 37. N.5. P. 279-287.
48. Acau К., Ватада Д., Иваи См др. Прикладные нечеткие системы. // Пер. с япон.; Под. Ред. Т. Тэрано, К.Асаи, М.Сугэно. — М.: Мир, 1993г. -368 с.
49. Zadeh L.A. Fuzzy Sets // Information and Control. 1965. V. 8. P. 338-353.60
-
Похожие работы
- Методы эффективной организации хранилищ слабоструктурированной и нечеткой информации в автоматизированных системах управления на транспорте
- Разработка моделей и методов исследования технологических процессов в электроэнергетике с применением нечетких оценок параметров
- Разработка и исследование методов и алгоритмов для моделирования адаптивных веб-ресурсов на основе нечетких ультраграфов
- Восстановление закономерностей на основе нечетких регрессионных моделей
- Методы и программные средства поддержки выбора решений на основе прямого и обратного нечеткого оценивания
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность