Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет

Краснощеков, Евгений Евгеньевич

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет

кандидата технических наук: Краснощеков, Евгений Евгеньевич
город: Таганрог
год: 2011
специальность ВАК РФ: 05.13.17

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет»

Автореферат диссертации по теме "Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет"

На правах рукописи

Краснощеков Евгений Евгеньевич

РАЗРАБОТКА И ИССЛЕДОВАНИЕ НЕЧЕТКИХ МОДЕЛЕЙ ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКОВОГО СЕРВИСА ДЛЯ СЕТЕВЫХ СООБЩЕСТВ ИНТЕРНЕТ

Специальность 05.13.17 -Теоретические основы информатики

Автореферат диссертации на соискание ученой степени кандидата технических наук

1 6 Ш 2011

Таганрог 2011

4850072

Работа выполнена в Технологическом институте федерального государственного автономного образовательного учреждения высшего профессионального образования "Южный федеральный университет" в г. Таганроге

Научный руководитель:

Официальные оппоненты:

доктор технических наук, профессор Целых Александр Николаевич (ТТИ ЮФУ, г.Таганрог)

доктор технических наук, профессор Ромм Яков Евсеевич (Таганрогский государственный педагогический институт, г.Таганрог)

Ведущая организация:

Зашита диссертации состоится « 1

доктор технических наук, доцент Чернов Андрей Владимирович (Ростовский государственный строительный университет, г. Ростов-на-Дону)

Ростовский государственный университет путей сообщения (РГУПС), г. Ростов-на-Дону

июля 2011 г. в 1420 на заседании

диссертационного совета Д.212.208.21 Южного федерального университета по адресу: 347928, г. Таганрог, пер. Некрасовский, 44, ауд. Д-406

С диссертацией можно ознакомиться в зональной научной библиотеке ЮФУ по адресу: г. Ростов-на-Дону, ул. Пушкинская, 148

Автореферат разослан« 30 » мая 2011г.

Просим Вас прислать отзыв на автореферат, заверенный гербовой печатью учреждения, по адресу: 347928, ГСП -17А, Ростовская область, г. Таганрог, пер. Некрасовский, 44, диссертационный совет Д 212.208.21

Ученый секретарь

диссертационного совета Д 212.208.21

доктор технических наук, профессор

V

Чернов Н.Й.

Общая характеристика работы

Актуальность темы исследования. Существующие методы поиска информации в сети Интернет и практически реализованные поисковые сервисы не являются средством гарантированного получения результата требуемого качества. Поиск остаётся в значительной степени искусством, базирующемся на знаниях, профессионализме и опыте пользователя. Об этом свидетельствует значительное число научных публикаций, существование непрерывно действующих Интернет-конференций и форумов по поиску информации и организации библиотечных систем, регулярное проведение семинаров поисковыми Интернет-порталами.

В теоретическом отношении информационно-поисковые системы исследуются в течение нескольких десятков лет. Работы Г. Солтона, В. Крафта, К. Бакли, Решетникова В.Н. и многих других учёных развивали различные научные подходы к решению проблемы поиска синхронно с совершенствованием коммуникационных, программных и аппаратных средств информационных систем. Увеличение объёмов оперативной и внешней памяти компьютеров, скорости обработки информации, совершенствование средств работы с базами данных, сетевых технологий обусловили переход от исследования принципов адресного поиска к документальному, фактографическому, семантическому, полнотекстовому и другим, которые используют линейные и векторно-пространственные, детерминированные, нечёткие и вероятностные модели поиска. Современные исследования в области информационного поиска стимулируются развитием Интернет, совершенствованием средств сетевого хранения данных различной природы (тексты, гипертексты, звук, анимация, графика), появлением и расширением социальных сетей в Интернет.

Одним из путей повышения качества поискового сервиса может стать его построение как интеллектуальной системы, использующей опыт поиска членов сетевых сообществ Интернет. Основой создания многих сообществ является обмен опытом в решении прикладных задач реального мира. Социальная сеть в таком случае становится информационной средой, которая структурирует знания о ресурсах внешней сети Интернет и создаёт собственные. Активность социальной сети естественным образом ведёт к необходимости создания собственных средств управления информационными ресурсами.

Как показывает анализ, средства оценки информационной среды Интернет и поиска должны в большей степени обладать интеллектуальным поведением, чтобы решать современные проблемы использования информации глобальной сети. К таким проблемам относятся:

• проблема отбора значимых (релевантных) документов. На сегодняшний день поисковыми серверами накоплен значительный общий объём проиндексированных данных о ресурсах Интернет. Результат поиска современных систем на запрос может составлять миллионы документов, просмотр и оценка которых для человека невозможны. Необходимо совершенствовать модели отбора релевантных документов, но существующие методики не дают эффективного результата;

• проблема накопления и использования опыта поиска. Особенность данной задачи в том, что современные социальные сети Интернет включают сетевые сооб-

щества, осуществляющие естественным образом накопление и передачу опыта информационного поиска. В отличие от экстенсионального накопления и хранения данных поисковыми роботами (по оценкам экспертов, таким образом проиндексировано около 40% информационного пространства Интернет) сетевые сообщества накапливают информацию интенсиональным образом. При этом средства накопления и использования опыта остаются недостаточно развитыми;

• проблема интеллектуальной поддержки процесса решения прикладных , задач, требующих поиска информации. Процесс поиска возникает в связи с решением пользователем некоторой прикладной задачи. Учёт некоторых особенностей задач, содержания и смысла документов, относящихся к проблеме потенциально способен повысить качество результата поиска. Современные сервисы обладают недостаточными возможностями целостной поддержки подобных процессов.

Цель и задачи исследования диссертационной работы. Цель работы заключается в разработке и исследовании моделей функционирования интеллектуального поискового сервиса для социальных сетей и сетевых сообществ Интернет.

Для достижения этой цели необходимо решить следующие задачи:

1. Разработка и исследование моделей интеллектуального процесса решения прикладных задач в диалоге с поисковой системой. Принципиальными отличиями моделей должно стать накопление и анализ опыта поиска, оценка качества найденных и изученных материалов, визуализация информационных структур и связей источников информации.

2. Разработка и анализ моделей, а также структур хранения и процедур поиска информационных ресурсов по их нечётким описаниям в сетевых сообществах» социальных сетях.

3. Теоретический анализ вопросов организации поисковых систем, ориентированных на визуальный, анализ большого объёма сведений, поддержки процедур манипулирования сложными изображениями и разработки методов визуального представления опыта поиска.

Объектом исследования являются процессы коллективного накопления опыта поиска информационных ресурсов Интернет, его хранения и использования интеллектуальными поисковыми сервисами при выполнении поисковых запросов.

Предметом исследования являются модели описания и использования опыта поиска сетевыми сообществами Интернет, алгоритмы выполнения поисковых процедур при решении прикладных задач, а также модели и алгоритмы визуализации опыта поиска.

Методы исследования опираются на известные методы информационного поиска, теоретические основы разработки баз данных, теоретические методы искусственного интеллекта, методы численной оптимизации, а также методы и средства компьютерной графики.

Достоверность полученных результатов вытекает из их математического обоснования, подтверждается оценками временной сложности, а также результатами программного и численного эксперимента.

Научная новизна работы.

1. Предложен способ организации информационного поиска в сетевых сообществах, объединяющий средства локального и глобального поиска. Отличительной особенностью предложенного поискового сервиса является накопление и анализ опыта поиска с оценкой качества найденной и изученной информации, что позволяет пользователю повысить качество решения прикладной задачи.

2. Разработана модель нечёткого описания прецедентов поиска дескрипторами в пространстве концептов онтологии сетевого сообщества, которая отличается от аналогичных моделей предоставлением пользователю оценок экспертов с высоким рейтингом. На основе предложенного формализма синтезированы алгоритмы и определено согласование оценок ресурсов аналитиками, что позволяет повысить качество поисковой выдачи за счёт релевантности результатов.

3. Предложен метод решения задачи локального поиска на основе интеллектуального поискового сервиса, включающего актуализацию базы данных прецедентов поиска, который отличается от известных методов использованием нечётких категорий. Синтезирован нечёткий алгоритм нахождения наилучших последовательностей актуализации ресурсов, позволяющий получать оптимальное решение задачи локального поиска.

4. Разработан метод глобального поиска на основе комбинированной аналогии, заключающийся в использовании набора частных показателей аналогии, доступных для оценки средствами поисковой системы. Предложенный метод отличается от известного метода структурной аналогии использованием множества контекстов для оценки сходства пары объектов, что позволяет повысить достоверность определения близких по смыслу ресурсов и увеличить эффективность глобального поиска.

5. Разработана методика обеспечения целостности визуализации поисковых схем, отличающаяся от известных использованием нечётких оценочных функций для выявления аномалий добавления и удаления объектов на уровне формы, цвета и текстуры, а также топологических отношений объектов поисковых схем. В рамках методики предложен классификационный алгоритм оценки целостности карт и схем поиска, что позволяет избегать аномалий добавления и удаления элементов поисковых карт и схем.

Основные положения, выносимые на защиту.

1. Способ организации информационного поиска в сетевых сообществах, объединяющий средства локального и глобального поиска.

2. Модель нечёткого описания прецедентов поиска дескрипторами в пространстве концептов онтологии сетевого сообщества, которая отличается от аналогичных моделей предоставлением - пользователю оценок экспертов с высоким рейтингом.

3. Метод решения задачи локального поиска на основе интеллектуального поискового сервиса, включающего актуализацию базы данных прецедентов поиска, и нечёткий алгоритм нахождения наилучших последовательностей актуализации ресурсов.

4. Метод глобального поиска на основе комбинированной аналогии, заключающийся в использовании набора частных показателей аналогии, доступных для оценки средствами поисковой системы.

5. Методика обеспечения целостности визуализации поисковых схем, в рамках которой предложен классификационный алгоритм оценки целостности карт и схем поиска.

Практическая значимость диссертационного исследования заключается в том, что разработаны и внедрены в программной поисковой системе модели, методы и алгоритмы локального и глобального поиска информационных ресурсов на основе использования коллективного опыта поиска информации при создании сложных технических систем и конструкторских разработок.

Внедрение и использование результатов работы. Полученные в диссертационной работе результаты внедрены на ОАО «Таганрогском авиационном научно-техническом комплексе им. Г.М. Бериева» в контрактно-договорном отделе и отделе сетевого планирования работ, а также при выполнении научно-исследовательских работ в Научно-конструкторском бюро цифровой обработки сигналов Южного федерального университета. Результаты внедрения и использования результатов диссертационной работы подтверждаются соответствующими актами.

Апробация работы и публикации. Материалы диссертационной работы апробированы на VII Всесоюзной научной конференции студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления» (Таганрог, 2004); Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах» (Новочеркасск, 2005); IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых (Томск, 2006); VIII и IX Всероссийском Симпозиуме по прикладной и промышленной математике (Москва, 2007,2008); Международной научно-технической конференции «Многопроцессорные вычислительные и управляющие системы (МВУС-2009)» (Таганрог, 2009); на ряде ежегодных конференций профессорско-преподавательского состава федерального государственного автономного образовательного учреждения высшего профессионального образования Таганрогского технологического института ЮФУ.

Публикации. По материалам работы опубликовано 11 печатных работ, в том числе 3 статьи в журналах из перечня рекомендуемых ВАК РФ.

Структура и объем работы. Диссертационная работа состоит из введения, 4 глав основного раздела, заключения, списка литературы и приложения. Основное содержание работы изложено на 185 страницах, включая 13 таблиц, 41 рисунок и список литературы из 115 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении даётся обоснование актуальности темы исследования, описываются цель работы и её основные' научные результаты, определяются перечень задач, объект исследования, указаны методы исследования, показаны научная новизна и

практическая значимость, приведены сведения о внедрении результатов работы, дано общее описание структуры диссертационной работы.

В первой главе приведен анализ принципов, средств и методов, применяемых в настоящее время для поиска информационных ресурсов в Интернет. Предметом современных теоретических исследований и практической реализации поисковых систем является процедура нахождения информационных ресурсов с заданными свойствами. Информационная система обобщённо представляется кортежем

включающим в себя = {ег,,^,...,©^}- множество хранимых экземпляров объектов, К - отношения между экземплярами, = - множество классов объектов, 0 - отношения между классами, язык манипулирования данными, Е - правила поддержания целостности данных, Ф - ограничения прав доступа к экземплярам. Каждый экземпляр имеет дескриптор /}(©■ ),/ = 1,|й|, позволяющий

охарактеризовать экземпляр в определённом смысле. Анализируются основные проблемы организации информационных систем, связанные с выполнением сервисов, характерных для библиотечных систем: составление каталогов, классификация, аннотирование и реферирование, построение тематических подборок и индексов, регистрация и учёт читателей (пользователей).

Отмечается, что задача поиска не рассматривается как элемент сложного интеллектуального процесса решения прикладных задач пользователя-аналитика в диалоге с поисковой системой. В то же время принципиальными отличиями подобного процесса является накопление и анализ опыта поиска, оценка качества найденных и изученных материалов, визуализация информационных структур и связей источников сведений. Перечисленные аспекты организации поисковых систем исследованы недостаточно.

Интернет представляет собой источник разнородных информационных ресурсов с динамически изменяющимся содержимым, причём структура данных и связей ресурсов, их концептуальные модели для пользователя практически неизвестны. По мере роста количества сайтов Интернет неопределённость, неполнота, неоднозначность представления о хранимой в сети информации может лишь увеличиваться. По этой причине увеличивается роль интеллектуализации поисковых процессов. Одним из недостаточно исследованных направлений интеллектуализации является разработка нечётких моделей информационных ресурсов в сетевых сообществах, социальных сетях. Коллективное накопление и использование информации является неизбежным элементом существования сетевых социумов. При этом отсутствуют исследования по коллективному накоплению опыта поиска информации, логики использования прецедентов удачного поиска.

Коллективное накопление знаний о процедурах поиска и его результатах требуют совершенствования инструментария анализа. Одним из перспективных направлений развития аналитических средств является визуализация. Применяемые в настоящее время средства и методологии приносят ощутимый результат, однако непрерывный рост объёма накопленных сведений ставит задачу совершенствования

управления визуализацией. Для этого необходим теоретический анализ вопросов организации поисковых систем, ориентированных на визуальный анализ большого объема сведений, поддержки процедур манипулирования сложными изображениями.

На основе проведённого анализа делается вывод о необходимости исследований принципов организации интеллектуальных сервисов поиска. Их применение позволит повысить качество решения прикладных задач, включающих в себя поиск в информации в Интернет как составную часть. Соответственно формулируется цель исследования, выполненного в диссертационной работе — разработка моделей и процедур для построения интеллектуальных поисковых сервисов Интернет.

Во второй главе разработаны и исследованы модели опыта поиска информации в Интернет. Пользователями поискового сервиса являются клиенты социальных сетей. Члены сетевых сообществ образуют группы с естественным образом очерченной сферой интересов. Используемые ими информационные ресурсы, следовательно, несут определённую тематическую направленность. Её наличие позволяет решать многие проблемы поиска информации в Интернет созданием специализированной системы, которую поддерживает собственно сетбвое сообщество или социальная сеть. Поддержка заключается в передаче системе и коллективном накоплении знаний о поиске.

Анализ стратегий поведения аналитика, пользующегося поисковой системой, позволил сформулировать две обобщённые поисковые задачи, решение которых должно поддерживаться системой - задачи локального и глобального поиска. В первой постановке решается задача пользователем, желающим найти «всё полезное, что нам известно» о решаемой проблеме. Вторая соответствует стремлению «максимально быстро найти из всего известного полезную» информацию.

Введённое обобщение позволило рассматривать поисковый процесс не как набор однократных изолированных актов поиска, а как единую процедуру построения решения прикладной задачи путём нахождения и анализа информационных ресурсов в Интернет.

Поиск в широком понимании предполагает циклическое повторение операций запроса и анализа ответа, т.е. временная модель поиска имеет вид: <ТЛ,ЕЛ>,

тл

где ТА- множество пар интервалов, соответствующих поиску ресурса в базе данных поисковой системы и анализа полученного промежуточного результата. Множество Ел включает в себя частичные результаты каждого шага поиска. Исходя из

этого,

^(Д^+Д^).

>

Можно видеть, что стремление сократить время поиска приводит к необходимости сокращать значения | ТА |,Дг"с,Д/^. Сделать это исключительно за счёт со-

вершенствования механизмов индексирования и ранжирования содержимого базы данных поисковой системы невозможно.

Отличительной особенностью обобщённых поисковых задач является их интегральный характер: процесс поиска включается в процесс решения прикладной задачи. Поддержка поисковой системой процедуры решения определяет качество реализации поисковых процедур и является основой проектирования самой поисковой системы.

Разработана модель нечёткого описания прецедентов поиска дескрипторами в пространстве концептов онтологии сетевого сообщества. Нечётким дескриптором -О набора ресурсов Е'={е\,е'2 ,..£'„}

назван вектор

в котором с1 еС - концепт онтологии предметной области поиска 0=<С,И,Е >, ц. е[0,1] ■ степень принадлежности Е' смысловому содержанию

концепта.

В работе исследованы свойства дескрипторов, сформулированы алгоритмы согласования мнений пользователей, описывающих ресурсы дескрипторами. Проанализирован случай двух пользователей и линейное согласование с помощью числового вектора ^:

ЩЕ') = /п®31(Е'),

где <8>- операция поэлементного перемножения векторов:

Алгоритм согласования мнения пользователя П1 и пользователя П2 предусматривает следующее:

1) П1 высказывает своё субъективное мнение о ресурсе, указывая Д (£');

2) П2 высказывает своё субъективное мнение о ресурсе, указывая Пг(Е');

3) сравниваются множества концептов, использованных в дескрипторах Сб1и СВг • Если С- П Сб2 = 0, то согласование считается невозможным из-за принципиального расхождения в подходах к оценке ресурса и выполняется переход к п. 5. В противном случае переход к п. 4;

4) вычисляется г _ АС£'). где в качестве операции деления используется

Ъг{Е) ' поэлементное деление векторов:

№"11

5) конец алгоритма.

Приведённый алгоритм предполагает, что Д (£') и Е') известны. Рассмотрен случай, когда известен только один из дескрипторов и требуется определить

при не известном другом. Данная постановка задачи считается корректной, если есть опыт согласования других ресурсов, в противном случае /п - любой числовой

вектор. Под опытом понимается наличие в системе П Ф 0,Е Ф 0,/ Ф 0 ■ Предлагаемый путь определения /и основан на введении инварианта, задаваемого значениями дескрипторов. Д (£') и Д (£'). Предполагается, что у двух субъектов

единообразное или похожее понимание одних и тех же проблем, явлений, объектов проявляется в схожей оценке значимости других проблем, явлений или объектов.

В качестве инвариантов могут быть использованы различные соотношения. В работе рассмотрены следующие варианты:

пропорциональность координат дескрипторов, т.е. линейное согласование

Д(£') = /и®А(£');

кластерная принадлежность дескрипторов. Пусть множество дескрипторов пользователя П

к

разбито на Н5 кластеров

Лц. =1К(" : Д,,. (Е) е 1>п &Зщ(Е)$Оп^,кФт,к,т = Щ-

I

Пусть множество дескрипторов пользователя Пдрззбито на Нд кластеров и задано функциональное соответствие Тогда инвариант кластерной принадлежности описывается как

соотношения между координатами дескриптора топологического характера. Например, «выше - ниже», «в одном направлении», «расположены на одной прямой», «недалеки от среднего значения», и т.д. Если обозначить через Я,

топологическое отношение между дескрипторами пользователя П0И пользователя п8 > то топологический инвариант определяется в виде:

Использование инвариантных преобразований дескрипторов приводит к их искусственной согласованности.

Предложен алгоритм согласования мнения пользователя П1 и пользователя П2 без непосредственного участия пользователя ГО :

1) фиксируется инвариантное преобразование / дескрипторов пространства пользователя П1 в дескрипторы пространства пользователя П2. Имя преобразования

может быть либо атрибутом зарегистрированного пользователя, либо атрибутом сеанса соединения;

2) пользователь П1 высказывает своё субъективное мнение о ресурсе, указывая Д (£•);

3) сравниваются множества концептов Сл,и Спг, использованных в пространстве дескрипторов пользователей П1 и П2. Если Ст Г\СП1 = 0, то множество СП1 дополняется множеством с \ СП2 и осуществляется переход к п. 4;

4) вычисляется 52(£') = /21(Д(£'));

5) конец алгоритма.

В этой же главе предложена модель двухкомпонентного описания информативности ресурсов. Информативность рабочей области анализа 1{Е„) оценивается вектором

1(Е„) = (1В(ЕШ),1ЛЮ),

гдъ 1В{Е„) и 1Л(Е„)- информативность на базовом и прикладном уровне соответственно. Суть модели в выделении базовой и прикладной составляющей информативности. В отличие от существующих моделей описания и оценки информативности, предложенная модель учитывает субъективизм оценки информативности отдельным членом сетевого сообщества и объективную составляющую, связанную со знаниями и оценкой информативности сетевым сообществом в целом. В работе описан подход к оценке информативности на основе системы правил-продукций.

Предложена методика получения решения задачи локального поиска. Формально для построения алгоритма актуализации следует определить отношение порядка elaeJ,iíj = на множестве ресурсов Е = {е1,е2,...ем}- Отношение должно учитывать дифференциацию тематики ресурсов зависеть от онтологии прикладных областей. Перечисленным требованиям удовлетворяет отношение а, которое строится на основе отношений порядка тематики ресурсов и концептов онтологии и концептов онтологии и информационных ресурсов. Множество тем описано как £ = а порядок задан отношением ^с^х^". На практике его можно

построить, например, на основе статистики посещаемости разделов поисковой системы (ПС), соответствующих темам: $ т ~>п , где и - количество посещений раздела ПС темы $ за установленный интервал времени. Соответствие между

темами 5 и концептами С следует рассматривать как нечёткое в силу того, что темы и концепты определяются пользователями субъективно и могут неоднозначно

трактоваться участниками сетевого сообщества. Необходимое нечёткое множество

= {[Л5Ск !< 81УСк >) строится на основе опроса мнений модераторов и редакторов тематических направлений ПС. Отношение порядка % с С х С на множестве концептов С должно быть согласовано с порядком Т] на некотором уровне достоверности:

Здесь ¡и* - заданный уровень достоверности.

Соответствие концептов С ресурсам Е задаётся дескрипторами Де() = (/^/с0,//4/с4,...,/гА/сА),е(е£-Отношение порядка а на множестве ресурсов должно быть согласовано с порядком % на требуемом уровне ц*: е,ае] =>Зс„Хст :<с„,е, >еО(е1)&^се >ц*&<ст,е} >е£(еу)&//с^ >уи*Им

ея реализацию отношений, для актуализации предлагается алгоритм:

1. Отсортировать-множество тем, используя отношение 77.

2. Отсортировать множество концептов на заданном уровне достоверности ^ * на основе отношения %, согласовав его с порядком тем г].

3. Отсортировать множество ресурсов на заданном уровне достоверности ¡1 *, используя отношение а, согласовав его с порядком концептов

4. Цикл по множеству ресурсов Е = {е,,е2,...еЛ,}'- пока доля времени, выделенная на актуализацию, не равна нулю, выполнять функцию двухпозиционного управления текущим ресурсом и всякий раз корректировать долю времени, выделенную на актуализацию.

5. Конец алгоритма.

Функция двухпозиционного управления ресурсом подразумевает использование лингвистической переменной Ьл с терм-множеством значений {достаточная, недостаточная} и функцией принадлежности термов . Указанное представление позволяет реализовать двухпозиционную процедуру управления:

¿А = ТекущееЗначениеУровняАктуальности (г,Ы)

ЕСЛИ ЬА ~ недостаточная, ТО Актуализировать0.

Функция ТекущееЗначениеУровняАктуальности ( иЫ) принимает на вход текущее время (г) и идентификатор ресурса (Ы). Значение (Ы) является ключом для доступа к таблице параметров функции оценки актуальности.

Проведён анализ условий, при которых предлагаемый поисковый сервис даёт выигрыш в сравнении с использованием поиска по ключевым словам, по каталогам поисковых систем и по наборам «полезных ссылок». Предлагается строить анализ на отношении полезности информационных ресурсов 0с£х£. При работе пользователя-аналитика с поисковой системой имеются две реализации данного отношения:

• отношение ®л, поддерживаемое аналитиком;

• отношение 0ЯС, поддерживаемое поисковой системой.

Если обе стороны используют одно и то же отношение, т.е ©А = ®пс,

то в соответствии с временной моделью поиска,

причём д^ и | ТА 1 зависят от личности аналитика и решаемой задачи. Но на

практике ©^ ^ @яс, что заставляет аналитика затрачивать дополнительное время на

поиск (или, возможно, упорядочение) предоставленных поисковой системой ресурсов. Как минимум, растёт Д//*, очень вероятен рост \ТЛ\- Поэтому в реальности

Случай близких отношений &л « &пс соответствует использованию аналитиком специализированной поисковой системы. В этой ситуации / я /■ .

Близость двух отношений понимается следующим образом: 0, Я©лс :0,/(©, П0„с)*0&0ЛС/(©, П®пс)ф0&

&|е,пеяс1^&|©,П0<7,|>

0<£Г<1.

Здесь е является степенью близости отношений. Значение г = 0.5 рассматривается как пороговое, при е < 0.5 считается, что ©^ Предлагаемый в данной работе вариант организации поисковой системы приводит к получению &л а Опг, поскольку

1) онтология создаётся и поддерживается в рамках известного круга интересов сетевого сообщества;

2) каждый элемент априорно оценен соответственно смыслу и его дескриптор находится в согласованном пространстве признаков;

3) как следствие, существует общая определённость в оценке значимости информационных ресурсов и это отражено в значениях дескрипторов. Тем самым, справедливо считать, что £>0.5-

Разработан метод комбинированной аналогии для решения задачи глобального поиска. В работе предлагается следующая модель информационного пространства для поиска аналогий

где С - множество описаний классов информационных ресурсов, Л - множество отношений между классами и между экземплярами информационных ресурсов, X -множество статических атрибутов (свойств) информационных ресурсов, Р- множество функций, определяющих поведение информационных ресурсов, И - множество дескрипторов запросов на поиск информационных ресурсов. Если в контексте решения прикладной задачи установлена функция 8{а,Ь) оценки сходства пары

подмножеств а,Ь по атрибутам из <С,К,Х,Р,В>, то сходство любой пары экземпляров о, е 0,о2 е О логически выводится как

¿(а, Ь) > 5* 8(0,, ог) >: 5 *,

где 5 * - требуемый уровень сходства. В терминах теории структурной аналогии, любая аналогия А имеет контекст и , а множество

включает в себя элементы, которые используются для оценивания близости объектов а и Ъ функцией &{а,Ь)- В качестве контекста выступает подмножество атрибутов

ил =<САДА,ХА,РА >,СА сС,11А с Д,ХА сХ,РАсЛО,сВ. Для комбинированной аналогии

С0( с С, 11, С Д, Хо с X, ^ с Б с Д

Приведённая модель позволяет формально описать содержательность как набор

Л А *

контекстов Ас.А,Аф 0 . Набор Л специфичен для каждого пользователя системы,

Л Л

все пользователи имеют разные контексты А. Величину | А | можно использовать как меру содержательности: чем больше частных аналогий «просматривается» в найденном материале, тем больше вероятность восполнить недостаток информации. Пустой контекст соответствует бессодержательной аналогии, применение которой практически бесполезно и не направлено на решение задачи глобального поиска. В работе сформулирован алгоритм экспериментального выявления набора контекстов смешанной аналогии.

В +ретьей главе разработаны модели визуального представления результатов поиска поисковым сервисом. Визуализация результатов поиска, содержимого информационной базы поискового сервиса является важным элементом интеллектуальной деятельности аналитика, решающего поисковые прикладные задачи. Рост объёма приобретаемой информации сетевым сообществом требует специальных мер по управлению визуализацией. Модель управления визуализацией, сформулированная в данной главе, имеет вид:

(7(й,) —»шах^

где {V*- заданное ресурсное ограничение. Модель ставит на первое место информативность области исследования карты или схемы. В отличие от таких традиционно используемых показателей как наглядность, простота использования, лёгкая перестраиваемость и ряда других, информативность интегрально отображает полезность визуализации для интеллектуального анализа данных. На основе предложенной модели сформулированы задачи исследования механизмов поддержания целостности изображений и их преобразований, предполагающих изменение информативности.

Предложено использовать оценочные функции для устранения аномалий добавления и удаления элементов поисковых карт и схем. Если обозначить через 5 множество схем (карт), которыми пользователи отображают знания о поиске, то любая

схема представляет собой подмножество 5/ = 1,|5|-

Тогда условием целостности визуализации должна быть различимость визуальных объектов: при наложении друг на друга пользователь должен распознать каждый отдельный объект. Если х'у - видимая часть визуального объекта х'у, то СУБД с помощью оценочной логической функции

_ , Г1, если по х'у распознаётся и х\, \ х'у,

[О в противном случае, должна принимать решение о целостности. При ©(х'у)~0 имеет место аномалия добавления нового визуального объекта в базу данных поискового сервиса.

В случае удаления визуального объекта оценке подвергаются элементы, оставшиеся в изображении. Оценивается наличие дефекта отображения: ') -'если х'у не имеет ДеФекта отображения, У [0 в противном случае.

Под дефектом отображения понимается отсутствие на изображении существенно важных объектов, без которых рассматриваемое теряет смысл.

Оценку целостности предлагается реализовать путём классификации, множество классов представлено в Таблице 1.

Таблица 1

Множество классов для оценки целостности

Наиме- Сигнатура Примечание

нование класса

класса СЩ,М2,Мз)

А1 (1 --) Объект распознаётся по форме

А2 (- 1 -) Объект распознаётся по цвету или текстуре

АЗ (- - 1) Объект распознаётся по контексту

А4 Объект распознаётся по форме, цвету и текстуре

А5 (МА>"з) Объект распознаётся по форме и контексту

А6 (0 ,М2,Из) Объект распознаётся по цвету и текстуре, по контексту

А7 Объект распознаётся по форме, цвету и текстуре, по контексту

А8 (0 0 0) Объект не распознан

Классы А1-АЗ соответствуют однозначно распознаваемым по единственному показателю визуальным объектам. Классы А4-А6 включают визуальные объекты, распознаваемые по двум показателям, причём каждый из показателей по отдельности не имеет необходимой степени истинности, ц < о.5 • Классу А7 соответствуют.

наборы показателей с недостаточной степенью истинности п <0.5- Класс А8

включает в себя экземпляры векторов, позволяющих принимать достоверное решение о невозможности распознавания визуальных объектов. На основании выражений, приведённых в работе, формируется вектор // = (/^,/^,/¿3), по значению

которого делается попытка отнести визуальный объект к одному из классов AI-A3 либо к классу А8. При невозможности такого решения предпринимается попытка отнести объект к классам А4-А6, затем к А7. Если попытки неудачны, объект относится к классу А8.

Разработан подход к реализации операции обобщения при манипулировании поисковыми схемами и картами. В отличие от известных, предлагаемый подход использует свойство непрерывности схем и карт. Это позволяет повысить скорость реализации операции. В данной главе описана объектная модель подсистемы обобщения графических представлений.

В четвёртой главе экспериментально исследуется эффективность предложенных моделей и методов путём сравнения с поисковыми системами Yandex, Google, Mail, Rambler, Bing, Genon. В качестве тестовой прикладной задачи рассматривалась следующая: задано XML-описание графической схемы, необходимо разработать на языке С++ приложение для Windows 7, которое отображает схему, допуская её зуммирование и панорамирование.

Экспериментальное сравнение эффективности поисковых систем производилось следующим образом:

1) экспертам предлагалось, решая поставленную прикладную задачу, сформировать запросы к каждой из рассматриваемых поисковых систем, ограничиваясь тремя последовательными шагами уточнения (модификации) запросов;

2) конечным результатом поиска считалось локальное решение (ссылка, размещённая первой в выдаче поисковой системы) и глобальное решение. Под глобальным поиском имеется в виду нахождение одной из ссылок, перечисленных сетевым сообществом разработчиков по адресу http://habrahabr.ru/blogs/cpp/. в диапазоне первых 30 страниц выдачи. Размер страницы составлял 10 записей;

3) каждую поисковую систему эксперты оценивали по 10-балльной шкале ценности ссылок, полученных локальным и глобальным поиском, а также трудоёмкость получения решения. Для глобального поиска трудоёмкость оценивалась количеством страниц, которые следовало просмотреть от начала списка выдачи поисковой системы, результаты сравнения представлены в Таблице 2.

Таблица 2

Сравнение предложенного поискового сервиса с известными'

Поисковая система Балльная оценка полезности результата Балльная оценка трудоёмкости глобального поиска

Локальный поиск Глобальный поиск

Разработанный сервис 9.2 9.0 10

www.vandex.ru 8.7 9.0 8.6

www.google.com 8.8 9.4 8.7

www.mail.ru 8.0 8.1 7.9

www.rambler.ru 5.8 7.3 6.3

vvww.bing.com 7 8.9 8.2

www.nigma.ru 8.6 8.8 8.5

Среднее для известных поисковых систем 7,8 8.6 8.1

Сравнение балльных оценок показало, что на рассмотренной прикладной задаче и принятой модельной базе знаний достигается выигрыш по трудоёмкости глобального поиска в 25%, по качеству локального поиска в 15%.

В заключении подводятся итоги исследования, сформулированы научные результаты.

В приложении приведён листинг программного кода поискового сервиса.

Основной результат диссертационной работы заключается в создании интеллектуального поискового сервиса для социальных сетей и сетевых сообществ Интернет, позволяющего решать прикладные задачи пользователей в диалоге с поисковой системой. Отличительной особенностью предложенного поискового сервиса является накопление и анализ опыта поиска с оценкой качества найденной и изученной информации.

Работа содержит следующие научные результаты:

1. Предложен способ организации информационного поиска в сетевых сообществах, объединяющий средства локального и глобального поиска.

2. Разработана модель нечёткого описания прецедентов поиска дескрипторами в пространстве концептов онтологии сетевого сообщества, которая отличается от аналогичных моделей предоставлением пользователю оценок экспертов с высоким рейтингом.

3. Предложен метод решения задачи локального поиска на основе интеллектуального поискового сервиса, включающего актуализацию базы данных прецедентов поиска. Синтезирован нечёткий алгоритм нахождения наилучших последовательностей актуализации ресурсов.

4. Разработан метод глобального поиска на основе комбинированной аналогии, заключающийся в использовании набора частных показателей аналогии, доступных для оценки средствами поисковой системы.

5. Разработана методика обеспечения целостности визуализации поисковых схем. В рамках методики предложен классификационный алгоритм оценки целостности карт и схем поиска.

Список опубликованных работ по теме диссертации в изданиях ВАК

1. Краснощекое Е.Е. Нечеткий поиск релевантной информации в интернете // Известия ТРТУ. Таганрог: ТРТУ, № 9. - 2006. - С. 153-154.

2. Краснощекое Е.Е. Применение нечеткой логики при поиске информации в сети Интернет // Известия ТРТУ. Таганрог: ТРТУ. - 2006. - С. 183-184.

3. Целых А.Н., Краснощеков Е.Е. Персональные поисковые сервисы интернета // Известия ЮФУ. Тематический выпуск «Информационные и гуманитарные технологии в управлении экономическими и социальными системами». Таганрог: ТТИ ЮФУ, № 9. - 2010. - С. 230-237.

Основные публикации по теме работы

4. Краснощеков Е.Е. Нечеткий поиск информации с использованием мер близости // Техническая кибернетика, радиоэлектроника и системы управления. Сборник научных статей VII Всесоюзной научной конференции студентов и аспирантов. Таганрог: ТРТУ. - 2004. - С. 442 -443.

5. Краснощеков Е.Е., Целых А.Н., Поиск по сходству // Сборник научных статей IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых. Томск. - 2006. - С.382-383.

6. Краснощеков Е.Е. Преимущества нечеткого поиска релевантной информации // Сборник научных статей Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах». Новочеркасск. - 2005 - С. 44-46.

7. Краснощеков Е.Е. Привлечение алгоритмов нечеткой логики для поиска релевантной информации в интернете // Сборник научных статей Международной студенческой научно-технической конференции. Журнал «Инженер» № 7. Донецк. -2006-С. 185-190.

8. Краснощеков Е.Е.. Технология поиска информации в Интернете на основе алгоритмов нечеткой логики // Сборник статей VIII Всероссийской научной конференции студентов и аспирантов. Техническая кибернетика, радиоэлектроника и система управления. Таганрог: ТРТУ. - 2006. - С. 408 -409.

9. Краснощеков Е.Е. Применение парадигматических отношений при поиске релевантной информации в Интернете // Сборник статей VIII Всероссийского Симпозиума по прикладной и промышленной математике. Журнал «Обозрение прикладной и промышленной математики». Выпуск 5, том 14. Москва. - 2007. — С. 901.

10. Краснощеков Е.Е. Применение аппарата нечетких вычислений при обработке запроса пользователя // Сборник статей IX Всероссийского Симпозиума по прикладной и промышленной математике. Журнал «Обозрение прикладной и промышленной математики». Выпуск 5, том 15. Москва. - 2008. - С.887.

11. Маркович И.И., Донской C.B., Нащсевич О.Н., Краснощеков Е.Е. Разработка функционального программного обеспечения высокопроизводительной системы реального времени. Многопроцессорные вычислительные и управляющие системы (МВУС-2009). Материалы Международной научно-технической конференции т.2. Таганрог: ТТИ ЮФУ. - 2009. - С.197-199.

Личный вклад автора в работах, написанных в соавторстве, состоит в следующем [3] - анализ роли опыта в процессах поиска информации и постановка оптимизационных задач поиска; [5] - построение модели принятия решений, основанных на определении сходства ситуаций; [11] - программная реализация элементов конфигурации программного обеспечения.

Соискатель Краснощеков Е.Е.

9

Типография ТТИ ЮФУ, ГСП 17А, Таганрог, ул. Энгельса, 1. Заказ № 332. Тираж 100 экз.

Оглавление автор диссертации — кандидата технических наук Краснощеков, Евгений Евгеньевич

ВВЕДЕНИЕ.

ГЛАВА 1. АНАЛИЗ СОВРЕМЕННЫХ МЕТОДОВ И СРЕДСТВ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТ.

1.1. Особенности существующих механизмов поиска в информационных системах.

1.2. Влияние процедур поисковой оптимизации сайтов на поисковые сервисы.

1.3. Анализ средств персонапизации поисковых систем.

1.4. Анализ проблем представления данных и поисковых запросов в информационных системах.

Выводы по первой главе.

ГЛАВА 2. РАЗРАБОТКА. И ИССЛЕДОВАНИЕ МОДЕЛЕЙ ПРЕДСТАВЛЕНИЯ И ИСПОЛЬЗОВАНИЯ ОПЫТА ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТ

2.1 Роль опыта в поиске информации.

2.2 Модель локального поиска информации.

2.2.1 Идентификация экземпляров опыта поиска нечёткими 60 дескрипторами.

2.2.2 Оценивание информативности ресурсов рабочей области

2.2.3 Особенности реализации локального поиска.

2.3. Сравнительный анализ поискового сервиса, использующего опыт, с существующими способами поиска.

2.4.Модель глобального поиска.

2.5. Анализ особенностей применения комбинированной аналогии при поиске информационных ресурсов.

Выводы по второй главе

ГЛАВА 3. РАЗРАБОТКА МОДЕЛЕЙ ВИЗУАЛИЗАЦИИ ПОИСКОВЫМИ СЕРВИСАМИ РЕЗУЛЬТАТОВ ПОИСКА

3.1. Постановка задачи управления визуализацией.

3.2. Построение и исследование моделей целостности.

3.3. Анализ алгоритмов реализации оценочных функций.

3.4. Нахождение границ визуальной области анализа.

3.5. Преобразования карт и схем обобщающего характера.

Выводы по третьей главе.

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКОВОГО СЕРВИСА

4.1. Постановка задачи разработки программного комплекса поискового сервиса.

4.2. Обзор реализованного интерфейса.

4.3. Описание технической реализации.

4.3.1. Разработанные программные модули.

4.3.2. Обработка экранных форм.

4.3.3. Работа с СУБД MySQL средствами языка PHP.

4.4. Функционирование поискового сервиса.

4.5.Результаты численных экспериментов.

Выводы по четвертой главе.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Краснощеков, Евгений Евгеньевич

Актуальность темы. Современная сеть Интернет не только обеспечивает коммуникацию между людьми, но и даёт доступ к колоссальным объёмам накопленной человечеством цифровой информации. Количество пользователей, ежедневно обращающихся к Интернет, число серверов сети и хранимых ими документов, объём трафика измеряется числами порядка не менее 10б и эти цифры будут только расти. Рациональное использование информационных ресурсов Интернет давно уже стало невозможным без сетевых поисковых сервисов. Параллельность и асинхронизм процессов создания, модификации и удаления гипертекстовых документов привёл к появлению систем, выполняющих непрерывное слежение за состоянием информационных ресурсов Интернет, их индексирование и каталогизацию. Число поисковых серверов на сегодняшний день составляет несколько сотен, что свидетельствует о практической важности задачи поиска. При этом качество результатов поиска напрямую определяет рейтинг популярности поискового сервиса. Поисковые системы Yandex, Google, Yahoo,Rambler, Aport, Bing и ряд других серверов по-разному реализуют процедуры обхода сайтов, индексирования их содержимого и формирования ответов на поисковые запросы. Таким образом, существует ряд практически реализованных механизмов поиска, доступных пользователям Интернет.

Ни в теоретическом, ни в практическом отношении, тем не менее, проблема информационного поиска окончательно не решена. Об этом свидетельствует значительное число научных публикаций, существование непрерывно действующих Интернет-конференций и форумов по поиску информации и организации библиотечных систем, регулярное проведение семинаров поисковыми Интернет-порталами. Наконец, компания Yandex ежегодно проводит соревнования по поиску информации, публикуя анализ их результатов. Всё это говорит о том, что поисковые сервисы не являются средством гарантированного получения результата требуемого качества. Поиск остаётся в значительной степени искусством, базирующемся на знаниях, профессионализме и опыте пользователя.

В теоретическом отношении информационно-поисковые системы исследуются в течение нескольких десятков лет. Работы Г. Солтона, В. Крафта, К. Бакли, Решетникова В.Н. и многих других учёных развивали различные научные подходы к решению проблемы поиска синхронно с совершенствованием коммуникационных, программных и аппаратных средств информационных систем. Увеличение объёмов оперативной и внешней памяти компьютеров, скорости обработки информации, совершенствование средств работы с базами данных, сетевых технологий обусловили переход от исследования принципов адресного поиска к документальному, фактографическому, семантическому, полнотекстовому и другим, которые используют линейные и векторно-пространственные, детерминированные, нечёткие и вероятностные модели поиска. Современные исследования в области информационного поиска стимулируются развитием Интернет, совершенствованием средств сетевого хранения данных различной природы (тексты, гипертексты, звук, анимация, графика), появлением и расширением социальных сетей в Интернет.

Социальными сетями (сообществами) называют одну из разновидностей виртуальных сетей, которые строятся «поверх» универсальной сетевой основы - в данном случае Интернет. Узлами социальной сети являются пользователи, однозначно идентифицируемые внутри сети. На практике это логин и пароль, которые представляют собой уникальную комбинацию для конкретной сети. Коммуникация между узлами реализуется современными средствами обмена сообщениями в реальном масштабе времени и заполнением электронных досок объявлений, по электронной почте, ведением блогов. Сетевым сообществом именуют группу пользователей, объединившихся внутри социальной сети соответственно общности интересов по определённой теме.

Число социальных сетей достаточно велико и непрерывно продолжает расти. Возникновение первого сетевого сообщества датируется началом 90-х годов (сеть SixDegree). Наиболее известны в настоящее время сети MySpace, FaceBook, Twitter, LiveJournal, Odnoklassniki, VKontakte.

Основой создания многих сообществ является обмен опытом в решении прикладных задач реального мира. Социальная сеть в таком случае становится информационной средой, которая структурирует знания о ресурсах внешней сети Интернет и создаёт собственные. Активность социальной сети ведёт к необходимости создания собственных средств управления информационными ресурсами.

Как показывает анализ, средства оценки информационной среды Интернет и поиска должны в большей степени обладать интеллектуальным поведением, чтобы решать современные проблемы использования информации глобальной сети. К таким проблемам относятся:

1. Проблема отбора значимых (релевантных) документов. На сегодняшний день поисковыми серверами накоплен значительный общий объём проиндексированных данных о ресурсах Интернет. Поисковая выдача современных систем на запрос может составлять миллионы документов, просмотр и оценка которых для человека невозможна. Необходимо совершенствовать модели отбора релевантных документов, но существующие методики не дают эффективного результата.

2. Проблема накопления и использования опыта поиска. Особенность данной задачи в том, что современные социальные сети Интернет включают сетевые сообщества, осуществляющие естественным образом накопление и передачу опыта информационного поиска. В отличие от экстенсионального накопления и хранения данных поисковыми роботами (по оценкам экспертов, таким образом проиндексировано около 40% информационного пространства Интернет) сетевые сообщества накапливают информацию интенсиональным образом. При этом средства накопления и использования опыта остаются недостаточно развитыми.

3. Проблема интеллектуальной поддержки процесса решения прикладных задач, требующих поиска информации. Процесс поиска возникает в связи с решением пользователем некоторой прикладной задачи. Учёт некоторых особенностей задач, содержания и смысла документов, относящихся к проблеме потенциально способен повысить качество результата поиска. Современные сервисы обладают недостаточными возможностями целостной поддержки подобных процессов.

Цель и задачи исследования диссертационной работы. Цель работы заключается в разработке и исследовании моделей функционирования интеллектуального поискового сервиса для социальных сетей и сетевых сообществ Интернет.

Для достижения этой цели необходимо решить следующие задачи:

1. Разработка и исследование моделей интеллектуального процесса решения прикладных задач в диалоге с поисковой системой. Принципиальными отличиями моделей должно стать накопление и анализ опыта поиска, оценка качества найденных и изученных материалов, визуализация информационных структур и связей источников информации.

2. Разработка и анализ моделей, а также структур хранения и процедур поиска информационных ресурсов по их нечётким описаниям в сетевых сообществах, социальных сетях.

3. Теоретический анализ вопросов организации поисковых систем, ориентированных на визуальный анализ большого объёма сведений, поддержки процедур манипулирования сложными изображениями и разработки методов визуального представления опыта поиска.

Объектом исследования являются процессы коллективного накопления опыта поиска информационных ресурсов Интернет, его хранения и использования интеллектуальными поисковыми сервисами при выполнении поисковых запросов.

Предметом исследования являются модели описания и использования опыта поиска сетевыми сообществами Интернет, алгоритмы выполнения поисковых процедур при решении прикладных задач, а также модели и алгоритмы визуализации опыта поиска.

Методы исследования опираются на известные методы информационного поиска, теоретические основы разработки баз данных, теоретические методы искусственного интеллекта, методы численной оптимизации, а также методы и средства компьютерной графики.

Научная новизна диссертационной работы.

1. Предложен способ организации информационного поиска в сетевых сообществах, объединяющий средства локального и глобального поиска. Отличительной особенностью предложенного поискового сервиса является накопление и анализ опыта поиска с оценкой качества найденной и изученной информации, что позволяет пользователю повысить качество решения прикладной задачи.

2. Разработана модель нечёткого описания прецедентов поиска дескрипторами в пространстве концептов онтологии сетевого сообщества, которая отличается от аналогичных моделей предоставлением пользователю оценок экспертов с высоким рейтингом. На основе предложенного формализма синтезированы алгоритмы и определено согласование оценок ресурсов аналитиками, что позволяет повысить качество поисковой выдачи за счёт релевантности результатов.

3. Предложен метод решения задачи локального поиска на основе интеллектуального поискового сервиса, включающего актуализацию базы данных прецедентов поиска, который отличается от известных методов использованием нечётких категорий. Синтезирован нечёткий алгоритм нахождения наилучших последовательностей актуализации ресурсов, позволяющий получать оптимальное решение задачи локального поиска.

4. Разработан метод глобального поиска на основе комбинированной N аналогии, заключающийся в использовании набора частных показателей аналогии, доступных для оценки средствами поисковой системы. Предложенный метод отличается от известного метода структурной аналогии использованием множества контекстов для оценки сходства пары объектов, что позволяет повысить достоверность определения близких по смыслу ресурсов и увеличить эффективность глобального поиска.

5. Разработана методика обеспечения целостности визуализации поисковых схем, отличающаяся от известных использованием нечётких оценочных функций для выявления аномалий добавления и удаления объектов на уровне формы, цвета и текстуры, а также топологических отношений объектов поисковых схем. В рамках методики предложен классификационный алгоритм оценки целостности карт и схем поиска, что позволяет избегать аномалий добавления и удаления элементов поисковых карт и схем.

Основные положения, выносимые на защиту.

1. Способ организации информационного поиска в сетевых сообществах, объединяющий средства локального и глобального поиска.

2. Модель нечёткого описания прецедентов поиска дескрипторами в пространстве концептов онтологии сетевого сообщества, которая отличается от аналогичных моделей предоставлением пользователю оценок экспертов с высоким рейтингом.

3. Метод решения задачи локального поиска на основе интеллектуального поискового сервиса, включающего актуализацию базы данных прецедентов поиска, и нечёткий алгоритм нахождения наилучших последовательностей актуализации ресурсов.

4. Метод глобального поиска на основе комбинированной аналогии, заключающийся в использовании набора частных показателей аналогии, доступных для оценки средствами поисковой системы.

5. Методика обеспечения целостности визуализации поисковых схем, в рамках которой предложен классификационный алгоритм оценки целостности карт и схем поиска.

Практическая значимость диссертационного исследования заключается в том, что разработаны и внедрены в программной поисковой системе модели, методы и алгоритмы локального и глобального поиска информационных ресурсов на основе использования коллективного опыта поиска информации при создании сложных технических систем и конструкторских разработок.

Внедрение и использование результатов работы. Полученные в диссертационной работе результаты внедрены на ОАО «Таганрогском авиационном научно-техническом комплексе им. Г.М. Бериева» в контрактно-договорном отделе и отделе сетевого планирования работ, а также при выполнении научно-исследовательских работ в Научно-конструкторском бюро цифровой обработки сигналов Южного федерального университета. Результаты внедрения и использования результатов диссертационной работы подтверждаются соответствующими актами.

Апробация работы и публикации. Материалы диссертационной работы апробированы на VII Всесоюзной научной конференции студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления» (Таганрог, 2004); Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах» (Новочеркасск, 2005); IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых (Томск, 2006); VIII и IX Всероссийском Симпозиуме по прикладной и промышленной математике (Москва, 2007, 2008); Международной научно-технической конференции «Многопроцессорные вычислительные и управляющие системы (МВУС-2009)» (Таганрог, 2009); на ряде ежегодных конференций профессорско-преподавательского состава федерального государственного автономного образовательного учреждения высшего профессионального образования Таганрогского технологического института ЮФУ.

Публикации. По материалам работы опубликовано 11 печатных работ, в том числе 3 статьи в журналах из перечня рекомендуемых ВАК РФ.

Структура и объем работы. Диссертационная работа состоит из введения, 4 глав основного раздела, заключения, библиографического списка и приложения. Основное содержание работы изложено на 184 страницах, включая 13 таблицы, 41 рисунок и список литературы из 115 наименований.

Заключение диссертация на тему "Разработка и исследование нечетких моделей интеллектуального поискового сервиса для сетевых сообществ Интернет"

Выводы по четвертой главе

1. Реализация интеллектуального поискового сервиса может быть выполнена на основе средств программирования, включающих в себя интерпретатор PHP и СУБД MySQL. Библиотека PHP включает набор необходимых функций для реализации задач интеллектуального поиска, в том числе функции программного интерфейса с СУБД MySQL. Основным достоинством подобного средства реализации является невысокая стоимость, что для сервисов социальных сетей немаловажно.

2. Построение визуальных представлений о результатах поиска требует привлечения дополнительных средств обработки графики, поскольку средства библиотеки PHP включают достаточно примитивные операции над растровыми данными. Возможно, более высокое качество обеспечат средства описания гиперстраниц, которые будут включены в очередной стандарт гипертекстовой разметки HTML 5 [114].

3. Экспериментальное сравнение трудоёмкости и затрат времени на выполнение задач локального и глобального поиска разработанным программным комплексом и поисковыми системами Yandex, Google, Mail, Rambler, Bing, Genon показало, что на рассмотренной прикладной задаче и принятой модельной базе знаний достигается выигрыш по трудоёмкости глобального поиска в 25%, по качеству локального поиска в 15%.

4. Анализ практической реализации показал целесообразность встраивания в поисковый сервис собственной программной оболочки для онтологии сетевого сообщества. Причина в том, что существующие системы построения онтологий в Интернет не публикуют программного интерфейса доступа к своему содержимому.

Заключение

Основной результат диссертационной работы заключается в создании интеллектуального поискового сервиса для социальных сетей и сетевых сообществ Интернет, позволяющего решать прикладные задачи пользователей в диалоге с поисковой системой. Отличительной особенностью предложенного поискового сервиса является накопление и анализ опыта поиска с оценкой качества найденной и изученной информации.

Диссертационная работа содержит следующие научные результаты:

1. Предложен способ организации информационного поиска в сетевых сообществах, объединяющий средства локального и глобального поиска.

2. Разработана модель нечёткого описания прецедентов поиска дескрипторами в пространстве концептов онтологии сетевого сообщества, которая отличается от аналогичных моделей предоставлением пользователю оценок экспертов с высоким рейтингом.

3. Предложен метод решения задачи локального поиска на основе интеллектуального поискового сервиса, включающего актуализацию базы данных прецедентов поиска. Синтезирован нечёткий алгоритм нахождения наилучших последовательностей актуализации ресурсов.

4. Разработан метод глобального поиска на основе комбинированной аналогии, заключающийся в использовании набора частных показателей аналогии, доступных для оценки средствами поисковой системы.

5. Разработана методика обеспечения целостности визуализации поисковых схем. В рамках методики предложен классификационный алгоритм оценки целостности карт и схем поиска.

Библиография Краснощеков, Евгений Евгеньевич, диссертация по теме Теоретические основы информатики

1. Михайлов А.И., Черный А.И., Гиляревский P.C. Основы информатики. М.: Наука. 1968. - С. 756.

2. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. -М.: Советское радио. 1973.

3. Москович В.А. Информационные языки. М.: Наука. 1971.

4. Черный А.И. Введение в теорию информационного поиска. М.: Наука. 1975.

5. Финн В.К. Логические проблемы информационного поиска. М.: Наука 1976.-С. 152.

6. Аветисян Д.О, Проблемы информационного поиска. М.: Финансы и статистика. 1981. — С. 206.

7. Решетников В.Н. Алгебраическая теория информационного поиска // Программирование. 1979. - № 3. - С. 78-83.

8. Белоногов Г .Г., Новоселов А.П. Автоматизация процессов накопления, поиска и обобщения информации. — М.: Наука. 1979.

9. Солтон Дж.Динамические библиотечно-информационные системы. — М.: Мир, 1979.

10. Криницкий H.A., Миронов Г.А., Фролов Г.Д. Автоматизированные информационные системы. Серия: Справочная математическая библиотека. -М.: Наука. 1982. С. 382.

11. Монастырский И.М. Информационно-поисковые системы. М.: Экономика, 1983.

12. Шапиро Л., Стокман Дж. Компьютерное зрение. М.: Бином. - 2006.

13. Столниц Э., ДеРоуз Т., Салезин Д. Вейвлеты в компьютерной графике, 2002.

14. Форсайт Д.А., Понс Ж. Компьютерное зрение. Современный подход, Вильяме, 2004.1518,1920,21,22,23,24,25,26