Информационно-поисковая система с ранжированием на основе нейронных сетей с бинарной функцией выхода

Занин, Дмитрий Евгеньевич

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Информационно-поисковая система с ранжированием на основе нейронных сетей с бинарной функцией выхода

кандидата технических наук: Занин, Дмитрий Евгеньевич
город: Краснодар
год: 2009
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Информационно-поисковая система с ранжированием на основе нейронных сетей с бинарной функцией выхода»

Автореферат диссертации по теме "Информационно-поисковая система с ранжированием на основе нейронных сетей с бинарной функцией выхода"

На правах рукописи

ЗАНИН Дмитрий Евгеньевич

ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА С РАНЖИРОВАНИЕМ НА ОСНОВЕ НЕЙРОННЫХ СЕТЕЙ С БИНАРНОЙ ФУНКЦИЕЙ ВЫХОДА

Специальность: 05.13.01 - Системный анализ, управление и обработка информации (информационные и технические системы)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Краснодар - 2009

003482248

Работа выполнена в ГОУ ВПО «Кубанский государственный технологический университет»

Научный руководитель:

кандидат технических наук, профессор Частиков Аркадий Петрович

Официальные оппоненты:

доктор технических наук, профессор Хисамов Франгиз Гильфапетдипович; кандидат технических наук, доцент Бельчеико Владимир Евгеньевич

Ведущая организация:

Кубанский государственный университет

Защита состоится 25 ноября 2009 года в 16 часов 00 минут на заседании диссертационного совета Д 212.100.04 в ГОУ ВПО «Кубанский государственный технологический университет» по адресу: 350072, г. Краснодар, ул. Московская, 2А, ауд. А-229.

С диссертацией можно ознакомиться в библиотеке ГОУ ВПО «Кубанский государственный технологический университет»

Автореферат диссертации разослан 23 ноября 2009 г.

Ученый секретарь

диссертационного совета Д 212.100.04 кандидат технических наук, доцент Власенко A.B.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. В процессе развития Интернета и роста объемов данных локальных вычислительных сетей вероятность существования нужной информации растет, а возможность ее нахождения уменьшается. Надлежащий поиск необходимой информации становится общей проблемой. Требуются новые методы и инструментальные средства, решающие проблемы релевантного поиска в чрезвычайно больших объемах информации.

Целью разработчиков информационно-поисковых систем (ИПС) является предоставление пользователю документов, в максимальной степени соответствующие смыслу запроса (обеспечить релевантность -точность поиска), при этом, вернуть как можно большее число документов, содержащих запрашиваемую информацию (обеспечить полноту поиска).

Число найденных документов в списке при поиске по ключевому слову можно уменьшить, если продолжить поиск, но уже среди этих найденных документов (ряд поисковых программ предоставляют такую возможность), используя в качестве запроса другое ключевое слово. Увеличение количества ключевых слов и продолжение процедуры поиска в найденных документах, позволяет уменьшить число найденных документов до разумного значения, при котором просмотр текста документов на интересующую тему оказывается уже реальным. Однако, правильный выбор достаточного количества ключевых слов, а еще лучше словосочетаний, представляет определенную сложность, особенно при работе с незнакомым материалом.

Все это обусловливает низкую адекватность найденной по запросу пользователя информации, то есть возврат системой большого объема малоинформативных документов. Проблема может усугубляться низкой

скоростью получения документов из Интернета, необходимостью просмотра пользователем всех найденных документов и оценки их информационного содержания в неавтоматизированном режиме.

Альтернативой вторичным процедурам поиска может служить разработка быстрых алгоритмов выбора и сортировки возвращенных документов в соответствии с функциями значимости информационных ресурсов и релевантности документа запросу. Задача оптимального представления ограниченного набора документов из некоторого множества найденных с целью максимизации суммарной релевантности запросу, в данной работе представлена задачей комбинаторной оптимизации.

Объект исследования: сфера интеллектуального поиска текстовой (ссылочной) информации.

Предмет исследования: математическое и программное обеспечение информационно-поисковой системы, в условиях быстрого выбора и сортировки возвращенных документов в соответствии с функциями значимости информационных ресурсов и релевантности документа запросу.

Требования по оперативности и размерности решения задач выбора и сортировки документов привели к необходимости оптимизации в нейросетевом базисе.

Цель диссертационной работы - исследование процесса ранжирования найденных документов по критериям релевантности запросу для повышения достоверности и оперативности функционирования информационно-поисковых систем на этапе предварительного отбора тестовых документов, содержащих формальные признаки наличия интересующей информации.

Для достижения поставленной цели в работе сформулированы и решены следующие задачи.

1. Анализ существующих информационно-поисковых систем и проблем интеллектуального поиска текстовой информации.

2. Анализ методов решения дискретных задач оптимизации, применимых в алгоритмах информационно-поисковых систем.

3. Исследование теоретических основ метода оптимального ранжирования найденных документов, на основе нейросетевых решений задач целочисленного программирования.

4. Разработка модели и метода оптимального ранжирования найденных документов, на основе динамических нейронных сетей Хопфилда с бинарной функцией выхода.

5. Разработка алгоритма функционирования нейросетевого блока ранжирования при различных оценках критерия значимости в ИПС Интернет - поиска.

6. Разработка элементов программного комплекса реализующего алгоритмы оптимального ранжирования документов и ссылок в ИПС.

7. Экспериментальное исследование процессов функционирования блоков ранжирования в соответствии с разработанными алгоритмами.

Методы исследования: теоретические исследования проведены с использованием методов системного анализа, математического программирования, оптимизации, моделирования, алгоритмизации, теории нейронных сетей. Экспериментальная часть работы основана на методах машинного моделирования и вычислительного эксперимента с использованием языков программирования высокого уровня и системы математического моделирования МаЛаЬ.

Научная новизна. На основе работ проф. Ю. П. Зайченко выведен ряд аналитических зависимостей, позволяющих сконструировать исходную энергетическую функцию НС Хопфилда с бинарной функцией выхода для оптимального (квазиоптимального) решения задачи векторного ранжирования задач большой размерности при Интернет-поиске. В отличие от ранее известных, в выражении для энергетической функции сети умышленно опущен временной параметр в связи с тем, что при определении синапсов и внешних смещений он не играет какой-либо существенной роли как для сетей с дискретным временем, так и для сетей с непрерывным временем. Также отсутствует последнее слагаемое, так как оно не зависит от состояния сети. Построен алгоритм функционирования нейросетевого блока ранжирования на основе НС Хопфилда. Экспериментальные исследования выявили, что для эффективного решения задач ранжирования ссылок необходимо обеспечить заданное число нейронов в модели, при котором не превышена верхняя граница локальных минимумов энергетической поверхности сети.

Практическая ценность. Впервые искуственная нейронная сеть интегрирована в информационно-поисковую систему. Разработанная система может быть применена во всех направлениях деятельности человека, где необходим оперативный и качественный поиск информации, например, образование, коммерческая деятельность и информационно-справочного обеспечения. На основе разработанных в диссертации модели, метода, алгоритма, информационно-поисковая система внедрена в практику в ООО инновационная компания «Осанна». По результатам проделанной работы получен акт внедрения и свидетельство об официальной регистрации программы для ЭВМ.

Апробация работы. Основные положения работы докладывались и обсуждались на Всероссийских научных конференциях, в том числе: на III

и IV Всероссийской научной конференции молодых ученых и студентов «Современное состояние и приоритеты развития фундаментальных наук в регионах» (Краснодар, 2006 - 2007 гг), а также на XIV Всероссийской научно-практической конференции «Инновационные процессы в высшей школе» (Краснодар, 2008 г.)

По теме диссертации опубликована 8 печатных работ, их них 1 - в периодических изданиях, рекомендованных ВАК России для публикации научных работ, получено 1 свидетельство об официальной регистрации программы для ЭВМ.

Основные положения, выносимые на защиту:

• метод ранжирования ИПС Интернет — поиска на основе решений задач комбинаторной оптимизации в нейросетевом базисе.

• модель оптимального ранжирования документов в ИПС при векторной и скалярной оценке релевантности на основе динамической сети Хопфилда с бинарной функцией выхода.

• структура и алгоритм функционирования блока ранжирования при векторной оценке релевантности на основе нейросетевого решения задачи о назначениях.

• структура и алгоритм функционирования блока ранжирования при скалярной оценке релевантности на основе нейросетевого решения задачи сортировки.

• архитектура высокопроизводительного нейросетевого блока ранжирования в составе перспективной ИПС Интернет — поиска.

Структура и объём работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованных источников из 55 наименований и 2 приложения на 13 страницах. Объем основного текста составляет 155 страницы машинописного текста, в том числе 23 рисунков и графиков, 11 таблицы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении показана актуальность темы исследования, сформулированы цель и задачи настоящей работы, отмечены ее научная новизна и практическая ценность.

В первой главе проведен краткий анализ предметной области -сферы интеллектуального поиска текстовой (ссылочной) информации. Рассмотрены основные операции поиска информации и определен этап процедуры поиска, оптимизация которого позволит повысить эффективность информационно-поисковой системы в целом. Осуществлен обзор методов решения дискретных задач оптимизации информационно-поисковых процедур. Рассмотрена вычислительная сложность алгоритмов дискретных задач оптимизации й возможность их решения в нейросетевом базисе.

Осуществлена общая постановка задачи на исследование.

Во второй главе разработаны метод и модель ранжирования документов в ИПС на основе нейросетевого решения комбинаторных задач, алгоритм нейросетевого ранжирования и его особенности.

Общая последовательность предлагаемого метода ранжирования перед выдачей результата поиска пользователю представлена четырьмя этапами.

1. Динамически определяется множество V смысловых соответствий (критериев значимости) между информационным запросом и полученным документом (результатом поиска), а также обозначается исходное -подлежащее ранжированию, множество Р найденных документов (рисунок 1).

НаборЯнайденнш

Рисунок 1 - Группа критериев представляется как /-я работа, у-й документ представляется как./-й исполнитель

2. На втором этапе метода строится таблица соответствия множества й найденных документов множеству критериев значимости. Таблица определяет исходные данные для решения задачи ранжирования в рамках комбинаторной задачи о назначениях.

Таблица 1. Задачи о назначениях

Гр. критериев 1 ... Гр. критериев { ... Гр. критериев N

Документ 1 И1 гМ гШ

Документ ...

Документ ] Г}\ гр

Документ ...

Документ Л/ гМ\ гМ} г МЫ

Обозначая через ИхМ матрицу неизвестных, элемент

которой хр принимает значение 1, если документ с номером ] будет оцениваться с максимальной релевантностью группой критериев с номером /, и значение 0, в противном случае, ограничения математической модели представляются системой уравнений:

м -

]=|

N -

х, е {0,1 },у=Щ/ = Щ

где первое уравнения означает, что каждый документ оценивается одной группой критериев.

В соответствии со вторым уравнением каждая группа критериев оценивает один документ. Условия третьего уравнения являются естественными ограничениями на введенные переменные.

При реализации метода требуется определить матрицу назначений X, при которой имеет место критерий оптимальности:

и N

нл = Е Е о- ХР тах. (2)

3. На третьем этапе формируется нейросетевая модель решения задачи ранжирования на основе динамической нейронной сети Хопфилда с бинарной функцией выхода (БФВ).

Используемая для ранжирования дискретная сеть Хопфилда имеет следующие характеристики (рисунок 2):

1. Один слой элементов (входные элементы, представляющие входной образец, не учитываются).

2. Каждый элемент связывается со всеми другими элементами, но элемент не связывается с самим собой.

3. За один шаг обновляется только один элемент.

4. Элементы обновляются в случайном порядке, но в среднем каждый элемент должен обновляться в одной и той же мере (частоте).

5. Вывод элемента ограничен значениями 0 или 1, т.е функция выхода-бинарная.

Сеть Хопфилда является рекуррентной в том смысле, что для каждого входного образца выход сети повторно используется в качестве ввода до тех пор, пока не будет достигнуто устойчивое состояние. Значение активности элемента получается на основе использования некоторого правила активизации.

1ПХП

Рисунок 2 - Нейронная сеть Хопфилда с БФВ и=/[и,[,Т), где и — выходы нейрона,/-величины смещений, Г-коэффициенты синаптических связей

Каждой целочисленной переменной Ху поставим в соответствие выходной сигнал у-го нейрона щ, стоящего в /-й строке и столбце матрицы сети.

(х* = 1)о(и,; = 1)^ией. (3)

На рисунке 2.4 схематично представлена матрица сети в состоянии покоя, где в виде заштрихованных квадратов изображены нейроны с единичными выходными сигналами.

Совокупность возбужденных нейронов интерпретируется как план назначений. В соответствии с (3), интерпретируем ограничения (1) и целевую функцию (2), в результате получаем (4)-(7):

7=1

группы критериев

(4)

Рисунок 3 - План назначений - матрица нейронной сети Хопфилда в

состоянии покоя

= тах,

(7)

где м,( - значения выхода нейронной сети Хопфилда (рисунок 2.3);

- значения матрицы производительности (таблица 1) элементы которой представляют собой релевантность документа с номером у относительно критерия (группы критериев) с номером /.

Параметры нейронной сети реализующие выполнение условия (7), принимают вид:

где - символ Кронекера; А, В, Си/7- положительные константы; Ту^у- коэффициент связи между входом //-го нейрона и выходом/¿г-го; - смещение //'-го нейрона.

Метод с использованием нейросетевой модели позволяет ранжировать документы как в случае множества V - критериев значимости, так и в предельном случае У= 1.

Переформулируя задачу ранжирования и используя в качестве исходных данных множество чисел - значений релевантности документов, найденных в результате запроса ИПС: {г,}, ¡£N=1 ,...п, получаем необходимость расстановки числа в порядке возрастания, то есть поиска такой перестановки индексов } =я(/), что \//Е1,...(и-1) 2 В ходе исследований установлено, что построение нейросети для решения задачи сортировки полностью совпадает с построением сети дня решения задачи о назначениях. При этом параметры сетей для решения как первой, так и второй задачи будут определяться одними и теми же выражениями.

= -АЗ- В8,у +(А + В)8П15^ - С, /,ц, V е 1, п;

(В)

В частности, воспользовавшись параметрами сети для решения задачи о назначениях:

Т~~ ^ ^¡ц (5/V »

1л = -{А + В)-Ргм, (,у,//,ке1,л.

получены параметры сети для решения задачи сортировки в следующем виде:

Т¡пп - ~Лд ш — В5,у,

— (9)

/у = -(А + В)- Ро]Гь 4. На четвертом этапе реализации метода, нейронная сеть Хопфилда инициируется входным случайным вектором, "релаксирует" к своему энергетическому минимуму, а результаты на выходе каждого из нейронов интерпретируются как индекс, в соответствии с которым должны быть отранжированы документы в ИПС.

Входной вектор задает начальные состояния всех элементов -нейронов. Элемент для обновления выбирается случайным образом. Выбранный элемент получает взвешенные сигналы от всех остальных нейронов и изменяет свое состояние. Выбирается другой элемент, и процесс повторяется. Сеть с БФВ достигает предела, когда ни один из ее элементов, будучи выбранным для обновления, не меняет своего состояния.

В общем случае конечная точка покоя {/*, в которую сеть перейдет в процессе минимизации энергии, будет определяться ее начальным состоянием V и рельефом энергетической функции Е(и,Т,1), заданной на пространстве состояний М.

На рисунке 4 представлена общая блок-схема алгоритма нейросетевого ранжирования при векторном критерии релевантности.

Рисунок 4 - Блок-схема алгоритма нейросетевого ранжирования при векторном критерии релевантности

В третьей главе рассмотрены вопросы построения и организации работы и нейросетевого блока ранжирования на основе предложенных в работе моделей, метода и алгоритмов, а также приведена структура их конкретной программной реализация в виде объектно-ориентированного программного кода. Представлен алгоритм синтеза параметров нейросетевого блока ранжирования в ИПС. Разработан компонент ИПС -блок ранжирования, на выходе которого, собственно, формируется искомая последовательность представления ссылок на Интернет-страницы пользователю.

В общем виде, ИПС с нейросетевым блоком ранжирования, предназначенным для поиска и субоптимального представления найденных документов или Интернет-ссылок, состоит из трех подсистем (рисунок 5):

• подсистемы шаблонов документов;

• подсистемы представление требований пользователей - запросов;

• подсистемы алгоритмов, используемых для согласования запросов пользователя с шаблонами документов.

Информационная база документов подсистемы шаблонов состоит из множества документов, содержащих информацию по различным тематикам. Содержание документа автоматически преобразуется в шаблон документа. Шаблон документа сформирован таким образом, чтобы его соответствие с запросом осуществлялось с максимальным быстродействием без искажения смысловой составляющей документа. Также в состав информационной базы входят разделы, содержащие сведения о факторах, служащих основой для оценки релевантности каждого документа.

у

Пользователь

_У_______

Подсистема шаблонов документов

Информационная база

Рисунок 5 - Структурная схема информационно-поисковой системы с блоком нейросетевого ранжирования

Подсистема запросов преобразовывает естественно-языковое предложение пользователя в набор семантических структур, который правильно представляет "смысл" информационного требования пользователя и является комплементарным для процесса поиска. Форматирование запроса зависит от основной модели поиска (Булевы модели, модели векторного пространства, вероятностные модели, модели нечеткого поиска, модели, базируемые на методах искусственного интеллекта и пр.).

Подсистема алгоритмов реализует семантические процессы индексирования и поиска, на конечном этапе последнего реализуется нейросетевое ранжирование.

Подсистема запросов

Интерфейо (лингвистический процессор)

Подсистема алгоритмов

Блок нейроовтевого ранжирования

Поиск

В качестве исходных данных для данного блока выступают массив не отсортированных ссылок, найденных HTTP -роботом и структура данных по факторам, на основе которых формируются критерии ранжирования. Представленная структура кода позволяет детальнее рассмотреть практические аспекты реализации и использования предложенных в работе результатов.

Структурная схема блока нейросетевого ранжирования представлена на рисунке 6.

Рисунок 6 - Структурная схема блока нейросетевого ранжирования

Основным функциональным модулем блока нейросетевого ранжирования является модуль реализующий программно (или аппаратно) алгоритм динамики НС Хопфилда с БФВ. Библиотека классов, необходимая для реализации программно-алгоритмического обеспечения нейросетевого блока составлена и используется в составе одного базового и шести производных (рабочих) классов (рисунок 7).

В четвёртой главе приведены результаты экспериментальных исследований разработанных алгоритмов. Описаны условия проведения экспериментов и особенности применения алгоритмов нейросетевого ранжирования для задач Интернет - поиска большой размерности. В ходе экспериментов взяты условия использования открытых библиотек прототипа поисковой системы РАПЧО на платформе операционной

Рисунок 7 - Иерархия классов библиотеки блока нейросетевого ранжирования

системы Win32 в составе программного комплекса "Solarix Intellectronix", представляющего собой встраиваемую в прикладные программы библиотеку (набор С++ классов). Для оценивания эффективности нейросетевого решения оптимизационных задач ранжирования введен комплексный показатель, характеризующий результативность процесса нейросетевого решения:

ф = (Ф^,ФГ,ФЛ), (10)

где <S>W - характеризует результативность процесса нейросетевого решения, Фг - оперативность получения искомого решения, ФЛ -ресурсоемкость или структурную сложность реализации нейроподобной сети в блоке ранжирования ИПС.

Зависимости достоверности Интернет -ранжирования от числа ссылок в текстовом буфере и эффективности решения задачи при

различном количестве ранжируемых ссылок от 20 до 200 показали, что для эффективного решения задачи необходимо обеспечить заданное число нейронов в модели, при котором не превышена верхняя граница локальных минимумов энергетической поверхности сети.

В заключении подведены итоги проделанной работы и сформулированы ее основные результаты.

В приложениях приводятся: листинг программы разработанных алгоритмов, акт внедрения результатов диссертации, копия свидетельства о государственной регистрации программы для ЭВМ.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

В работе рассмотрены теоретические и практические вопросы решения задач ранжирования найденных ссылок в ИПС. Разработаны: модель оптимального ранжирования документов в ИПС при скалярной оценке релевантности на основе динамической сети Хопфилда с бинарной функцией выхода и алгоритм решения задач ранжирования документов в ИПС на основе решений задач комбинаторной оптимизации в нейросетевом базисе. Также, в диссертации, для оценивания эффективности нейросетевого решения оптимизационных задач ранжирования синтезирован комплексный показатель, характеризующий результативность процесса нейросетевого решения через оперативность получения искомого решения и ресурсоемкость или структурную сложность реализации нейроподобной сети в блоке ранжирования ИПС.

В результате проведенной работы получены следующие результаты:

1. Проведен анализ существующих информационно-поисковых систем и проблем интеллектуального поиска текстовой информации, связанных с необходимостью решения дискретных задач оптимизации.

Анализ показал, что на сегодняшний день нейронная сеть не применяется в информационно-поисковых систем для решения задач оптимального представления найденных документов.

2. Выполнен анализ нейросетевых моделей оптимизации информационно-поисковых процедур, применимых в алгоритмах информационно-поисковых систем. Так выбор метода к решению оптимизационной задачи при функционировании ИПС определяется исходным множеством альтернатив. При небольшом числе ранжируемых документов эффективно использование точных методов, в противном случае - эвристических методов решения конкретной оптимизационной задачи, где преимуществами обладают нейронные сети. Решение оптимизационных задач с помощью нейронных сетей основано на свойстве последних минимизировать энергетическую функцию и устойчивости состояний, соответствующих некоторым локальным минимумам энергии сети.

3. Впервые разработан метод ранжирования документов в ИПС на основе нейросетевого решения комбинаторных задач о назначениях и сортировки. Решение данных задач с помощью неронных сетей обусловлено необходимостью решения целочисленной задачи оптимизации большой размерности ~ 103-т-105 найденных документов.

4. Создана архитектура нейросетевой модели ранжирования документов на основе динамической сети Хопфилда с бинарной функцией выхода. Построено несколько вариантов нейросетевых моделей с БФВ нейронов для синтеза оптимального плана оценивания по комбинаторному множеству критериев путем решения задачи о назначениях. Модели отличаются правилами определения коэффициентов синаптических связей и внешних смещений, даны практические рекомендации по их выбору.

5. Разработан алгоритм функционирования нейросетевого блока ранжирования при различных оценках критерия значимости. В ходе аналитических исследований установлено, что оптимизационная постановка задачи сортировки показателей релевантности документов тождественна постановке задачи о назначениях комбинаторных групп критериев оценивания при условии, что элементы матрицы производительностей последней определяются как линейные комбинации значений релевантности. Применение разработанного алгоритма показало его эффективность, по сравнению с ранее известными, более чем в 2 раза.

6. Разработана структура новой информационно-поисковой системы с блоком нейросетевого ранжирования. Ранее не существовало информационно-поисковых систем, в которых блок ранжирования строился бы на сонове нейронной сети.

7. Выведен алгоритм синтеза параметров нейросетевого блока ранжирования в ИПС. Показано как используя другие выражения для определения параметров сети, решающей задачу о назначениях, можно получить семейство нейросетей для решения задачи сортировки данных.

8. Представлены показатели эффективности использованных алгоритмов нейросетевого ранжирования в ИПС. Так для ранжирования применение разработанных алгоритмов в 8-10 раз эффективнее, чем ранее известные. Результаты экспертной оценки применения скалярного и векторного нейросетевого ранжирования по сравнению с ранжированием значимостей выбором наибольшего элемента, эффективнее более чем в 2 раза. Также получены сравнительные оценки производительности нейросетевого блока ранжирования при различных организациях распараллеливания операций в его аппаратно-программной реализации. Результаты иллюстрируют выигрыш во времени ранжирования при

увеличении числа ранжируемых Интернет - ссылок и степени распараллеливания нейросетевого блока ИПС.

9. Осуществлена программная реализация разработанных моделей и алгоритмов ранжирования как компоненты ИПС FAIND, в составе элемента программного комплекса "Solarix Intellectronix". Блок ранжирования на основе нейронной сети Хопфилда с бинарной функцией выхода уникален, что подтверждается свидетельством о регистрации программного продукта для ЭВМ.

Разработанные модели и алгоритмы позволяют значительно повысить оперативность и достоверность информационно-поисковых процедур. Их реализация применительно к решению задач Интернет-поиска ссылок и документов большой размерности позволяет значительно повысить качество и эффективность функционирования ИПС.

Программное обеспечение, разработанное в рамках диссертационной работы, нашло свое применение в ряде инженерных проектов, ориентированных на решение задач информационно-справочного обеспечения.

Основные положения диссертации опубликованы в следующих работах:

1. Занин Д.Е. Архитектура информационно-поисковой системы. Современное состояние и приоритеты развития фундаментальных наук в регионах: Труды III Всероссийской научной конференции молодых ученых и студентов, Краснодар: Просвещение-Юг, 2006. - С. 184- 845.

2. Занин Д.Е. Основные парадигмы в области исследования интеллектуальных поисковых систем. Современное состояние и приоритеты развития фундаментальных наук в регионах: Труды III Всероссийской научной конференции молодых ученых и студентов, Краснодар: Просвещение-Юг, 2006. - С. 185-846.

3. Занин Д.Е. Эффективное ранжирование результатов поиска информации. Инновационные процессы в высшей школе//Материалы XIV всероссийской научно-практической конференции.- Краснодар: Изд. ГОУ ВПО КубГТУ, 2008. - С.221.

4. Занин Д.Е. Нейросетевые технологии. Инновационные процессы в высшей школе//Материалы XIV всероссийской научно-практической конференции.- Краснодар: Изд. ГОУ ВПО КубГТУ, 2008. - С. 222.

5. Занин Д.Е. Информационно-поисковые системы. Инновационные процессы в высшей школе//Материалы XIV всероссийской научно-практической конференции,- Краснодар: Изд. ГОУ ВПО КубГТУ, 2008. -С. 223.

6. Занин Д.Е. Синтез параметров нейронной сети Хопфилда для решения задачи ранжирования в информационно-поисковых системах / Д.Е. Занин // Научный журнал КубГАУ [Электронный ресурс]. -Краснодар: КубГАУ, 2008. - №09(43). - Шифр Информрегистра: 0420800012\0127. - Режим доступа: http://ej.kubagro.ru/2008/09/pdf/06.pdf

7. Занин Д.Е. Комбинаторный подход к оптимальному представлению текстовых документов информационно-поисковых систем / Д.Е. Занин // Научный журнал КубГАУ [Электронный ресурс]. -Краснодар: КубГАУ, 2008. - №09(43). - Шифр Информрегистра: 0420800012X0128. - Режим доступа: http://ej.kubagro.ru/2008/09/pdf/05.pdf

8. Занин Д.Е., . Частиков А.П. Эффективность решения задач ранжировки в информационно-поисковых системах на основе динамических нейронных сетей Хопфилда. Известия высшых учебных заведений. Северо-Кавказский регион. Технические науки. - 2008. -№6. -С. 62- 65.

9. Свидетельство о государственной регистрации программы для ЭВМ № 2009612082. Блок нейросетевого ранжирования информационно-поисковой системы/ Занин Д.Е., Частиков А.П. Дата поступления: 10.04.09г. Зарегистрировано в Реестре программ для ЭВМ: 24.04.09г.

Занин Д.Е. предложил способ решения задачи ранжировки в информационно-поисковых системах на основе нейронных сетей Хопфилда.

Подписано в печать 20.10.2009. Печать трафаретная. Формат 60x84 1/16. Усл. печ. л. 1,36. Тираж 100 экз. Заказ № 218. Отпечатано в ООО «Издательский Дом-Юг» 350072, г. Краснодар, ул. Московская 2, корп. «В», оф. В-120, тел. 8-918-41-50-571

Оглавление автор диссертации — кандидата технических наук Занин, Дмитрий Евгеньевич

ВВЕДЕНИЕ

1 АКТУАЛЬНОСТЬ РАЗРАБОТКИ ЭФФЕКТИВНЫХ

ПРОЦЕДУР РАНЖИРОВАНИЯ В ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМАХ

1.1 Анализ проблем интеллектуального поиска текстовой информации

1.1.1 Особенности информационно-поисковых систем и методов поиска информации

1.1.2 Место и роль ранжирования в процедурах поиска

1.2 Обзор методов решения дискретных задач оптимизации информационно-поисковых процедур

1.2.1 Цели и задачи дискретных оптимизационных задач и их вычислительная сложность

1.2.2 Точные методы

1.2.3 Эвристические алгоритмы

1.3 Анализ нейросетевых моделей оптимизации информационнопоисковых процедур

1.3.1 Обзор технологии в применении к оптимизационным задачам

1.3.2 Показатели эффективности решения оптимизационных задач на основе нейросетей

1.4 Выводы

2 РАЗРАБОТКА МЕТОДА РАНЖИРОВАНИЯ В ИПС НА

ОСНОВЕ ДИНАМИЧЕСКОЙ НЕЙРОННОЙ СЕТИ С БИНАРНОЙ ФУНКЦИЕЙ ВЫХОДА

2.1 Метод ранжирования документов в ИПС на основе нейросетевого решения комбинаторных задач

2.1.1. Общая последовательность метода

2.1.2. Представление метода ранжирования нейросетевым решением комбинаторной задачи о назначениях и сортировки

2.2 Нейросетевая модель ранжирования документов на основе динамической сети Хопфилда с бинарной функцией выхода

2.2.1 Синтез архитектуры и параметров нейронной сети Хопфилда с бинарной функцией выхода

2.2.2 Использование модели через релаксацию энергетической функции сети Хопфилда

2.3 Особенности алгоритма ранжирования на основе синтезированной модели

2.3.1 Детерминированный подход в использовании синтезированной модели

2.3.2 Алгоритм идентификации отключаемых нейронов при последовательном прохождении дерева решений задачи ранжирования

2.4 Алгоритм нейросетевого ранжирования

2.5 Выводы

3 АРХИТЕКТУРА, АЛГОРИТМЫ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ПРОЦЕДУР РАНЖИРОВАНИЯ В ИПС

3.1 Организация ранжирования и архитектура ИПС

3.1.1 Факторы ранжирования как исходные критерии оценки релевантности документов при Интернет - поиске

3.1.2 Алгоритм синтеза параметров нейросетевого блока ранжирования в ИПС

3.2 Структурная схема ИПС с блоком нейросетевого ранжирования

3.2.1 Общая структурная схема ИПС

3.2.2 Структурная схема блока нейросетевого ранжирования

3.3 Архитектура и программная реализация ИПС для Интернет поиска

3.3.1 Архитектура программных средств нейросетевого блока ранжирования

3.3.2 Алгоритмы ранжирования на основе сортировок

3.4 Выводы

4 ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ХАРАКТЕРИСТИК НЕЙРОСЕТЕВОГО БЛОКА РАНЖИРОВАНИЯ

4.1 Условия экспериментов и особенности применения алгоритмов

4.1.1 Особенности организации нейросетевого ранжирования для задач Интернет - поиска большой размерности

4.1.2 Показатели эффективности использованных алгоритмов нейросетевого ранжирования в ИПС

4.2 Результаты экспериментальных исследований разработанных моделей и алгоритмов ранжирования

4.2.1 Оценка качества ранжирования

4.2.2 Оценка параметров НС блока ранжирования при Интернет -поиске

4.2.3 Экспертное определение эффективности разработанного алгоритма

4.3 Сравнительная оценка производительности нейросетевого блока ранжирования ИПС Интернет-поиска

4.3.1 Исследование последовательной динамики нейросетевого блока при ранжировании Интернет-ссылок

4.3.2 Исследование параллельной динамики нейросетевого блока при ранжировании Интернет-ссылок

4.4 Выводы 137 ЗАКЛЮЧЕНИЕ 139 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Занин, Дмитрий Евгеньевич

Актуальность проблемы. В процессе развития Интернета и роста объемов данных локальных вычислительных сетей вероятность существования нужной информации растет, а возможность ее нахождения уменьшается. Надлежащий поиск необходимой информации становится общей проблемой. Требуются новые методы и инструментальные средства, решающие проблемы релевантного поиска в чрезвычайно больших объемах информации [28,52,53].

Целью разработчиков информационно-поисковых систем (ИПС) является предоставление пользователю документов, в максимальной степени соответствующие смыслу запроса (обеспечить релевантность — точность поиска), при этом, вернуть как можно большее число документов, содержащих запрашиваемую информацию (обеспечить полноту поиска).

Развитие поисковых систем невозможно без их интеллектуализации, включающей применение семантико-синтаксического анализа текстов, естественно-языковых средств, интеллектуальных алгоритмов определения значимости и информационных ресурсов для пользователя, получения дополнительной информации о документах путем анализа структуры гипертекста и предпочтений пользователей, и многих других средств [40].

В поисковых программах запрос формируется в виде ключевого слова или комбинации ключевых слов, связанных логическими операциями [22,11,1]. Для поиска одной и той же текстовой информации используются разные ключевые слова, выбор которых субъективен. Но даже в случае, когда ключевые слова определены, а запрос состоит только из одного слова, результат поиска может отличаться при использовании различных поисковых программ. Это обусловлено разными процедурами индексации текста документов в разных поисковых программах, а также, в силу того, что результат поиска может представляться в виде очень большого списка найденных документов.

Число найденных документов в списке при поиске по ключевому слову можно уменьшить, если продолжить поиск, но уже среди этих найденных документов (ряд поисковых программ предоставляют такую возможность), используя в качестве запроса другое ключевое слово. Увеличение количества ключевых слов и продолжение процедуры поиска в найденных документах, позволяет уменьшить число найденных документов до разумного значения, при котором просмотр текста документов на интересующую тему оказывается уже реальным. Однако, правильный выбор достаточного количества ключевых слов, а еще лучше словосочетаний, представляет определенную сложность, особенно при работе с незнакомым материалом [22].

Все это обусловливает низкую адекватность найденной по запросу пользователя информации, то есть возврат системой большого объема малоинформативных документов. Проблема может усугубляться^ низкой скоростью получения документов из Интернета, необходимостью просмотра пользователем всех найденных документов и оценки их информационного содержания в неавтоматизированном режиме.

Альтернативой вторичным процедурам поиска может служить разработка быстрых алгоритмов выбора и сортировки возвращенных документов в соответствии с функциями значимости информационных ресурсов и релевантности документа запросу. Задача оптимального представления ограниченного набора документов из некоторого множества найденных с целью максимизации суммарной релевантности запросу, в данной работе представлена задачей комбинаторной оптимизации. Формирование итогового списка найденных документов обеспечивается рекуррентной процедурой применения разработанных комбинаторных алгоритмов.