автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Модели и алгоритмы эффективной обработки и поиска информации в иерархических базах знаний с динамически управляемой структурой

кандидата технических наук
Со Тант
город
Москва
год
2008
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и алгоритмы эффективной обработки и поиска информации в иерархических базах знаний с динамически управляемой структурой»

Автореферат диссертации по теме "Модели и алгоритмы эффективной обработки и поиска информации в иерархических базах знаний с динамически управляемой структурой"

На правах рукописи

□ □34=3

г-

Со Таит

МОДЕЛИ И АЛГОРИТМЫ ЭФФЕКТИВНОЙ ОБРАБОТКИ И ПОИСКА ИНФОРМАЦИИ В ИЕРАРХИЧЕСКИХ БАЗАХ ЗНАНИЙ С ДИНАМИЧЕСКИ УПРАВЛЯЕМОЙ СТРУКТУРОЙ

05.13.01 - Системный анализ, управление и обработка информации (в приборостроении)

Автореферат

диссертации на соискание учёной степени кандидата технических наук

Москва-2008 г.

О 6

003451625

Работа выполнена на кафедре информатики и программного обеспечения вычислительных систем Московского государственного института электронной техники (Технический университет)

Научный руководитель:

Официальные оппоненты:

доктор технических наук Портнов Е.М.

доктор технических наук Щагин A.B.

кандидат технических наук Дударев Д.А.

Ведущая организация: ГУП НПЦ «ЭЛВИС», г. Москва

Защита состоится "_"_2008 г.

в_часов на заседании диссертационного совета Д.212.134.02 при

Московском государственном институте электронной техники (техническом университете) по адресу: 124498, Москва, Зеленоград, проезд 4806, д.5, МИЭТ.

С диссертацией можно ознакомиться в библиотеке МИЭТ

Автореферат разослан "_"_2008 г.

Ученый секретарь

диссертационного совета Д.212.134.02 доктор технических наук, доцент

A.B. Гуреев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Постоянное развитие и совершенствование информационных технологий оказывает существенное влияние на все научные и технологические направления, связанные с использованием вычислительной техники, сложных информационных систем и приборов. Эволюция информационных технологий и систем все в большей степени определяется их интеллектуализацией, которая обеспечивает, во-первых, расширение круга задач, решаемых с помощью компьютеров, особенно в слабоструктурированных предметных областях, и во-вторых, повышает уровень интеллектуальной информационной поддержки современного специалиста. Одним из важных направлением в области современных интеллектуальных информационных технологий является проблема наполнения, структурирования, обработки и поиска информации в различных информационных хранилищах и прежде всего базах знаний.

В настоящее время существует и активно развивается целая отрасль интеллектуальных информационных систем, предназначенных для поиска, обработки и управления знаниями: в частности системы распознавания образов (ОСЯ-системы), экспертные системы, системы автоматического реферирования и аннотирования, системы обработки естественноязыковых текстов (ЫЬР-системы); система интеллектуального анализа данных, нейронные семиотические системы и т.д.

Теоретическим исследованиям и разработке фундаментальных основ интеллектуальных информационных систем, созданию математического аппарата, моделей и методов обработки и управления знаниями посвящены труды видных российских и зарубежных ученых Н. Винера, М. Минского, Л. Заде, Д. Маккарти, Ж.-Л. Лорьера, Р. Шенка, Д. Кнута, Н.Дж. Нильсона, Г. Сэлтона, Д.А. Поспелова, А.П. Ершова и многих других.

Интеллектуальные базы знаний в настоящее время широко используются при проведении научных исследований, проектировании и разработке информационно-управляющих систем и приборов, в процессах дистанционного обучения специалистов и многих других сферах научной и практической деятельности. Одной из основных тенденций в развитии и совершенствовании технологий представления и обработки информации в БЗ является обеспечение возможности для пользователя получения максимально полной, актуальной и достоверной информации о заданной предметной области. Указанные тенденции делают необхо-

димым с одной стороны - представление современных баз знаний в виде иерархических многомодульных, динамически реконфигурируемых структур, ориентированных на информационные потребности различных групп пользователей, а с другой стороны - создание эффективных систем и механизмов поиска и обработки информации, представленной в базах знаний.

Современные информационно-поисковые системы обладают рядом недостатков, в частности: низкая интеллектуальность поиска документов в БЗ и неэффективное индексирование информации, не учитывающее конкретную предметную область; упрощенность процедуры вычисления степени релевантности документа; отсутствие средств полноценного расширения запроса пользователя и удобного уточнения результатов запроса.

Таким образом, актуальными являются диссертационные исследования, направленные на разработку моделей и алгоритмов эффективного поиска и обработки информации в иерархических базах знаний с динамической управляемой структурой.

Целью диссертационного исследования является разработка моделей и алгоритмов эффективного поиска и обработки информации в иерархических базах знаний с динамической управляемой структурой, обеспечивающих повышенную точность и полноту находимой релевантной информации без заметного снижения быстродействия поиска. Указанная цель достигается разработкой моделей и алгоритмов обработки и поиска информации в БЗ; созданием модели иерархической базы знаний с динамически управляемой структурой; имитационным моделированием и программной реализацией предложенных моделей и алгоритмов.

В соответствии с указанной целью в работе решаются следующие задачи.

1. Исследование современных моделей обработки и поиска информации в базах знаний, анализ функциональных возможностей информационно-поисковых систем.

2. Разработка моделей предварительной обработки и анализа текста документа в структурированных базах знаний.

3. Формализация задачи поиска информации в полнотекстовых БЗ

4. Разработка моделей и алгоритмов полнотекстового запроса и поискового образа документов (ПОД).

5. Имитационное моделирование, программная реализация и экспериментальное исследование эффективности предложенных

моделей и алгоритмов. 6. Создание модели иерархической базы знаний с динамически

управляемой структурой. Методы исследования. В диссертационной работе использованы методы системного анализа, теории информационных систем, элементы теории принятия решений, элементы теории вероятности, математический аппарат предикатной алгебры, методы математического и имитационного моделирования.

Научная новизна работы состоит в создании новых моделей и алгоритмов, обеспечивающих повышенную точность и полноту находимой релевантной информации без заметного снижения быстродействия поиска в иерархических базах знаний с динамически управляемой структурой. При этом получены следующие научные результаты.

1. Предложены модели предварительной обработки и автоматизированного анализа информации в БЗ, обеспечивающие сужение рамок предметной области и позволяющие более эффективно структурировать и извлекать информацию из иерархических баз знаний.

2. Предложена и обоснована формализация задачи поиска информации в структурированных БЗ, основанная на сравнении поискового образа полнотекстового документа и расширенного запроса пользователя.

3. На основе теории фреймов и семантических сетей созданы и исследованы математические модели полнотекстового запроса и ПОД, обеспечивающие более высокую информативность поискового запроса пользователя по сравнению с традиционными моделями поиска информации.

4. Алгоритмически реализовано построение расширенного запроса, фактически заключающееся в последовательном просмотре термов запроса с последующим поиском и уточнением тематически близких понятий для каждого из них.

5. Разработана графовая модель многомодульной иерархической базы знаний с динамически конфигурируемой структурой и предложена схема алгоритма процесса обучения, основанного на иерархическом ранжировании модулей БЗ и вероятностном характере обращения к ним, адаптированного под индивидуальные способности обучаемого.

6. Создана и верифицирована имитационная модель поиска информации в структурированных иерархических базах знаний на основе разработанных моделей и алгоритмов. В ходе экспериментального исследования показаны преимущества их использования для многомодульных баз знаний.

Практическая значимость работы заключается в новых возможностях создания эффективных методов и средств обработки и поиска информации в иерархических базах знаний с динамически обновляемой информацией, адаптированных к запросу пользователей и обеспечивающих высокую полноту и точность выдаваемой релевантной информации. Гибкость предложенных решений делает возможным их применение в компьютерных системах обучения, в системах поддержки принятия решений, интеллектуальных информационно-аналитических системах, диагностических экспертных системах и многих других.

Представленные в работе модели и алгоритмы расширенного поиска информации повышенной релевантности направлены на решение практических задач поиска информации в массивах электронных хранилищ и баз знаний. Результаты имитационного моделирования подтверждают повышение эффективности поиска информации на основе предложенных моделей и алгоритмов по сравнению с традиционными.

Разработанная система обучения в предметной области рассчитана на 120 человек, работающих одновременно, и обеспечивает гибкость процесса обучения с возможностью ранжирования информации в зависимости от уровня обучаемого. Результаты экспериментальных исследований показали, что смоделированная на основе предложенных в работе моделей и алгоритмов информационно-поисковая система обеспечивает повышение коэффициента полноты поиска в среднем на 2,5 %, коэффициента точности на 7,5% при снижении быстродействия на 1 % .

Достоверность определяется корректным применением строго математического аппарата и подтверждается результатами имитационного моделирования, доказавшими преимущества предложенных в работе моделей и алгоритмов обработки и полнотекстового поиска информации в иерархических БЗ, выразившиеся в повышении точности и полноты находимых релевантных документов.

Личный вклад автора. Все основные результаты получены автором лично. Главными из них являются:

- проведение аналитического обзора функциональных возможностей современных информационно-поисковых систем, моделей представления, обработки и поиска знаний;

- разработка модели предварительной обработки документов, основанной на вычислении оценок тематического подобия;

- создание модели автоматизированного анализа текста документа в структурированных базах знаний, основанной на коррелированности различных понятий в тексте;

- формализация задачи поиска информации в структурированных БЗ, основанная на сравнении поискового образа полнотекстового документа и расширенного запроса пользователя;

- разработка фреймовой модели шаблона полнотекстового документа, использование которой позволяет строить поисковые образы документов, не зависящие от форматов документов;

- создание модели поискового образа документа, представленной в виде неориентированного нечеткого графа второго рода;

- разработка и программная реализация алгоритмов построения расширенного поискового запроса и поиска информации в иерархических БЗ;

- имитационное моделирование и экспериментальное исследование эффективности предложенных моделей и алгоритмов;

- разработка графовой модели иерархической базы знаний с динамически конфигурируемой структурой и алгоритма процесса обучения, основанного на ней;

- внедрение результатов диссертационной работы в учебный процесс кафедры МИЭТ.

Внедрение результатов работы. Все работы по реализации и внедрению проводились при непосредственном участии автора. Результаты диссертационной работы используются в учебном процессе кафедры ИПОВС Московского государственного института электронной техники в лекционных и практических занятиях по дисциплинам "Операционные системы, среды и оболочки", "Компьютерные технологии в науке и образовании".

В результате проведенных исследований получены и выносятся на защиту следующие основные научные результаты:

- аналитический обзор функциональных возможностей современных информационно-поисковых систем, моделей представления, обработки и поиска знаний;

- модель предварительной обработки и автоматизированного анализа текста документа в структурированных базах знаний;

- формализация задачи поиска информации в структурированных БЗ;

- фреймовая модель шаблона полнотекстового документа;

- графовая модель поискового образа документа;

- алгоритм построения расширенного поискового запроса и поиска информации в иерархических БЗ;

- результаты имитационного моделирования и экспериментального исследования эффективности предложенных моделей и алгоритмов;

- графовая модель иерархической базы знаний с динамически конфигурируемой структурой и алгоритм процесса обучения, основанный на ней;

- результаты внедрения и апробации материалов диссертационной работы.

Апробация работы. Основные положения и результаты диссертационной работы были доложены на Всероссийских межвузовских научно-технических конференциях "Микроэлектроника и информатика" (Москва, Зеленоград, МИЭТ, 2005- 2008 г.г.), Научной сессии МИФИ (Москва, МИФИ, 2007-2008 г.г.) Всероссийской межвузовской научно-практической конференции "Актуальные проблемы информатизации. Развитие информационной инфраструктуры, технологий и систем" (Москва, Зеленоград, МИЭТ, 2007 г.).

Публикации. Основное содержание диссертации отражено в 13 опубликованных работах, в том числе 2 статьи в ведущих научных журналах входящих в перечень, утвержденный ВАК. Без соавторов опубликовано 7 работ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений. Работа содержит 148 страниц основного текста, включая 33 рисунка, 5 таблиц, а также список литературы из 109 наименований и 3 приложения.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертации, формулируются общие проблемы, цели и задачи исследования, рассматривается структура диссертации и взаимосвязь отдельных глав.

В первой главе представлен анализ моделей и систем поиска и обработки информации в базах знаний.

В настоящее время одной из определяющих задач, связанных с реализацией современных интеллектуальных систем, является функция представления и обработки знаний о некоторой предметной области. Проведенный анализ моделей представления и обработки знаний показал, что все они не отвечают в полной мере современным требованиям: универсальность, открытость и возможность динамического реконфи-гурирования структуры БЗ; возможность отражения структурных отношений объектов; использование многоуровневых иерархических представлений.

Определены основные критерии эффективности информационного поиска в БЗ, выраженные коэффициентами полноты (К„), точности (Кт) и шума (Кш):

A,-lim Lj (1)

m к i= 1 \G , |

V _ 1 * G / П G Л n\

K»'- lim —У !—i——]—I- ■ (2)

Г - 1 * P / ^ G M ni

lim —X J—i-r"1 ' ( )

к m к , = 1

где G( - априорное количество документов, релевантных z'-му запросу; п О

иj -полученное в результате поиска количество релевантных документов; т- достаточно большое число, обеспечивающее требуемую достоверность результата эксперимента по определению.

Обеспечение высокой точности и полноты поискового процесса не являются единственным критерием эффективности информационно-поисковых систем. Не менее важным является и показатель быстродействия, то есть среднее время поиска одной структурной единицы, например, документа в БЗ. Эта проблема особенно актуальна для многомодульных иерархических баз знаний, содержащих значительное количество документов.

Проведенный анализ показал, что современные информационно-поисковые системы недостаточно эффективны с точки зрения приведенных критериев. Их главными недостатками являются: низкая интеллектуальность поиска документов в БЗ; отсутствие средств полноценного расширения запроса пользователя; недостаточные полнота и точность нахождения релевантных документов.

Сформулированы цели и задачи диссертационного исследования, главными из которых являются: разработка моделей и алгоритмов обработки и поиска информации в БЗ; создание модели иерархической базы знаний с динамически управляемой структурой; имитационное моделирование и программная реализация предложенных моделей и алгоритмов.

Во второй главе разработаны модели обработки и расширенного поиска информации в иерархических базах знаний.

Удобство работы и извлечения информации из БЗ во многом определяется эффективностью структурирования в соответствии с тематическим содержанием документов. Предложена модель предварительной

обработки документов, включающая следующие этапы.

Для каждого документа определяется некоторое множество документов, представляющее его аппроксимированное тематическое окружение. Построенные тематические окружения анализируются с целью формирования множеств ключевых слов, характеризующих тематику исходного документа относительно остальных документов БЗ. Для формирования множества ключевых слов документа с1р используется следующий подход. Для каждого терма / документа с1р вычисляется вероятность появления этого терма в случайно выбранном документе из тематического окружения {с!р). В множество ключевых слов включаются те термы из документа с1р , для которых эта вероятность значительно превосходит вероятность появления данного терма в документе, случайно выбранном из всей коллекции Д т. е. таких I е с1р, что

\d-.dBTid \d■.deD>ted\

—-г--1»i-Г"Т-- ■ (4)

Построенное множество ключевых слов К (Уу, характеризующих тематику документа ¿р относительно рассматриваемой коллекции, используется для вычисления относительной оценки степени тематической близости (5т(с1р,с1) между dp и другими документами d . Пусть

Кя (У) обозначает множество ключевых слов документа d, которые встречаются в его параграфе Пусть множество

Е^^^^-.^^еК^леаУ)) (5)

обозначает множество всех пар ключевых слов документа d, которые хотя бы раз совместно встречаются в одном параграфе документа й, а

(6)

есть сужение на множество пар ключевых слов документа d'.

Тогда оценка тематической близости определяется как

/¿7/я(£/р,£/) =

(7)

Предложенная модель позволяет более эффективно структурировать и извлекать информацию из иерархических баз знаний.

Традиционно в задачах анализа и полнотекстового поиска используются упрощенные векторные модели, представляющие описание

предметной области в виде набора составляющих слов и не всегда обеспечивают необходимое качество поиска информации в базе знаний. В работе предложена модель автоматизированного анализа текста документа, учитывающая коррелированность появления слов в тексте, обусловленной наличием между ними семантических связей. Полагаем понятие основной смысловой единицей предметной области. Обозначим набор понятий как одномерную матрицу 2 = (ч*) размера И, где q¡ = 1, если /'-ое понятие семантической сети присутствует в наборе, и 0 - в противном случае. Представим предложение как набор входящих в него понятий <2 (1) = (Ц](1)), где /=/..М - порядковый номер предложения. В качестве критерия связности понятий используем факт их появления в одном предложении текста. Искомая оценка определяется как:

, N

- • (8)

ы

В знаменателе (8) расположена частота встречаемости понятия в тексте (исключая повторы в одном предложении), а в числителе - частота совместной встречаемости понятий в предложениях текста, нормированная с учетом количества понятий по каждому из предложений.

Применение предложенной модели значительно сужает рамки предметной области, что позволяет исключить «мнимые» понятия, ошибочно отнесенные к искомой области.

Формально, описание любой модели информационного поиска можно представить в виде кортежа:

мш = /ДА ^ (9)

где В- множество используемых типов представлений документов; ()-множество используемых типов описаний запросов пользователя; Га -моделирование описаний документов, т.е. составление поисковых образов индексов (индексирование) документов;^ - моделирование описаний запросов пользователя; - функция ранжирования (критерий релевантности), которая паре документ/запрос сопоставляет некоторое вещественное число.

Таким образом формализация задачи поиска информации в БЗ сводится к моделированию поискового образа документа и запроса пользователя, а также оценке степени релевантности поискового образа запро-

су пользователя.

Необходимость разработки универсальной модели шаблона полнотекстового документа и реализации на его основе алгоритма построения поискового образа документа объясняется разнообразием форматов документов в БЗ и чрезмерной усложненностью существующих моделей.

Построение модели основано на представлении любого структурного элемента текста в виде списка термов, что позволяет представить текст документа в виде сети взаимосвязанных фреймов.

Словарь термов полнотекстового документа определим как:

Дели = {< idti > termi.w,. Nc4>i >}>' = Nterms > (1 °)

где Nterms - общее число термов предметной области; idti ~ уникальный идентификатор терма; terrrij - текстовое выражение терма; w, - частота использования данного терма в предметной области (вес терма); Nctpi - количество словоформ, соответствующих данному терму. Словарь словоформ определим следующим образом: Осф = {< idSj, formj,itermi >},i = \,Nforms, (11)

где Nforms - общее число словоформ предметной области; - уникальный идентификатор словоформы; formj - текстовое выражение словоформы; itermtj - соответствующий словоформе терм из списка термов предметной области.

Разработанная фреймовая модель шаблона полнотекстового документа описывается кортежем:

Ршаб. = {Id,lF,textf,Fnex„Fvp,Attr}, (12)

где ld - уникальный идентификатор фрейма; 1р - вертикальный уровень фрейма; textf- текстовое содержимое фрейма (список термов); F„ex, - указатель на фрейм того же уровня или пустой указатель; Fu„ - указатель на фрейм более низкого уровня или пустой указатель; Attr — указатель на дополнительные атрибуты или 0 в случае их отсутствия.

Горизонтальные связи соединяют элементы на одном уровне в иерархии документа. Это, как правило, фреймы одного и того же типа. Вертикальные связи соединяют фрейм корень и его узловые вершины (у текста это разделы, у абзаца - предложения) и обычно соединяются фреймы разных типов. Такое определение позволяет описать все необходимые фреймы в виде регулярной структуры, удобной для представления в памяти ЭВМ.

Использование предложенной модели позволяет ввести дополнительный уровень абстракции, между документом и его поисковым обра-

зом и реализовать на ее основе универсальный алгоритм построения поисковых образов документов различных форматов.

Разработка модели ПОД основана на применении аппарата семантических сетей, позволяющего эффективно описывать семантику документов. Поисковый образ документа представляется в виде неориентированного нечеткого графа второго рода :

йпод ={Сверш,Сребр), (13)

где С верш - нечеткое множество вершин; С ре(,р - нечеткое множество ребер, соответствующих отношению «ассоциативной связности» термов документа. Элементы множества \Jeepui соответствуют термам, содержащимся в документе. Функция (х) принадлежности определяет

степень принадлежности терма документу (его вес при описании документа списком термов).

Функция принадлежности ^ (*, у) е [0; 1] определяет степень

связанности термов х и у в пределах документа и зависит от частоты совместной встречаемости термов в документе, близости их положения в тексте. Введение в модель документа помимо вершин еще и ребер, обозначающих связи между термами, позволяет учитывать отношения термов между собой, выделять группы взаимосвязанных одной тематикой элементы документа, экстрагировать минимальные по заданному критерию множества термов, характеризующих документ.

Запрос Сзапр определяется как

апр — |(7тер.м,Сца/>С?сш.и,(?обчо'| , (16)

где С терм- нечеткое множество термов запроса, хейтерм;

Оасц=\\Ио {х,у)1{х,у))\,х,у е Сасц - нечеткое неориентирован-

ное отношение ассоциативной связанности термов запроса, заданное на множестве йасц, - желаемое значение связности термов х и у в искомом документе.

(14)

(15)

В зависимости от используемых эвристик для построения ПОД, непосредственные значения этой величины могут меняться.

Для полнотекстового поиска документов на основании отношений

Ссиим и Ообчс, строится объединенное отношение б Синм ■

В простейшем случае, оно может быть построено путем объединения этих отношений с использованием операции максимума:

Помимо указанных в запросе термов, расширенный запрос содержит указание весов для каждого из термов, определяющих степень «важности» данного терма для результата запроса. По умолчанию значение присваивается системой и/или уточняется пользователем. Список синонимов формируется поисковым механизмом и предъявляется пользователю для уточнения. Далее производится указание гипонимов (или сети более частных понятий) для каждого терма. Сеть формируется и предъявляется пользователю для уточнения, после чего можно удалить или добавить гипоним, скорректировать вес.

Таким образом, разработанная модель расширенного поискового запроса в терминах семантических сетей позволяет учитывать обратную связь с пользователем и тем самым обеспечивает повышение информативности поиска в БЗ.

В третьей главе представлена алгоритмическая реализация моделей поиска и обработки информации в иерархических базах знаний.

Согласно разработанной во второй главе модели алгоритм построения ПОД разбивается на 2 независимые ветви: выделение термов документа с вычислением их весов и нахождение весов связей между термами.

Недостатком известных методов расчета весов термов является то, что они не учитывает распределение терма внутри всех документов БЗ. Для того, чтобы учесть распределение терма во всех документах БЗ без усложнения алгоритма, предлагается добавить дополнительную характеристику. Она должна быть максимальной, если терм встречается только в одном рассматриваемом документе БЗ и убывать с увеличением частоты терма в оставшихся документах набора.

С учетом предложенной дополнительной характеристики весу'-го терма в г'-м документе БЗ будет определяться следующим выражением:

(18)

(17)

где Т/ц - частота появления7-го терма в /-м документе; й/, - доля (частота) документов, содержащих _/-й терм; Т/^ - средняя частота^'-го

терма во всех документах набора кроме /-го документа. Л^- общее количество документов в БЗ; Щепп! - общее количество термов в БЗ.

Преимуществами предложенного метода являются: относительная простота и высокая эффективность, т.к. учитывается не только распределение терма в рассматриваемом документе, но и внутри всех документов БЗ.

Функционирование алгоритма построения ПОД основано на последовательном просмотре исходного документа для вычисления статистической информации о степени принадлежности каждого терма документу. Затем из полученного списка термов, содержащихся в документе, выбирается определенное количество наиболее значимых термов по значению их степени принадлежности. Полученное множество составляет множество вершин ПОД, которое и сохраняется в базе данных.

Исходными данными алгоритма являются: количество документов; модель документа в виде сети фреймов, содержащая иерархическое описание текста; количество термов в документе; номер документа; количество термов в базе знаний. Выходные данные: количество термов в ПОД; документ, представленный в виде списка термов; степени принадлежности термов документу; модифицированные частоты встречаемости термов в документах.

Схема разработанного алгоритма представлена на рисунке 1.

Алгоритм расширения запроса (рисунок 2) заключается в последовательном просмотре термов запроса с последующим поиском и уточнением синонимов и гипонимов для каждого из них. Каждому терму устанавливается степень его пригодности для расширения. Полученный вариант расширенного запроса предъявляется пользователю, который корректирует его путем исправления весов, удаления или добавления термов и инициирует новую итерацию цикла расширения запроса. Расширение запроса предполагает анализ существующей семантической сети, описывающей знания экспертов в данной предметной области на предмет выявления синонимов и частных понятий термов, содержащихся в запросе. Обратная связь с пользователем осуществляется путем предъявления ему найденных связей для уточнения весов этих связей. Результатом его работы является список ссылок на релевантные документы.

Рисунок 1- Схема алгоритма построения ПОД

Рисунок 2- Схема алгоритма построения расширенного запроса

В четвертой главе предложена иерархическая база знаний с динамически управляемой структурой для многомодульного обучения и представлены результаты экспериментальных исследований механизмов поиска в ней.

Предложена графовая модель многомодульной иерархической базы знаний обучающей системы с динамически конфигурируемой структурой, основанной на вероятности обращения как к отдельным модулям, так и содержащимся в них документах.

На рисунке 3 представлена схема алгоритма процесса обучения на основе иерархической базы знаний с динамически управляемой структурой. База знаний представляет собой многоуровневую иерархическую структуру: на первом уровне иерархии расположены модули, содержащие основные темы предметной области; следующие уровни иерархии представлены модулями, содержащими подтемы предметной области. Доступ к ним пользователя доступен только после изучения материала основной темы. В начале работы пользователю предлагается список основных тем предметной области, то есть модулей первого уровня иерархии. Далее пользователь формирует поисковый запрос, запускается поисковая система (принципы работы которой были изложены в третьей главе) формируется список релевантных запросу документов, выстроенных в порядке убывания вероятности обращения к ним. Указанный список сохраняется в КЭШ-памяти, а пользователю для изучения представляется документ, имеющий наибольшую статистическую вероятность обращения к нему. После изучения из КЭШ-памяти выбирается документ, имеющий следующую по величине вероятность обращения к нему и так далее, пока КЭШ-память не окажется пустой. Далее пользователю предоставляются документы, относящиеся к модулям этой темы, но более низкой иерархии. Процесс повторяется до тех пор, пока не будут изучены все материалы, относящиеся к данной теме, после чего обучаемый проходит тестирование, по результатам которого принимается решение о возможности перехода к изучению новой темы, либо повторного изучения текущей. По результатам тестирования изменяется рейтинг обучаемого и на основании текущего рейтинга реконфигуриру-ется структура базы знаний и путь обучения (т.е. количество учебных модулей, которые необходимо освоить) либо уменьшается (для высокого рейтинга), либо увеличивается (для более низкого рейтинга). Таким образом процесс учения адаптирован под индивидуальные способности обучаемого, за счет динамического управления структурой базы знаний в процессе обучения.

Рисунок 3- Схема алгоритма процесса обучения на основе иерархической базы знаний с динамически управляемой структурой

Разработанная система обучения в предметной области рассчитана на 120 человек, работающих одновременно, и обеспечивает гибкость процесса обучения с возможностью ранжирования информации в зависимости от уровня обучаемого.

С целью проверки эффективности функционирования разработанных выше моделей и алгоритмов, а также анализа получаемых с использованием предложенных методов поиска результатов и сравнения этих результатов с аналогами, было проведено имитационное моделирование информационно-поисковой системы. Для исследования была выбрана база знаний, соответствующая учебной дисциплине "Операционные системы, среды и оболочки" и содержащая 32 учебных модуля. Каждый модуль может содержит материал, соответствующий содержанию одного параграфа или части параграфа традиционного учебника. База знаний содержит более 5 тысяч документов, объемом от одной до 200 страниц. Общий объем базы знаний составляет порядка 80 Мб. Размер документов колеблется от 1 Кб до 2 Мб. Для моделирования использовался персональный компьютер с процессором Intel Pentium IV 3,4 ГГц, 1 Гб RAM, ОС Windows ХР.

Для эффективной работы поискового механизма необходимо определить оптимальное количество ключевых слов (ключевых термов) для различного размера документов базы знаний, поскольку неоправданное их увеличение приводит к усложнению структуры процесса индексации документов и не дает весомого выигрыша в эффективности поиска.

Для повышения информативности поиска и сужения количества ключевых слов была предложена формула для вычисления порогового значения е количества термов w,:

применение которого значительно уменьшает число ключевых слов, без снижения эффективности индексации документа.

С целью оценки эффективности разработанной методики было проведено сравнение эффективности функционирования смоделированной поисковой системы и традиционных информационно-поисковых систем.

В зависимости от размера БЗ, то есть количества содержащихся в ней документов, были проведены испытания эффективности поиска информации для смоделированной и традиционной ИПС и оценены коэффициенты полноты, точности и шума для каждой из систем.

(20)

Критерием релевантности каждого найденного документа поисковому запросу являлось мнение экспертов, обладающих полной информацией о предметной области поиска.

На рисунках 4 и 5 представлены графические зависимости коэффициентов полноты (К„) и точности (К„,) поиска смоделированной и традиционной ИПС от количества документов Л^ в БЗ.

Кп

□ смоделированная ИПС В традиционная ИПС

Рисунок 4- Графические зависимости коэффициентов полноты поиска смоделированной и традиционной ИПС от объема БЗ ,-Кт

100 200 500 1000 1500 2000 2500 3000 3500 4000

□ смоделированная ИПС О традиционная ИПС

Рисунок 5- Графические зависимости коэффициентов точности поиска смоделированной и традиционной ИПС от объема БЗ

Анализ рассчитанных на основе экспериментальных данных критериев эффективности, отраженных на рисунках 4 и 5, показывает, что смоделированная ИПС обеспечивает повышение коэффициента полно-

ты поиска в среднем на 2,5 % и коэффициента точности на 7,5% по сравнению с традиционной. Соответственно обеспечивается и снижение коэффициента шума поиска на 7,5%.

Другим не менее важным критерием эффективности информационно-поисковых систем является показатель быстродействия, то есть среднее время поиска одной структурной единицы, например, документа в БЗ. С целью подтверждения высокой эффективности предложенных решений было проведено экспериментальное исследование быстродействия поиска информации для смоделированной и традиционной ИПС. Поиск осуществлялся для многомодульных БЗ с различным количеством модулей. Критерием эффективности поиска является коэффициент быстродействия Кбд, определяемый по следующей формуле:

и - срХ К-бд--

1ср2

(21)

где 1СР1 - среднее время поиска одного релевантного документа смоделированной ИПС, [мс]; 1сЛ - среднее время поиска одного релевантного документа традиционной ИПС, [мс].

Графическая зависимость коэффициента быстродействия от количества модулей БЗ представлена на рисунке 6.

1,15 -Кбд 1,121,09 -1,06 -1,03 -

Ц

V •

1

"Ш ГЩП

ш

'0- '■х

жд

1

10 15 20

I ' ' I

25 30

^од , П .

40 50

Рисунок 6- Графическая зависимость коэффициента быстродействия от количества модулей БЗ

Анализ рассчитанного на основе экспериментальных данных критерия быстродействия показывает, что по скорости поиска информации смоделированная ИПС уступает традиционной, однако по мере возрастания количества модулей, преимущество традиционной ИПС практически нивелируется, составляя порядка 1%.

Таким образом, смоделированная на основе предложенных в работе

моделей и алгоритмов ИПС обеспечивает повышение коэффициента полноты поиска в среднем на 2,5 %, коэффициента точности на 7,5% при снижении быстродействия на 1 % , что доказывает высокую эффективность предложенных в работе моделей и алгоритмов.

В заключении диссертации сформулированы основные выводы и научные результаты.

В приложениях приведены фрагменты программной реализации моделей и алгоритмов поиска информации в иерархической БЗ, а также копии акта внедрения результатов диссертационного исследования.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Предложены модели предварительной обработки и автоматизированного анализа информации в БЗ, обеспечивающие сужение рамок предметной области и позволяющие более эффективно структурировать и извлекать информацию из иерархических баз знаний.

2. Предложена и обоснована формализация задачи поиска информации в структурированных БЗ, основанная на сравнении поискового образа полнотекстового документа и расширенного запроса пользователя.

3. Разработана универсальная модель шаблона полнотекстового документа, позволяющая ввести дополнительный уровень абстракции между документом и его поисковым образом и реализовать на ее основе универсальный алгоритм построения поисковых образов документов различных форматов.

4. Разработана модель поискового образа документа, представленная в виде неориентированного нечеткого графа второго рода, позволяющая учитывать отношения термов между собой, выделять группы взаимосвязанных одной тематикой элементы документа, экстрагировать минимальные по заданному критерию множества термов, характеризующих документ.

5. Разработана модель расширенного поискового запроса в терминах семантических сетей, которая позволяет учитывать обратную связь с пользователем и тем самым обеспечивает повышение информативности поиска в БЗ.

6. Предложен алгоритм построения ПОД , направленный на выделение термов документа с вычислением их весов и нахождение весов связей между термами.

7. Алгоритмически реализовано построение расширенного запроса, фактически заключающееся в последовательном просмотре термов запроса с последующим поиском и уточнением синонимов и гипонимов для ка-

ждого из них.

8. Разработана графовая модель многомодульной иерархической базы знаний обучающей системы с динамически конфигурируемой структурой, основанной на вероятности обращения как к отдельным модулям, так и содержащимся в них документах.

9. Предложена схема алгоритма процесса обучения, основанного на иерархическом ранжировании модулей БЗ и вероятностном характере обращения к ним, адаптированного под индивидуальные способности обучаемого за счет динамического управления структурой базы знаний в процессе обучения.

10. Создана и верифицирована имитационная модель поиска информации в структурированных иерархических базах знаний на основе разработанных моделей и алгоритмов. В ходе экспериментального исследования показаны преимущества их использования для многомодульных баз знаний, выражающиеся в повышении коэффициента полноты поиска в среднем на 2,5 %, коэффициента точности на 7,5% при снижении быстродействия всего на 1 % .

11. Результаты диссертационной работы внедрены в учебный процесс кафедры ИПОВС Московского государственного института электронной техники.

РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ В СЛЕДУЮЩИХ ОСНОВНЫХ РАБОТАХ:

1. Портнов Е.М., Со Тант. Формализация задачи полнотекстового поиска информации в структурированных базах знаний// научно-технический журнал " Естественные и технические науки". М.: Изд-во "Компания Спутник+", 2008, №3.-С 325.

2. Баин A.M., Слюсарь В.В., Со Тант. Методика автоматизированного анализа документированной информации в системах поддержки принятия решений//Научно-технический журнал "Известия высших учебных заведений. Электроника". - М.: МИЭТ, 2008,- №3.-С 81-84.

3. Портнов Е.М., Морозова Н.В.,Со Тант. Вероятностная сетевая модель распределения и поиска данных, структурированных заданным образом/Моделирование, алгоритмизация и программирование при проектировании информационно-управляющих систем: Сборник научных трудов/ Под ред. В.А. Бархоткина. - М.:МИЭТ, 2008.-С 229-233.

4. Со Тант. Алгоритмы поиска информации в БЗ, накапливающей данные об обращениях к учебным модулям//«Актуальные проблемы информатизации. Развитие информационной инфраструктуры, техноло-

гий и систем». Всероссийская межвузовская научно-практическая конференция. - М.: МИЭТ, 2007 .-С. 152.

5. Со Тант. Модель предварительной обработки документов по критерию тематической близости// Научно-технический журнал " Техника и технология". М.: Изд-во "Компания Спутник+", 2008, №3.-С. 31-32.

6. Со Тант. Моделирование сетевой структуры с использованием вероятностной модели теории графов//"Микроэлектроника и информати-ка-2006". 13-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: Тез. докл. - М.: МИЭТ, 2006 .-С. 217.

7. Со Тант. Создание сценариев на языке PHP для вероятностной поисковой системы.//«Технологии разработки программных систем». Научная сессия МИФИ, 22-27 января, 2007. -С.133, секция И-1.

8. Со Тант. Статистическое моделирование центральной предельной теоремы. // "Микроэлектроника и информатика-2005". 12-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: Тез. докл. -М.: МИЭТ, 2005 .-С. 189.

9. Со Тант. Структурированная база знаний для сетевого обучения студентов.// "Микроэлектроника и информатика-2007". 14-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: Тез. докл. - М.: МИЭТ, 2007 .-С. 210.

10. Чжи Я Аунг, Со Тант. Моделирование системы Базы Знаний с большим количеством видеоинформации.// "Микроэлектроника и информатика-2007". 14-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: Тез. докл. - М.: МИЭТ, 2007 .-С. 219.

11. Чжи Я Аунг, Со Тант. Подготовка изображений для графических баз знаний.// XI Московская международная телекоммуникационная конференция студентов и молодых ученых «молодежь и наука» Научная сессия МИФИ-2008.-С.87.

12. Со Тант. Модифицированный алгоритм Кнута-Морриса-Пратта для иерархического поиска информации в БЗ.//"Микроэлектроника и информатика - 2008". 15-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: Тез. докл. - М.: МИЭТ, 2008.-С. 180.

13. Портнов Е.М., Со Тант. Разработка модели построения поискового образа полнотекстового документа// научно-технический журнал " Техника и технология". М.: Изд-во "Компания Спутник+", 2008, №3.-С. 29-30.

Подписано в печать:

Формат 60x84 1/16. Уч.-изд.л.^- Тираж^ Оэкз. Заказ

Отпечатано в типографии ИПкМИЭТ.

124498, Москва, г.Зеленоград, проезд480б, д.5, МИЭТ.

Оглавление автор диссертации — кандидата технических наук Со Тант

Введение

Глава 1. Анализ моделей и систем поиска и обработки информации в базах знаний

1.1 Основные модели представления и обработки знаний

1.2 Анализ информационных моделей гипертекстовой информации

1.3 Классификация, основные характеристики и критерии эффективности информационно-поисковых систем

1.4 Обзор функциональных возможностей современных информационно-поисковых систем

1.5 Анализ моделей поиска информации в БЗ

1.6 Постановка целей и задач диссертационного исследования

Выводы по главе

Глава 2. Разработка моделей обработки и расширенного поиска информации в иерархических базах знаний

2.1 Разработка модели предварительной обработки документов по критерию тематической близости

2.2 Создание модели автоматизированного анализа текста документа в иерархических базах знаний

2.3 Формализация задачи поиска информации в иерархических БЗ

2.4 Разработка фреймовой модели шаблона полнотекстового документа

2.5 Разработка модели поискового образа документа

Выводы по главе

Глава 3. Алгоритмическая реализация моделей поиска и обработки информации в иерархических базах знаний

3.1 Разработка алгоритма построения поискового образа документа

3.2 Разработка алгоритма построения расширенного поискового запроса

3.3 Разработка архитектуры полнотекстовой информационно-поисковой системы

3.4 Моделирование экспертной системы поиска документированной информации в БЗ

Выводы по главе

Глава 4. Разработка иерархической базы знаний с динамически управляемой структурой и результаты экспериментальных исследований механизмов поиска в ней

4.1 Особенности моделирования иерархических баз знаний на основе теории графов

4.2 Разработка графовой модели иерархической базы знаний с динамически управляемой структурой

4.3 Моделирование процесса обучения на основе иерархической базы знаний с динамически управляемой структурой

4.4 Имитационное моделирование и результаты экспериментальных исследований эффективности предложенных механизмов поиска информации в иерархических базах знаний

Выводы по главе

Заключение диссертация на тему "Модели и алгоритмы эффективной обработки и поиска информации в иерархических базах знаний с динамически управляемой структурой"

Выводы по главе 4

1. Обоснована эффективность применения графовой модели при проектировании базы знаний информационно- обучающей системы, обеспечивающей возможность ориентированного поиска и иерархическое представление вершин (модулей БЗ) в зависимости от важности, содержащейся в них информации.

2. Разработана графовая модель многомодульной иерархической базы знаний обучающей системы с динамически конфигурируемой структурой, основанной на вероятности обращения как к отдельным модулям, так и содержащимся в них документах.

3. Предложена схема алгоритма процесса обучения, основанного на иерархическом ранжировании модулей БЗ и вероятностном характере обращения к ним, адаптированного под индивидуальные способности обучаемого за счет динамического управления структурой базы знаний в процессе обучения.

4. Предложена формула для вычисления порогового значения количества термов в БЗ, обеспечивающая повышение информативности поиска и снижение количества ключевых слов при индексации документов БЗ.

5. Создана и верифицирована имитационная модель поиска информации в структурированных иерархических базах знаний на основе разработанных моделей и алгоритмов. В ходе экспериментального исследования показаны преимущества их использования для многомодульных баз знаний, выражающиеся в повышении коэффициента полноты поиска в среднем на 2,5 %, коэффициента точности на 7,5% при снижении быстродействия на 1 % .

Заключение

1. Предложены модели предварительной обработки и автоматизированного анализа информации в БЗ, обеспечивающие сужение рамок предметной области и позволяющие более эффективно структурировать и извлекать информацию из иерархических баз знаний.

2. Предложена и обоснована формализация задачи поиска информации в структурированных БЗ, основанная на сравнении поискового образа полнотекстового документа и расширенного запроса пользователя.

3. Разработана универсальная модель шаблона полнотекстового документа, позволяющая ввести дополнительный уровень абстракции между документом и его поисковым образом и реализовать на ее основе универсальный алгоритм построения поисковых образов документов различных форматов.

4. Разработана модель поискового образа документа, представленная в виде неориентированного нечеткого графа второго рода, позволяющая учитывать отношения термов между собой, выделять группы взаимосвязанных одной тематикой элементы документа, экстрагировать минимальные по заданному критерию множества термов, характеризующих документ.

5. Разработана модель расширенного поискового запроса в терминах семантических сетей позволяет учитывать обратную связь с пользователем и тем самым обеспечивает повышение информативности поиска в БЗ.

6. Предложен алгоритм построения ПОД , направленный на выделение термов документа с вычислением их весов и нахождение весов связей между термами.

7. Алгоритмически реализовано построение расширенного запроса, фактически заключающееся в последовательном просмотре термов запроса с последующим поиском и уточнением синонимов и гипонимов для каждого из них.

8. Разработана графовая модель многомодульной иерархической базы знаний обучающей системы с динамически конфигурируемой структурой, основанной на вероятности обращения как к отдельным модулям, так и содержащимся в них документах.

9. Предложена схема алгоритма процесса обучения, основанного на иерархическом ранжировании модулей БЗ и вероятностном характере обращения к ним, адаптированного под индивидуальные способности обучаемого за счет динамического управления структурой базы знаний в процессе обучения.

10. Создана и верифицирована имитационная модель поиска информации в структурированных иерархических базах знаний на основе разработанных моделей и алгоритмов. В ходе экспериментального исследования показаны преимущества их использования для многомодульных баз знаний, выражающиеся в повышении коэффициента полноты поиска в среднем на 2,5 %, коэффициента точности на 7,5% при снижении быстродействия на 1 % .

11. Результаты диссертационной работы внедрены в учебный процесс кафедры ИПОВС Московского государственного института электронной техники.

Библиография Со Тант, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. N. Winer. Cybernetics. J. Wiley, N. Y., 1948.

2. Винер H. Кибернетика или управление и связь в живом и машине. М., Советское радио, 1968, - 340 с.

3. Минский М. Фреймы для представления знаний: Пер. с англ. — М.: Энергия, 1979.— 152 с.

4. Заде JI. Понятое лингвистической переменной и его применение к принятию приближенных решений: Пер. с англ. — М.: Мир, 1976. — 165 с.

5. Маккарти Д. Общность в системах искусственного интеллекта // Лекции лауреатов премии Тьюринга / Под ред. Р.Эшенхерста. М.: Мир, 1993. - С.299-312.

6. Лорьер Ж.Л. Системы искусственного интеллекта: Пер с франц.— М.: Мир, 1991.—568 с.

7. Шенк Р. Обработка концептуальной информации: Пер с англ. — М.:Энергия, 1980.—360 с.

8. Р. Грэхем, Д. Кнут, О. Паташник. Конкретная математика. Основание информатики. Пер. с англ. —М.: Мир, 1998. —703 с.

9. Нильсон Н.Дж. Искусственный интеллект. Методы поиска решений. -М., Мир, 1973,-272 с.

10. Сэлтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. — М.: Сов. радио, 1973. — 560 с.

11. Нечеткие множества в моделях управления и искусственного интеллекта / Под ред. Д. А. Поспелова. — М.: Наука, 1986. — 312 с.

12. Поспелов ДА. Логико-лингвистические модели в системах управления. — М.: Энергоатомиздат, 1981. — 232 с.

13. Ершов А.П. Введение в теоретическое программирование. Беседы о методе. М., Наука, 1977, 288 с.

14. Осуга С. Обработка знаний: Пер. с япон. — М.: Мир, 1989. — 293 с.

15. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии.-М.: Издательство МГТУ им. Н.Э. Баумана, 2005.-304 с.

16. Базы знаний интеллектуальных систем / Т.А. Гаврилова, В.Ф.Хорошевский.СПб.: Питер, 2000. — 384 с.

17. Представление и использование знаний: Пер. с япон. / Под ред. X. Уэно, М. Исидзука. — М.: Мир, 1989. — 220 с.

18. Гаврилова Т.А., Червинская K.P. Извлечение и структурирование знаний для экспертных систем. — М.: Радио и связь, 1992. — 200 с.

19. Любарский Ю.Я. Интеллектуальные информационные системы. — М.: Наука, 1990.—232 с.

20. Кондаков Н.И. Логический словарь. — М.: Наука, 1971. — 638 с.

21. Кандрашина Е.Ю., Литвинцева Л.В., Поспелов Д.А. Представление знаний о времени и пространстве в интеллектуальных системах / Под ред. Д.А. Поспелова. — М.: Наука, 1989. — 328 с.

22. GruberT.R. A translation approach to portable ontologies // Knowledge Acquisition. 1993.—№5(2).— P. 199—220.

23. Вениаминов E.M., БалдинаД.М. Система представления знаний Ontolingua принципы и перспективы // Научно-техническая информация. Сер. 2. Информационные процессы и системы. 1999. — № 10. — С. 26—32.

24. Клещев Л.С., Артемьева И.Л. Необогащенная система логических соотношений. Часть 1 // Научно-техническая информация. Сер. 2. Информационные процессы и системы. 2000. — № 7. — С. 18—28.

25. Fernandez М, Gomez-Perez A., Juristo N. METHONTOLOGY: From Onto-logical Art Toward Ontological Engineering // Spring Symposium Series on Onto-logical Engineering AAAI-97. — Stanford: Stanford University, 1997.

26. MDA Specifications Электронный ресурс./ Object Management Group, Inc. — Электрон, текстовые дан. — [USA] : OMG, 2003. — Режим досту-na:http://www.omg.org/mda/specs.htm. — Англ.

27. ISO/ÏEC 10746-1:1998. Information technology — Open Distributed Processing — Reference model: Overview.30. 1SO/IEC 10746-2:1996. Information technology — Open Distributed Processing — Reference model: Foundations.

28. ISO/IEC 10746-3:1996. Information technology — Open Distributed Processing — Reference Model: Architecture.

29. ISO/IEC 10746-4:1998. Information technology — Open Distributed Processing — Reference Model: Architectural semantics.

30. Логический подход к искусственному интеллекту: от классической логики к логическому программированию: Пер. с франц. / Тейз А., Грибомон П., Луи Ж. и др. — М.: Мир, 1990. — 432 с.

31. Поликсахин А.В., Савин А.Ю. Гипертекст: сущность, состояние, перспективы—М., 1993 — 128 с.

32. Nielsen J. Hypertext & Hypermedia. — Oxford: Oxford University Press, 1990. —263 p.

33. Ланкастер Ф.У. Информационно-поисковые системы: пер. с англ. М., Мир, 1972.-308 с.

34. Черный А. И. Введение в теорию информационного поиска. — М., 1975.-238 с.

35. Агеев В.Н., Узилевский Г.Я. Человеко-компьютерное взаимодействие: концепции, процессы, модели. — М.: Мир книги, 1995. — 352 с.

36. Башмаков А.И., Башмаков И.А. Разработка компьютерных учебников и обучающих систем. — М.: Информационно-издательский дом «Филинъ», 2003. —616 с.

37. Марчук А.Г. Распределенные электронные архивы, библиотеки и базы данных // Препринт 122, Институт систем информатики им. А.П. Ершова СО РАН, Новосибирск 2004. — 25 с.

38. Дмитриева М.В. О поиске информации в сети Интернет // Компьютерные инструменты в образовании. СПб.: Изд-во ЦПО "Информатизация образования", 1999, №6.- С. 7-18.

39. Barker J. What Makes a Search Engine Good? http://www.Iib.berkeley.edu/TeachingLib/GшdesЯnternet/ SrchEngCriteria.pdf

40. Крол Э. Всё об Internet. Киев: Торгово-издательское бюро BHV, 1996.

41. Van Rijsbergen C.J. Information retrieval. — London: Butterworths, 1979.152

42. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска // Программирование. 2002. - N4. - С. 226-242.

43. Гусев В. Google. Эффективный поиск. Краткое руководство.- М.: Диалектика, 2006- 240 с.

44. Калиниченко JI. А., Рыбкин В. М. Машины баз данных и знаний. М.: Наука, 1990. - 296 с.

45. Robertson S.E., Jones K.S. Relevance Weighing of search terms. JASIS, 1976.

46. Система Следопыт компании MediaLinua: http://www.medialingua.ru/ products.asp?rootid=8641&subid=8674.

47. Лингвистическое обеспечение информационно-поисковой системы Re-trievalWare. www.citforum.ru.

48. Каменнова M. Управление электронными документами: технологии и решения// Открытые системы, 1995.- № 4 (12). http:// www.csu.ac.ru/ osp/os/1995/ 04/source/3 8.html

49. Harman D. Latent semantic indexing (LSI) and TREC-2. In Proc. of the Second Text REtrieval Conference, 1994.

50. Brown E.W. Execution Perfomance Issue in Full-Text Information Retrieval. Dissertation. University of Massachusetts. Departament of Computer Science. February 1996.

51. Когаловский M. P. Перспективные технологии информационных систем. M.: ДМК Пресс; М.: Компания АйТи, 2003. - 288 с.

52. Dublin Core Metadata Element Set: Reference Description Электронный ресурс. / DCMI. — Version 1.1. — Электрон, текстовые дан. — [USA]: DCMI, 1999. — Режим доступа: http://dublincore.org/ documents/dces. — Англ.

53. Salton G., Fox E., and Wu H. Extended Boolean information retrieval. Communications of the ACM, Vol. 26, No. 4, December 2001, pp. 35-43.

54. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. - №4. - С. 77-83.

55. Некрестьянов И.С., Добрынин В.Ю., Клюев В.В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции "Электронные библиотеки". Протвино, 2000. - С. 204-210.

56. Marón М.Е., Kuhns J.L. On relevance, probabilistic indexing and information retrieval. Jornal of the ACM, No. 7, 1960, pp. 216-244.

57. E. С. Вентцель, JI. А. Овчаров. Теория вероятностей и ее инженерные приложения.- М.: Академия, 2003- 464 с.

58. Казаков Е. Н., Копылов В. А. Динамический метод построения автоматизированной системы. Научно-техническая информация. М., ВИНИТИ, 1974.-№5.

59. Липаев В.В. Распределение ресурсов в вычислительных системах. М.: Статистика, 1979-246с.

60. Чжи Я Аунг, Со Тант. Подготовка изображений для графических баз знаний// "МОЛОДЕЖЬ и НАУКА" : XI-я Московская международная телекоммуникационная конференция студентов и молодых ученых: Тез. докл.-М.: МИФИ,2008.-С. 87

61. Со Тант. Модель предварительной обработки документов по критерию тематической близости// научно-технический журнал " Техника и технология". М.: Изд-во "Компания Спутник*", 2008, №3.

62. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. 2000. -N11.

63. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. - N 12.

64. Рубашкин В. И. Представление и анализ смысла в интеллектуальных информационных системах. М.: Наука, 1989, 189 с.

65. Слюсарь В.В., Баин A.M., Со Тант. Методика автоматизированного анализа документированной информации в системах поддержки принятия реше-ний.//Научно-технический журнал "Известия высших учебных заведений. Электроника". М.;МИЭТ, 2008.- №3.

66. Никитин М. В. Основы лингвистической теории значения. М.: Высшая школа, 1988, 168 с.

67. Информационная технология моделирования: Учебное пособие. — М.: Финансы и статистика, 1997. — 256 с.

68. Анфилатов B.C. Системный анализ в управлении. М.: Финансы и статистика, 2003.-368 с.

69. Белоусов А. Дискретная математика . М.: Издательство МГТУ им. Н.Э. Баумана, 2001.-744 с.

70. Абросов В.И., Хрусталев Е.Ю. Классификация критериев смыслового соответствия// НТИ. Серия 2; 1977, № 11-12.- С.52-54.

71. Портнов Е.М., Со Тант. Формализация задачи полнотекстового поиска информации в структурированных базах знаний// научно-технический журнал " Естественные и технические науки". М.: Изд-во "Компания Спутник+", 2008, №3.

72. Со Тант. Статистическое моделирование центральной предельной теоремы. // Микроэлектроника и информатика. 12-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов: Тез. докл.- М.: МИЭТ, 2005 .-С. 189.

73. Экспертные системы: Состояние и перспективы: Сборник научных тру-дов./АН СССР ин-т проблем передачи инф-и, отв. ред. Д.А. Поспелов.-М.: Наука, 1989.-152с.

74. Тихомиров В.П. Основы гипертекстовой технологии/Тихомиров В.П., Морозов В .П., Хрусталев Е.Ю.-М.:1993.-122 с.

75. Бумфрей Ф., Диренцо О., Дакетт Й. и др. XML новые перспективы WWW. (Frank Boumphrey, Olivia Derenzo, Jon Duckett etc. XML Applications) серия «Для программистов», М.:изд. ДМК, 2000 688 с.155

76. Портнов Е.М., Со Тант. Разработка модели построения поискового образа полнотекстового документа// научно-технический журнал " Техника и технология". М.: Изд-во "Компания Спутник+", 2008, №3.

77. Гацко А.Ю. Концепция индексирования по ключевым словам. -<http://www.bookcase.ru/pl6/1609.html>.

78. Salton G. Automatic Text Processing — The Analysis, Transformation and Retrieval of Information by Computer. Addison-Wesley: Reading MA, 1989.

79. Salton G., Allan J., Singhal A. Automatic text decomposition and structuring. Information Processing & Management, 32(2), 1996, p. 127-138.

80. Дмитриев A.K. Построение информационно-поисковых систем по критерию максимума полезности получаемой информации // Авиакосмическое приборостроение. -2003. №6. - С. 46-51.

81. Gerald Salton, James Allan, Amit Singhal. Automatic text decomposition and structuring. Information Processing & Management, 32(2): 127-13 8, 1996.

82. Ермаков A.E. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии: Тр. Междунар. сем. М., 2002. - Т.2. - С. 180-185.

83. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. -2000.-N5.-С. 23-28.

84. Корнеев В.В., Гарев А.Ф., Васютин C.B., Райх В.В. Базы данных. Интеллектуальная обработка информации. Москва: «Нолидж», 2000. - 352 с.

85. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс. Учебное пособие. М.: Гелиос АРВ, 2002. -368с.

86. Со Тант. Структурированная база знаний для сетевого обучения студентов.// Микроэлектроника и информатика. 14-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов. М.: МИЭТ, 2007 .С. 210.

87. Gertner, A., Conati, С., and VanLehn, К. Procedural help in Andes: Generating hints using a Bayesian network student model. In: Proceedings of the Fifteenth

88. National Conference on Artificial Intelligence AAAI-98. Cambridge, MA: The MIT Press, pp. 106-111

89. Kinshuk, Patel, A. "A Conceptual Framework for Internet based Intelligent Tutoring Systems" Knowledge Transfer, volume II, Ed. A. Behrooz, pAce, London, 1997, pp. 117-124

90. Компьютерные технологии в высшем образовании. / Ред. кол.: А.Н.Тихонов, В.А. Садовничий и др.- М.: Изд-во Моск. ун-та., 1994. 272 с.

91. Растригин JI.A., Эренштейн М.Х. Адаптивное обучение с моделью обу-чаемого.-Рига: Зинатне, 1988. 160 с.

92. Соловов А.В. Проектирование компьютерных систем учебного назначения: Учебное пособие. Самара: СГАУ, 1995. - 137 с.

93. Убейко В.М., Убейко В.В. Экспертные системы в технике и экономике. -М.: Изд-во МАИ, 1992. 240 с.

94. Уотермен Д. Руководство по экспертным системам: Пер. с англ. М.: Мир, 1989.-388 с.

95. Харари Ф. Теория графов. М.: Мир, 1973.-300с.

96. Зыков А.А. Основы теории графов. М.: Наука, Гл. ред. физ.-мат. лит., 1987.-384 с.

97. Со Тант. Вероятностная сетевая модель распределения и поиска данных, структурированных заданным образом//Сборник научных трудов «Системный анализ и информационно-управляющие системы». -М.:МИЭТ, 2006.

98. Глушаков С. Программирование Web страниц. - М.: ООО «Издательство ACT», 2003. - 387 с.

99. Со Тант. Создание сценариев на языке PHP для вероятностной поисковой системы.//«Технологии разработки программных систем». Научная сессия МИФИ, 22-27 января, 2007. -С. 133, секция И-1