автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Применение теории алгебр Халмоша для математического моделирования информационно-поисковых систем

кандидата физико-математических наук
Половикова, Ольга Николаевна
город
Барнаул
год
2003
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Применение теории алгебр Халмоша для математического моделирования информационно-поисковых систем»

Автореферат диссертации по теме "Применение теории алгебр Халмоша для математического моделирования информационно-поисковых систем"

На правах рукописи

03*

ПОЛОВИКОВА ОЛЬГА НИКОЛАЕВНА

ПРИМЕНЕНИЕ ТЕОРИИ АЛГЕБР ХАЛМОША ДЛЯ МАТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Специальность 05.13.01 - системный анализ, управление и обработка информации

Автореферат

диссертации на соискание учёной степени кандидата физико-математических наук

Барнаул - 2003 г.

Работа выполнена на кафедре информатики Алтайского государственного университета

Научный руководитель

кандидат технических наук, Овечкин Борис Петрович

Официальные оппоненты: доктор физико-математических наук, профессор

Алгазин Геннадий Иванович

кандидат физико-математических наук, доцент Исаев Исмаил Мусаевич

Ведущая организация: Томский государственный университет

Защита диссертации состоится 12 сентября 2003 г. в 1500 часов на заседании регионального диссертационного совета КМ 212.004.01 в Алтайском государственном техническом университете по адресу: 656099, г. Барнаул, пр. Ленина 46.

С диссертацией можно ознакомиться в библиотеке Алтайского государственного университета.

Автореферат разослан 11 августа 2003 г.

Ученый сеьфетарь регионального диссертационного совета

к.э.н., доцент

А.Г. Блем

Общая характеристика работы

Актуальность. Одним из перспективных направлений в развитии информационного обеспечения любой сферы деятельности (медицина, образование, промышленность и т.д.) является использование эффективных технологий информационного поиска; для этих целей разрабатывается специальный класс информационных систем - информационно-поисковые системы (ИПС). Как правило, информация, которая может быть получена в результате поиска, хранится в базе данных ИПС, доступ к которой может быть получен посредством СУБД и специального программного обеспечения системы.

Недостатки и низкая эффективность существующих ИПС связаны с отсутствием этапа математического моделирования при их проектировании. Многими исследователями разработка ИПС рассматривается в узком смысле создания базы данных и примитивного программного обеспечения к ней. Это приводит к игнорированию вопросов, связанных с целостностью используемых данных, их полнотой и непротиворечивостью, построением эффективной структуры для их хранения и поиска.

Специфика построения математических моделей ИПС (К. Дейт, В.М. Дрибас, С. Д. Коровкин, М.Ш. Цаленко) заключается в разработке специального интерфейса для перевода пользовательских потребностей с естественного языка на информационно-поисковый язык и обратно. Сложность информационно-поискового языка существенно снижает эффективность функций, выполняемых системой. Применение теории алгебр Халоша для математического моделирования ИПС позволяет согласовать структуру формируемых пользователями запросов со структурой хранимых системой данных, и тем самым существенно упростить правила перевода и информационно-поисковый язык (Б.И. Плоткин, С.М. Розенберг, М.Ш. Цаленко). Моделирование ИПС с согласованными структурами хранимых и запрашиваемых данных является перспективным направлением, требующим теоретических и практических исследований.

Построение моделей ИПС невозможно без классификации видов формальных признаков этих систем, которые привязаны к предметной области исследования. Вместе с тем в рамках исследования ограничимся рассмотрением систем, предназначенных для информационного обеспечения участников процесса обучения в вузе. Такие ИПС обладают типичной для рассматриваемого класса систем структурой ресурсов и выполняют типичные для этого класса систем функции. Задача построения математической модели ИПС, которая обеспечивает участников процесса обучения в вузе необходимыми информационными ресурсами, является актуальной сама по себе. Отсутствие единой системы формализации информационных ресурсов, участвующих в обучении, зачастую приводит к дублированию исследовательских работ и не способствует принятию правильных решений.

Таким образом, можно сделать вывод, что вы ся актуальной.

библиотека С.Пе 09

Цель исследования: разработать метод создания математических моделей ИПС, основанный на универсальной алгебре и алгебраической логике, который позволяет повысить эффективность систем за счет согласованности структур хранимых и запрашиваемых данных.

Объект исследования: информационно-поисковая система, обеспечивающая участников процесса обучения в вузе необходимыми информационными ресурсами. Прикладные исследования проводились на примере ИПС, используемых в учебном процессе Алтайского госуниверситета.

Предмет исследования: математическое моделирование информационно-поисковых систем с согласованными структурами хранимых и запрашиваемых данных.

Задачи исследования:

• анализ существующих методов и технологий построения ИПС применительно < к информационному обеспечению участников процесса обучения в вузе;

• разработка метода создания математических моделей ИПС, основанного на алгебрах Халмоша;

• построение математической модели ИПС с согласованными структурами хранимых и запрашиваемых данных на основе разработанного метода;

• апробация разработанного метода на реальных данных.

Методы исследования. Методологической основой диссертационной работы является системный анализ, математическое моделирование, синтез, сравнение, конкретизация и обобщение. В диссертационной работе использовались методы функционального и кластерного анализа, алгебраические методы исчисления высказываний (методы булевых алгебр) и исчисления предикатов 1-ой ступени (методы полиадических алгебр Халмоша), выборочный метод статистического анализа данных. Научная новизна исследования

1. Разработан метод создания математических моделей ИПС, позволяющий повысить эффективность систем за счет согласованности структур хранимых и запрашиваемых данных. Построение моделей на основе разработанного метода закладывает в системе возможности совместного использования документального и фактографического видов обслуживания, физического и логического видов поиска.

2. Построены следующие модели:

• модель тематических разделов (Я, *?,/), где П - комплект множеств, описывающий свойства тематических разделов; - множество отношений; ^ - множество состояний ИПС, /е/7.

• модель поисковых образов ресурсов (Д,Ф,/), где Д - комплект множеств, характеризующий поисковые образы ресурсов (сами ресурсы); Ф - множество отношений.

3. Доказано, что композиция отображений —>М(0) двух алгебр

Халмоша является гомоморфизмом, где Ж - алгебра запросов для модели тематических разделов, М(П) - алгебра ответов на запросы для модели поисковых образов ресурсов. Согласованность алгебры запросов и алгебры ответов позволяет любой ответ на запрос выражать на языке запросов.

3. Теоретически обосновано применение гипотезы Л - компактности для представления множества информационных ресурсов в признаковом пространстве ключевых сло^. Разработан новый подход построения тематических разделов, основанный на применении итеративного метода кластеризации, который позволяет формировать «непохожие» тематические разделы с «близкими» по содержанию информационными ресурсами.

4. Обоснована необходимость использования промежуточных звеньев (тематических разделов, поисковых образов ресурсов) в классической технологии информационного обслуживания («запрос-ответ») применительно к предметной области исследования.

Практическая значимость исследования

1. Применение разработанного метода к моделированию ИПС позволяет любой пользовательский запрос представлять в нормальной канонической форме, что соответствует логической оптимизации множества запросов.

2. Предлагаемая модификация алгоритма кластеризации КЛАВ позволяет разбить множество информационных ресурсов на разделы по их смысловому содержанию, не используя числовой матрицы данных, и увеличить скорость сходимости алгоритма за счет разрыва нескольких «напряженных» ребер за один шаг кластеризации.

3. Предлагаемый способ формализации ресурсов информационного пространства вуза позволяет предоставлять доступ к ресурсам с различными свойствами (структурированным, неструктурированным, слабоструктурированным) из различных информационных источников и на различных носителях.

Основные положения, выносимые на зашиту

1. Предлагаемый метод математического моделирования информационно-поисковой системы, основанный на алгебрах Халмоша, позволяет проектировать модели систем, для которых согласованы структуры хранимых и запрашиваемых данных.

2. Математическая модель ИПС обеспечения участников процесса обучения в вузе может быть представлена двумя алгебраическими системами (моделями): моделью тематических разделов (П,ХР,/) и моделью поисковых образов ресурсов (Д,Ф,/).

3. Предлагаемый способ кластеризации множества информационных ресурсов на основе алгоритма КЛАВ, позволяет формировать тематические разделы с близкими по смысловому содержанию ресурсами.

Апробация и внедрение в практику результатов исследования

Основные положения и отдельные результаты исследования докладывались и обсуждались на научно-практической конференции «Наука - городу Барнаулу» (Барнаул, 1999), международной научно-технической конференции «Информационные технологии и системы в образовании, науке и бизнесе» (Пенза, 1999), Всероссийской научной конференции «Организационно-управленческие инновации в системе педагогического образования» (Барнаул, 1999), Всероссийской научно-практической конференции «Информационные технологии в экономике, науке и образовании» (Бийск,

2000), краевой конференции «Математическое образование на Алтае» (Барнаул,

2001), Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2002), третьей, четвертой, пятой и шестой краевых конференциях по математике (Барнаул, 2000, 2001,2002,2003).

На основе*: построенной модели ИПС разработана и используется прикладная программа с -»еЬ-интерфейсом для библиотечного электронного каталога Алтайского госуниверситета, реализующая модифицированный алгоритм КЛАВ, и информационно-справочный банк данных детских конкурсных работ регионального центра Федерации Интернет Образования.

Публикации. По теме диссертации опубликовано 14 печатных работ.

Структура и объём работы. Диссертация состоит из введения, трёх глав, заключения, списка литературы из 121 источников, приложения. Общий объем работы составляет 140 страниц.

Основное содержание работы

Во введении обосновывается актуальность исследования, определяются цель, объект, предмет, задачи, этапы и методы исследования, раскрывается научная новизна, теоретическая и практическая значимость работы, формулируются положения, выносимые на защиту.

В первой главе проводится обоснование объекта и предмета исследования, анализ методов математического моделирования и оценки возможности их применения для повышения эффективности ИПС.

Информационное обеспечение участников процесса обучения представляет собой совокупность информационных процессов (сбора, обработки, хранения, представления и выдачи данных), направленных на удовлетворение информационных потребностей слушателей, студентов, аспирантов, преподавателей вуза.

Средством (инструментом) решения задач по информационному обеспечению является информационная система (ИС). Среди множества факторов, определяющих совокупность свойств и особенностей конкретной ИС, можно выделить четыре ос-6

новных: целевые функции ИС (тип системы), режимы информационного обслуживания, видовая структура информационного обслуживания, концепция организации данных.

Сравнительный анализ задач и функций существующих типов ИС позволяет сделать вывод, что исследуемая ИС относится к информационно-поисковому типу. Для ИПС обеспечения участников процесса обучения в вузе приемлемыми являются следующие характеристики: смешанная видовая структура, которая использует элементы документального и фактографического видов обслуживания; справочный режим информирования, основанный на запросах по шаблонам.

Одна из главных проблем, возникающих при моделировании ИС, заключается в выборе математической модели адекватной реальному процессу.

Запросы на поиск определенной информации в БД записываются формулами логического языка, а это означает, что операции, которые определены в данной алгебре, должны бьггь согласованы с логикой того же языка. В математической логике наряду с исчислением высказываний рассматривают исчисления предикатов различных ступеней. Имеются разновидности исчислений для классических и неклассических логик. Использование неклассических логик при моделировании БД не позволяет применять общепринятые стандартизованные информационно-поисковые языки, языки запросов, языки манипулирования данными для разработки программных компонент БД. С классическим исчислением предикатов первой ступени связывают цилиндрические алгебры Тарского и полиадические алгебры Халмоша.

Для реляционной модели данных теория алгебраических систем выступает основным инструментом формализации ИПС.

Поэтому, если основывать построение базы данных на классической логике, то естественно исходить из цилиндрических и полиадических алгебр. Выбор алгебраической теории, основанный на применении алгебр Халмоша, для формализации ИПС обусловлен следующими преимуществами: с одной стороны, используются четко обозначенные множество запросов и множество ответов на запросы, хорошо организованные в определенную структуру, связанную со структурой данных; с другой -присутствуют средства, обеспечивающие функционирование баз данных (для СУБД) и построение ответов на запросы (для программных модулей). Кроме этого, свойства объектов, которые могут быть использованы в качестве комплекта множеств данных для алгебры Халмоша, являются одноранговыми (одноуровневыми), что согласуется со свойствами объектов реляционной БД.

Таким образом, в рамках данной работы остановимся на применении полиадических алгебр Халмоша для моделирования ИПС

Вторая глава посвящена разработке метода создания математических моделей ИПС, основанного на алгебрах Халмоша.

Инфологическая модель базы данных определяется в процессе формализации информационных ресурсов, доступ к которым призвана обеспечить ИПС. Результа-

том формализации каждого информационного ресурса будет создание его поискового образа. При разработке поискового образа ресурса необходимо учитывать потребности пользователей для выполнения логического и физического видов поиска.

Совокупность информационных ресурсов (или их поисковых образов), отве-

Информационные потребности пользователей

Тематические разделы

Поисковые образы ресурсов

Информационные ресурсы

Рис. 1. Схема информационного обслуживания пользователей

чающий определенным потребностям пользователей, образуют тематический раздел. Ресурсы одного тематического раздела принадлежат определенной области знаний и имеют близкое смысловое содержание.

Предлагается следующая схема информационное обслуживание пользователей: информационные потребности (запрос) тематические разделы поисковые образы ресурсов-? информационные ресурсы (ИР) (см. рис. 1). Определены этапы получения ответа на запрос:

1) по результатам запроса пользователь получает возможность просмотреть сово--. купносгь релевантных его запросу тематических разделов;

2) по результатам выбора конкретного тематического раздела формируется множе-. ство поисковых образов ресурсов этого раздела;

3) на основе выбора пользователем поисковых образов предоставляется доступ к самим информационным ресурсам.

Поставим в соответствие всем ресурсам, участвующим в процессе обучения в вузе, некоторый общий набор параметров Г. Предположим, что выбрано некоторое множество переменных X. Для множества X задано отображение

п:Х Г,

разбивающее переменные по сортам. Пусть множество I - это множество номеров

для переменных из X. Пусть все X¡ непустые, т.е. и есть отображение на всё Г.

Определим комплект множеств

Д = (Д,геГ). (2.1)

Множество D, - слой (домен) множества данных, которое характеризует определенное свойство объектов ИПС, где i е Г.

Обозначим через D декартово произведение множеств данных D,, i е Г.

Каждый элемент d <eD это вектор d = (dl>d2.....dk), такой что i - ая его координата принадлежит D,, i е Г. Обозначим Da = D„(a) для любого а е I. Пусть M{D) это множество всех подмножеств множества D,

Далее рассмотрим элементарные формулы на множестве D = D¡ х D2 х... х Dk, которые имеют вид

<P(xai,xa2,...,xat),

где (р - символ отношения типа г = (/, ,г2 ,...,ik); xa¡- это переменная сорта г,; xa¡ - это переменная сорта г2 и т.д.

Квантор существования 3(J) для множества M(D), где Jal, определим по следующему правилу: для произвольного подмножества AczD (АеM(D)) включение Ъ е 3(J)A означает, что в А найдется элемент а такой, что Ь(а) = а(а) для всех a, aeI\J.

Квантор 3(7) обладает следующим свойством:

30А = А _ (2.2)

Доказательство данного свойства непосредственно следует из определения квантора существования.

Пусть Ф - множество всех элементарных формул, Ф • множество всевозможных формул на множестве D. Все формулы множества Ф образуются по следующим правилам:

1. Элементарные формулы множества Ф принадлежат Ф;

2. Если и,уеФ,то ииуеФ, ипуеФ, иеФ, ЭхиеФ,где хеХ;

3. Других формул в Ф нет.

Правило, согласно которому каждый реФ реализуется в качестве отношения, определим как состояние БД ИПС и обозначим символом /. Пусть F это множество состояний БД ИПС.

Для данного /€?в работе описана интерпретация / формул из Ф. Все формулы из Ф реализуются в качестве подмножества множества В. Свяжем с каждым подмножеством из И характеристическую функцию, и для каждого и е Ф получим отображение вида

/(«):£>-»2, где множество 2 состоит из двух элементов {0,1}.

Если d еВ, то /(и)(Ю есть значение формулы и на заданном й в состоянии /, которое можно трактовать как «истина» или «ложь» ({ОД}). Формула и выполняется на «/, если она истинна на й. Отображение /(и) одновременно рассматривается как подмножество в £>. Это подмножество состоит из всех <1, для которых и выполняется на <1.

Таким образом, построено отображение

/ :Ф-»Л/(£>).

Определим множество пользовательских запросов II как фактормножество множества Ф эквивалентности г, где т - тип отношений <реФ. Всевозможные и,

и еи состоят из элементарных формул множества Ф с использованием булевых операций и квантора существования. Для каждого запроса и е I/ и каждого состояния / еГ ответ /*и- /(и) есть элемент из множества М(Ю):

/*и:Л/(£>)->2.

Формула к выполняется на <1 в состоянии /, если и принимает на й значение «истина», т.е.

= /(«)(</) = 1.

Интерпретацию (отображение) /(и) можно рассматривать и как подмножество в М(0); это подмножество состоит из всех ¿ей, для которых и в состоянии / выполняется, т.е. таких й е И, для которых имеет место выражение /(и)(е1) = 1. Таким образом, построено отображение:

где I! - множество запросов; М(В) - это множество ответов. В работе показано, что исследуемой ИПС отвечает тройка

<Р,и,М(0)>,

где Р - это множество возможных состояний для отношений из Ф; и и М{0) алгебры Халмоша, соответственно запросов и ответов. Элементы множества запросов и множества ответов связаны по правилу: /*и = /(и) для любых / е Т7 и и е С/, где /(«) е М(О) это ответ на данный запрос и в интерпретации /.

Изменение классической схемы информационного обслуживания требует привлечения дополнительного аппарата для построения тематических разделов. Для решения задачи разбиения множества информационных ресурсов на тематические разделы в работе использовался кластерный анализ.

Задача кластеризации заключается в том, чтобы на основании данных (О,г е Г) разбить множество информационных ресурсов С на и кластеров (подмножеств) -р1,р1,—,рт так, чтобы ресурсы, принадлежащие одному кластеру, были «похожими», в то время как ресурсы, принадлежащие разным кластерам, были «непохожими». В решаемой задаче кластеризации в качестве признаков сходства могут быть использованы наборы ключевых слов ресурсов. Значение меры сходства равно числу совпадений между наборами ключевых слов пары ресурсов. Чем больше совпадений, тем ближе ресурсы между собой (больше их сходство).

Для кластеризации ресурсов на тематические разделы построены следующие функции.

Функции близости между ¡1, и ресурсами

где г'(<1„<1]) = у, / - суммарное количество ключевых слов d¡,dj ресурсов, п -

количество совпадений по ключевым словам.

Характеристическая функция критерия качества кластеризации

1} г = 2) г = Я(ргу„.„/О-р/^тах,

•Рчр

3) г' = аК{р1,р2.....рт)-рр1с, ->тах,

где 1 > а > 0,1>/?>0 некоторые коэффициенты.

Характеристическая функция зависит

1) от функции среднего сходства объектов внутри каждого кластера

"КО «м

±pi<j>') £р1'ЧР')

pl =±¿- или pl'=\—-,

m(í) и" \ m(t)

где m(t) - количество кластеров на заданном шаге кластеризации /, pl(p),pl'(p) - функции среднего сходства кластера, определяемые формулами: i i-i

2Sr» I !

р!(р') =-Ш2-или р/Хр')=1-^(У Гг.2)

где 5 - множество ресурсов р' тематического раздела; 1 < г < т; 2) от функции среднего расстояния между кластерами (при их попарном сравнении)

и

II>0>V) I-:-^¡y-

R =-^-или R = J-i-(Y Уг(р'УУ).

(m(t) -1) + (m(/) - 2) +... +1 V "(0(m(0 ~ 1)

В третьей главе рассматриваются вопросы построения математической модели ИПС на основе разработанного метода, который позволяет согласовать структуры запрашиваемых и хранимых данных и формировать пользовательские запросы в нормальной канонической форме.

Согласно схеме информационного обслуживания (см. рис. 1) математическую модель ИПС необходимо представить двумя моделями:

1) моделью тематических разделов, которая призвана формализовать процессы

' поиска тематических разделов согласно потребностям пользователей;

2) моделью поисковых образов, которая формализуют процессы поиска поисковых образов и ресурсов (см. рис 2).

В исследовании подробно описывается построение вышеобозначенных моделей с доказательством необходимых утверждений.

Отражение начальных данных о пользователе и общего набора ключевых слов в модели тематических разделов позволяет формировать тематические разделы, отвечающие пользовательским потребностям и определению тематического раздела.

Пусть n' = {Pi,i = \...N-l} - множество начальных данных о пользователе, Pfi-M = Рц-i+i = •■■ = PN - множества ключевых слов по всем ресурсам ИПС. Определим набор множеств Л = = 1..JV}. Представим множество Р как декартово произведение множеств Pt,i = I...N.

Построим множество М(Р) как множество всех подмножеств в Р.

Определим отношение порядка «больше или равно» в лексикографическом смысле (возрастающий лексикографический порядок) для элементов множеств Pn-m>Pn-m.....Pn и обозначим данное отношение символом «<».

В работе показано, что любой тематический раздел с уникальным набором ключевых слов можно однозначно представить вектором р е Р с координатами Px,P2,—,Ps > Для которых выполнены условия:

1) р,еР, w*l<i£N;

2) Pn-M^PN-M^-^PN-

Для вышеобозначенных моделей построено множество состояний ИПС - множество F. Элементы множества F определяют правила, по которым выполняются отношения для модели тематических разделов. В общем случае элементами множества F являются временные промежутки, которым соответствуют различные множества доступных тематических разделов и информационных ресурсов.

Определим N -арное отношение «тематический раздел», реализуемое в качестве подмножества множества Р

¥ = ф{У\,Уг.....Уы), (3-1)

где у1,у2.....Уц - переменные, принадлежащие соответственно множествам

Р\,Рг,...,Ры.

Множество элементарных формул для модели тематических разделов состоит из одного элемента у/. Множество всех формул У состоит из следующих элементов: уг,—¡у/, 3ху/.

Формулы из ¥ реализуются в качестве элементов множества М(Р). С элементами из М{Р) свяжем характеристические функции и будем рассматривать отображения вида /(V):Р —>2, для каждого уеЧ*. Если ре.Р, то }(у)(р) есть значение формулы V на заданном р в состоянии /. ФормулаVе¥ выполняется на реР, если она истинна на р.

Таким образом, построена модель тематических разделов (Я,*?,/).

Представим множества значений свойств ресурсов, участвующих в процессе обучения в вузе, следующими к доменами:

Д = = ЦУ,}- множество носителей информации {читальный зал периодики, читальный зал технической литературы, учебный абонемент, Ар-сервер, \veb-сервер университета, электронная доска объявлений, электронный каталог и т.д.};

1>г - множество форматов представления информационного ресурса для различных носителей информации;

.... и т.д.

йк - множество указателей на тематические разделы.

С учетом введенных обозначений параграфа 3.1 множество указателей на тематические разделы может быть представлено декартовым произведением слоев (доменов)

Бк = Р1хР2х...хР„ =Р, (3.2)

Определим множество О как декартово произведение вышеобозначенных доменов. Построим отношение «информационный ресурс»

.....хк),

где х1,х2,...,хк - переменные, принадлежащие соответственно множествам

Пусть М(Б) - множество всех подмножеств множества В.

Для модели информационных ресурсов определим множество элементарных

формул Ф, <р* еФ

<р* =<р(х1,хг,...,хкЛ,сГ/), где 1 < ] < Л^, - мощность множества Ок.

Множество всех формул из Ф строится на основе формул множества Ф с использованием булевых операций и квантора существования. Если ¿1 еО, то /(«)(«') есть значение формулы и на заданном ¡1 в интерпретации /. Формула иеФ выполняется на ¡/ей, если она истинна на с1.

Таким образом, построена модель поисковых образов ресурсов (Д,Ф,/).

С учетом специфики используемой схемы информационного обслуживания (см. рис. 1) пользовательский запрос представляется двумя подзапросами (см. рис. 2):

1) запрос на поиск тематического раздела (первый подзапрос);

2) запрос на поиск информационных документов в найденном тематическом разделе (второй подзапрос).

Запрос пользователя

Запрос на поиск тематических разделов

Параметры:

характеристики пользова-

теля и ключевые слова ИР

Запрос на поиск конкретного ресурса в тематическом разделе

Параметры:

тематический раздел,

автор, формат ресурса и другие свойства ресурса

Множество тематических разделов:

1111111 ■¡■У!!

Подмножества поисковых образов ресурсов, разбитые по тематическим разделам:

Рис. 2. Схема представления пользовательского запроса

Обозначим через № множество запросов в схеме базы данных. Один и тот же запрос может быть представлен разными эквивалентными формулами, например,

формулу запроса ЗииЭу можно записать следующим образом: ЗипЗу. Поэтому любому запросу соответствует класс эквивалентных формул. Множество Ш определяется как фактормножество множества ¥ по эквивалентности т (Ч/т), где Т - тип отношения цг.

Формулу запроса 3у у/ обозначим символом и>, где и> е И7 является базовым запросом для построения различных пользовательских запросов. Другие формулы запросов множества IV получаются с использованием булевых операций и формулы ы.

Ответ на запрос г еРГ в состоянии / обозначим Для каждого состояния / имеем интерпретацию

А.

которая каждому запрос г ставит в соответствие ответ /(г) из множества названий тематических разделов. Базовый запрос множества Ж определяется формулой м(у) = Зуу/(у). Формулы других запросов строятся на основе базового запроса и булевых операций. Утверждение 3.1.

Множества и М(Рк) с введенными булевыми операциями и квантором существования являются алгебрами Халмоша. Отображение (интерпретация) /:1У—> М(Рк) для фиксированного состояния / € F есть гомоморфизм.

Доказательство утверждения основывается на свойствах используемых булевых операций и квантора существования.

Для каждого тематического раздела поставим в соответствие множество поисковых образов ресурсов, которые принадлежат данному разделу. Определим отображение

g:Dk->M(D),

которое проецирует множество тематических разделов на множество поисковых образов ресурсов. Результат отображения g определяется состоянием ИПС /б/7. Множество поисковых образов ресурса, которые в состоянии / соответствуют тематическому разделу р, записываются формулой (/ * ¿){р) = /(я)(р). Утверждение 3.2.

Отображение /(#).• Пк М(Б) есть гомоморфизм. Доказательство утверждения 3.2 следует из согласованности булевых операций и квантора существования на множествах йк и М(О).

Композиция отображений -> М(В), где » Ок, ставит каж-

дому пользовательскому запросу из множества IV блок поисковых образов ресурсов {(!*} из множества И, которые отвечают тематическим разделам подмножества В = /(г), где г е!¥. Все элементы из IV реализуются в качестве подмножеств множества й.

С элементами множества М{В) свяжем характеристические функции и, таким образом, будем рассматривать отображение вида

для каждого геЖ.

Утверждение 3.3.

Отображение f(g)° f:W —> M(D) является гомоморфизмом.

Композиция гомоморфизмов есть гомоморфизм. Доказательство утверждения основывается на утверждения 3.1 и 3.2.

Из утверждения 3.3. следует что, структура ответа на запрос согласована со структурой пользовательского запроса.

Обозначим через D(z) блок (множество) информационных ресурсов {d") из

множества D, для которых формула ( f(g)° /)(z) принимает значение «истина» (или для которых выполнено (f(g)°f)(z)(d'J) = 1). Множество информационных ресурсов, соответствующих первому подзапросу z, формируется по следующей формуле:

D(z) = (f(g)cf)(z).

Обозначим композицию отображений

Р = fig) °f\W~* M(D).

Получили отображение р, которое предоставляет следующие результаты выполнения первого пользовательского подзапроса:

1) множество промежуточных ответов - множество тематических разделов (множество Dk (z) с Dk, р' a Dk (z)), для любого zeW;

2) множествб'(информационных ресурсов - ответ на первый подзапрос (множество D(z) с D, для любого z е W.

Второй подзапрос призЬан уточнять, конкретизировать подмножество поисковых образов ресурсов, найденных при выполнении первого подзапроса. Поэтому формулы второго подзапроса следует построить зависимыми от ответа на первый подзапроса. Результатом выполнения первого подзапроса является множество тематических разделов, следовательно, в формулах второго подзапроса переменная хк может принимать только конкретные значения из множества Dk (значения из подмножества Dk (z), где z - первый подзапрос)

Определим множество U как фактормножество множества Ф по эквивалентности г (Ф/г). Каждый и eU определяется классом эквивалентных формул. В работе построены следующие формулы базовых запросов для модели поисковых образов ресурсов

3x<p(x1,x1,...,xt_{,pJ) = 3x<pi =uJ, где р' еDk(z) и j -\...N(z).

Для каждого состояния /е/7 имеем интерпретацию

?:U-*M(D),

которая каждому пользовательскому подзапросу ставит ответ - подмножество поисковых образов ресурсов. Запросы в указанной схеме представляются соответствующими формулами исчисления предикатов первой ступени.

Таким образом, математическая модель ИПС обеспечения участников процесса обучения в вузе может быть представлена автоматами

АНП = (Р,ГГ,М(Р)), АЩ = (ЛС/,М(£>)). Множество состояний ^ рассматривается одновременно как множество состояний автомата; и и Ш - алгебры запросов; М(П), М{Р) - алгебры ответов на запросы.

В работе представлен математический аппарат, позволяющий логически оптимизировать первые пользовательские подзапросы геФ, представляя их в нормальной конъюнктивной форме, что соответствует логической оптимизации запросов, а также формировать на них ответы.

Пусть

.....У) = (МУ)иМ<^2)и...иуКУ))ПИ<У+,)П...П

п (и</) и ->и</+1) и... и -.Ц/"1)) п -,и<У),

где у1 = *<у) = '3(УиУг>->УыМУиУ2,->Ум)-

Согласно первому пользовательскому подзапросу г(у' ,у2,...,у') необходимо найти тематические разделы, которые в большей степени удовлетворяют условию: (множество ключевых слов раздела содержит элементы у\,у\,.-,у\ или у\,у\,...,у2ы

или ... или у;,у(,...,у1 ) и (у(+\у{+].....у^) и ... и (у[,у[.....у^ или не содержит

элементы у\*хили ...или у\'1 ,у'{хи не содержит элементы у\,у'2,...,у'ы. Воспользовавшись формулой перехода между логическими связками

(ап& = ->ди->Ь), приведем формулу пользовательского запроса к нормальному каноническому виду, а именно:

*=иМУ)п - п Му' )п п ...п -1>КУ)) •

Если условия, которые записаны в скобках (содержит элементы .... и не содержит элементы ...), определить соответственно как Условие 1, Условие 2,..., Условие г, тогда для множества ключевых слов раздела необходимо выполнение или Условие 1, или Условие 2, или ..., или Условие /.

Определена функция С(г, _/) соответствия (степени соответствия)у - ого информационного раздела /- ому условию (Условию г) пользовательского запроса г.

В работе показано, что ответом на первый пользовательский подзапрос является / информационный раздел, для которого выполнено

С. = тах{С,,С2.....С,},

где = max{C(; = \,j),C{i = 2,j),...,C(i = t,j)}, 1< j<s, s - количество тематических разделов.

Таким образом, для любого первого пользовательского подзапроса можно определить множество поисковых образов ресурсов f информационного раздела, которые в наибольшей степени соответствуют пользовательскому запросу.

В результате применения модифицированного алгоритма KRAB к выборке данных из 1094 записей библиотечного электронного каталога Алтайского госуниверситета было выполнено 32 шага кластеризации. Целевая функция критерия качества кластеризации принимает максимальное значение на 29 шаге. Таким образом, оптимальному разбиению соответствует 221 тематический раздел. Выборка из 1094 записей с уровнем надёжности 0,9876 и точности 0,0079 является статистически значимой для генеральной совокупности на 10000 записей. Объём репрезентативной выборки получен на основе выборочного метода.

Для проверки корректности разбиения ресурсов на тематические разделы использовался коэффициент соответствия, который зависит от количества совпадений по ресурсам между тематическими разделами выполненного разбиения и библиографическими рубриками. Коэффициент соответствия варьируется от 1 до 0,1. Минимальный коэффициент соответствия отвечает кластеру, большинство ресурсов которого не присвоен библиографический рубрикатор. Целевая функция принимает максимальное значение на разбиении с коэффициентом соответствия 0,73.

В заключении изложены основные теоретические выводы исследования.

1. Разработан метод создания математических моделей ИПС, основанный на использовании алгебр Халмоша, позволяющий проектировать модели систем с согласованными структурами хранимых и запрашиваемых данных. Любой запрос к данным ИПС может быть представлен в нормальной канонической форме, что соответствует логической оптимизации запросов

2. Обоснована необходимость использования промежуточных звеньев (информационные ресурсы, поисковые образы ресурсов) в классической технологии информационного обслуживания («запрос-ответ») применительно к предметной области исследования.

3. Построены алгебры запросов W, U и алгебры ответов М(Р), M(D) для модели тематических разделов (77,¥,/) и модели информационных ресурсов (Д,Ф,/). Доказано, что построенное отображение /(g)° f:W-±M{D) между двумя алгебрами одинаковой структуры является гомоморфизмом, где f(g):P->M(D) отображает множество тематических разделов на множество ресурсов (поисковых образов ресурсов).

4. Проведен анализ методов кластеризации на предмет их использования к решению задачи разбиения множества информационных ресурсов, применяемых в процессе обучения, на тематические разделы. Теоретически обосновано применение гипоте-

зы Я - компактности для представления множества информационных ресурсов в признаковом пространстве ключевых слов. Определена функция сходства (близости) двух ресурсов. Разработан критерий качества кластеризации информационных ресурсов на тематические разделы. Реализован и апробирован на данных библиотечного электронного каталога АлтГУ алгоритм кластеризации ККАВ, разбивающий множество информационных ресурсов на тематические разделы по их смысловому содержанию.

5. Получен сравнительный анализ ИС по типам, режимам, видам обслуживания, способам формирования запросов применительно к информационному обеспечению участников процесса обучения в вузе.

6. Полученные результаты исследования используются в учебном процессе на математическом факультете АлтГУ при обучении студентов специальностей «Математика» и «Прикладная математика».

Основные результаты диссертации опубликованы в следующих работах:

1. Подковырова О.Н. Единое информационное пространство вуза: принципы, задачи, структура// Интеграция образования (Федеральный научно-методический журнал). - Саранск: Изд-во Мордовского ун-та, 2000. № 4. С. 18-20.

2. Половикова О.Н, Овечкин Б.П. Формирование задачи по информационному обеспечению вуза// Известия АГУ. - Барнаул: Изд-во Алт. ун-та, 2002. Специальный выпуск. С. 74 - 76.

3. Половикова О.Н. Применение теории полиадических алгебр Халмоша для моделирования справочных информационно-поисковых систем/ Препринт I. - Барнаул: Изд-во Алт. ун-та, 2003.12 с.

4. Подковырова О.Н. Анализ системы единого информационного пространства вуза// Проблемы принятия управленческих решений: Сборник научных трудов// Под. ред. О.Н. Мамченко, Н.М. Оскорбина. - Барнаул: Изд-во Алт. ун-та, 2000. С. 154-157.

5. Подковырова О.Н. Единое информационное пространство вуза// Новые информационные технологии в университетском образовании/ Материалы Международной научно-методической конф. - Новосибирск, 2000. С. 17-18.

6. Половикова О.Н. Информационное обслуживание процесса обучения в вузе// Теоретические и прикладные вопросы современных информационных систем/ Материалы третьей Всероссийской научно-практ. конф. - Улан-Удэ, 2002. С. 319- 324.

7. Подковырова О.Н. Организации системы распространения информации для студентов вузов// Наука - городу Барнаулу/ Тезисы докладов научно-практ. конф. -Барнаул, 1999. С. 87.

8. Подковырова О.Н. Планирование нагрузки на систему обслуживания пользовательских запросов образовательной компьютерной сети// Материалы четвертой краевой конф. по математике. - Барнаул, 2001.С .43.

1^6 6 & I и и о

9. Половикова О.Н., Овечкин Б.П. Формирование задачи по информационному обеспечению вуза// Материалы пятой краевой конф. по математике. - Барнаул, 2002. С 42- 44.

10. Половикова О.Н., Овечкин Б.П. Применение аппарата кластерного анализа для решения задачи по классификации информационных ресурсов на тематические разделы// Материалы шестой краевой конф. по математике. - Барнаул, 2003. С 42-44.

Подписано в печать 07.08.2003 г. Формат 60x84/16. Бумага для множительных аппаратов. Печать офсетная. Объем 1,25 пл. Тираж 100 экз. Лаборатория множительной техники экономического факультета АлтГУ.

Оглавление автор диссертации — кандидата физико-математических наук Половикова, Ольга Николаевна

ВВЕДЕНИЕ

ГЛАВА 1. АНАЛИЗ МЕТОДОВ И ТЕХНОЛОГИЙ ПОСТРОЕНИЯ ипс

1.1. Анализ информационного обеспечения участников процесса обучения в вузе

1.1.1. Выбор целевой функции для системы информационного обеспечения участников процесса обучения в вузе.

1.1.2. Выбор режима доступа к данным для ИПС обеспечения участников процесса обучения в вузе

1.1.3. Видовые характеристики ИПС обеспечения участников процесса обучения в вузе

1.1.4. Выбор программного обеспечения для ИПС

1.2. Выбор математической теории для формализации процессов

ГЛАВА 2. РАЗРАБОТКА МЕТОДА СОЗДАНИЯ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ИПС, ОСНОВАННОГО НА АЛГЕБРАХ ХАЛМОША —

2.1. Инфологическая модель ресурсов процесса обучения и схема информационного обеспечения пользователей

2.2. Алгебраическая модель информационно-поисковой системы

2.2.1. Гомоморфизм алгебры запросов и алгебры ответов

2.2.2. Построение автомата двух алгебр Халмоша (алгебры запросор ч алгебры ответов)

2.3. Кластеризация ресурсов на тематические разделы для ИПС—

2.3.1. Постановка задачи

2.3.2. Построение критерия кластеризации множества ресурсов на тематические разделы —.—

2.3.3. Выбор алгоритма для кластеризации ресурсов на тематические разделы.—.

ГЛАВА 3. ПОСТРОЕНИЕ МАТЕМАТИЧЕСКОЙ МОДЕЛИ ИПС НА ОСНОВЕ АЛГЕБР ХАЛМОША

3.1. Модель тематических разделов исследуемой ИПС

3.2. Модель поисковых образов ресурсов, участвующих в процессе обучения

3.3. Алгебры запросов и ответов для математической модели ИПС обеспечения участников процесса обучения в вузе необходимыми ресурсами

3.3.1. Информационное обслуживание первого пользовательского подзапроса.-.—.—

3.3.2. Информационное обслуживание второго пользовательского подзапроса —.----------------------—

3.3.3. Оптимизация запросов. Технология построения ответа на запрос —

3.4. Построение тематических разделов для ИПС

3.4.1. Модификация алгоритма KRAB. Этапы построения тематических разделов.—---------------------—

3.4.2. Применение алгоритма KRAB для кластеризации ресурсов электронного каталога библиотеки—.—.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Половикова, Ольга Николаевна

Актуальность проблемы

На сегодняшний день информационные системы (ИС) являются неотъемлемыми компонентами процессов информатизации любой сферы человеческой деятельности. Применение ИС позволяет предоставить потребителям новые формы и методы работы в информационной среде, без использования которых невозможно управлять огромными информационными потоками и нереально обеспечить потребителей достоверной, полной и точной информацией.

Одним из перспективных направлений в развитии информационного обслуживания любой сферы деятельности (медицина, образование, промышленность и т.д.) является использование эффективных технологий информационного поиска; для этих целей разрабатывается специальный класс ИС -информационно-поисковые системы (ИПС).

Информационно-поисковая система - совокупность информационно-поискового языка, правил перевода с естественного языка на информационно-поисковый и обратного перевода, а также критерия соответствия, предназначенного для осуществления информационного поиска. Как правило, информация, которая может быть получена в результате поиска, хранится в базе данных ИПС, доступ к которой может быть получен через программное обеспечение системы.

Недостатки и малоэффективность многих ИПС связаны с отсутствием этапа математического моделирования при их проектировании, что приводит к игнорированию вопросов, связанных с целостностью хранимых данных, их полнотой и непротиворечивостью, организацией гибкой системы управления базой данных, логической оптимизацией запросов, созданием оптимальной структура для хранения и поиска данных.

Рассмотренные исследования И. А. Бассараб, В.Н. Редько [9], А.Е. Волкова, В.В. Кульба, С.А. Косяченко [18], Н.А. Гайдамакина [20], Задача построения математической модели ИПС обеспечения участников процесса обучения является актуальной сама по себе. Отсутствие единой системы формализации информационных ресурсов, участвующих в обучении, зачастую приводит к дублированию исследовательских работ, не способствует принятию правильных решений. М.М. Гилула [21], С.К. Дулина, С.Р. Родина [29], JI.B. Кокоревой, И.И. Малашинина [46], Г. Крона [51], В.Г. Овчинникова [70], Ю.Е. Сцепинского [91], Е.Г. Ясина [114] позволяют выработать общую концепцию информационного обеспечения различных сфер деятельности, но не предоставляют аппарата для формирования оптимальной структуры хранения и поиска данных информационной системой.

Начиная с работ Э.Ф. Кодда [115], реляционный подход становится теоретической основой баз данных информационных систем, появляются исследования по базам данных, которые опираются на математическую логику, теорию алгоритмов и общую алгебру; это способствует осмыслению различных возможностей и способов организации и представления информационных данных. В исследованиях А.Е. Армейского [3], К.В. Ахтырченко, В.В. Леонтьева [6], И.А. Бассараб, В.Н. Редько [9], Г. Биркгофа, Т. Барти [10], В.В. Бойко, В.М. Савинкова [13], В.Б. Борщева [14], А.Е. Волкова и др. [18], Н.А. Гайдамакина [20], В.М. Глушкова, А.А. Летичевского [22], К. Дейта [26], В.М. Дрибас [28], С. Д. Коровкина [48], С.Д. Кузнецова [52; 53], В.А. Лелюк [56], Дж. Мартина [63], Т.В. Олле [71], Б.Н. Паныпина, В.И. Гриценко [72], Б.И. Плоткина [74; 75; 76], О. Полукеева, Д. Коваль [78],

B.В. Пржиялковского [79; 80], Н. Раден [82], А.А. Сахарова [85; 86], И.П. Трофимовой [94], Дж. Туо [95; 96], Дж. Ульмана [97], Дж. Хаббар-да [99], М.Ш. Цаленко [100; 101; 102], Д. Цикритзиса, Ф. Лоховского [103],

C.Е. Чаудхари [104], Г. Ясина [114] рассматриваются различные определения базы данных, в том числе и использующие математический, в частности, алгебраический аппарат. Но, несмотря на развитие теоретических основ по базам данным, в некоторых случаях построение ИПС рассматривается в узком смысле создания баз данных и примитивного интерфейса к ней.

Специфика проектирования математической модели ИПС заключается в разработке специального интерфейса для перевода пользовательских потребностей с естественного языка на информационно-поисковый и обратно. Для случая, когда структура формируемых пользователями запросов согласована со структурой данных ИПС, правила перевода и информационно-поисковый язык существенно упрощаются. Несмотря на преимущества ИПС, для которых согласованы структуры хранимых и запрашиваемых данных многие исследователи создание ИПС рассматривается в узком смысле создания базы данных и примитивного программного обеспечения к ней.

Согласованность структур хранимых и запрашиваемых данных рассматриваются в работах Б.И. Плоткина [74; 75; 76], С.М. Розенберга [84], М.Ш. Цаленко [100; 101; 102]. Предлагаемый Б.И. Плоткиным подход к моделированию БД, основанный на использовании алгебр Халмоша, позволяет инфологическую структуру данных информационной системы согласовывать (сообразовать) со структурой пользовательских запросов и ответ на запрос представить на языке запросов, что отвечает потребностям проектирования ИПС. Таким образом, моделирование ИПС с использованием алгебр Xaj.Mo-ша является одним из перспективных направлений в теории информационных систем.

Процесс проектирования моделей ИПС требует классификации видов формальных признаков систем, которые привязаны к предметной области исследования. Вместе с тем, в рамках диссертационной работы ограничимся исследованием системы, предназначенной для информационного обеспечения участников процесса обучения в учебном заведении необходимыми информационными ресурсами. Такая система обладает типичной для рассматриваемого класса систем структурой ресурсов и выполняет типичные для этого класса систем функции.

Задача построения математической модели для ИПС обеспечения участников процесса обучения является актуальной сама по себе. Отсутствие единой системы формализации информационных ресурсов, участвующих в обучении, зачастую приводит к дублированию исследовательских работ, не способствует принятию правильных решений.

Проблемы и перспективы развития информационного обеспечения участников процесса обучения рассматриваются в исследованиях А. Ахмет-зянова [5], О. Ашхотова и др. [7], Д.И. Блюменау [11], В.И. Богословского и др. [12], М.Б. Булгакова [15], Ю.П. Горохова и др. [23], И.А. Земскова [39], В.А. Извозчикова и др. [40; 41], С.Д. Каракозова [44], B.C. Лобанова и др. [54], В. Логачева [58], В.М. Макарова [60], В.В.Максимова и др. [61], А.А. Малых [62], И.С. Мелюхина [66], С. Моисеевой [69], А.И. Ракитова [83], А. Тихонова [93], Г. Чикина [106], Б. Яковлева [111], С.А. Яковлева [112] и в Концепции информатизации сферы образования Российской Федерации [47].

Таким образом, можно сделать вывод, что, несмотря на разнообразие исследований, рассматривающих математическую составляющую баз данных, использование алгебр Халмоша для построения БД ИПС является новым, перспективным направлением, требующим дальнейшего развития. Отсутствие эффективного математического аппарата для моделирования ИПС, основанного на четких алгебраических выводах и универсальных конструкциях, позволяющих согласовывать структуры формируемых пользователями запросов и хранимых данных, приводит к построению малоэффективных систем с ограниченными возможностями информационного поиска.

Цель исследования: разработать метод создания математических моделей ИПС, основанный на универсальной алгебре и алгебраической логике, который позволяет повысить эффективность систем за счет согласованности структур хранимых и запрашиваемых данных.

Объект исследования: информационно-поисковая система, обеспечивающая участников процесса обучения в вузе необходимыми информационными ресурсами. Прикладные исследования проводились на примере ИПС, используемых в учебном процессе Алтайского госуниверситета.

Предмет исследования: математическое моделирование информационно-поисковых систем с согласованными структурами хранимых и запрашиваемых данных.

Задачи исследования:

1) анализ существующих методов и технологий построения ИПС применительно к информационному обеспечению участников процесса обучения в вузе;

2) разработка метода создания математических моделей ИПС, основанного на алгебрах Халмоша;

3) построение математической модели ИПС с согласованными структурами хранимых и запрашиваемых данных на основе разработанного метода;

4) апробация разработанного метода на реальных данных.

Методы исследования. Методологической основой диссертационной работы является системный анализ, математическое моделирование, синтез, сравнение, конкретизация и обобщение. В диссертационной работе использовались методы функционального и кластерного анализа, алгебраические методы исчисления высказываний (методы булевых алгебр) и исчисления предикатов 1-ой ступени (методы полиадических алгебр Халмоша), выборочный метод статистического анализа данных. Научная новизна исследования

1. Разработан метод создания математических моделей ИПС, позволяющий повысить эффективность систем за счет согласованности структур хранимых и запрашиваемых данных. Построение моделей на основе разработанного метода закладывает в системе возможности совместного использования документального и фактографического видов обслуживания, физического и логического видов поиска.

2. Построены следующие модели:

• модель тематических разделов где П - комплект множеств, описывающий свойства тематических разделов; Ч7 - множество отношений; F - множество состояний ИПС, / е F.

• модель поисковых образов ресурсов (Д,Ф,/), где Д - комплект множеств, характеризующий поисковые образы ресурсов (сами ресурсы); Ф - множество отношений.

А /V

3. Доказано, что композиция отображений /(g)°f:W-*M(D) двух алгебр Халмоша является гомоморфизмом, где W - алгебра запросов для модели тематических разделов, M(D) - алгебра ответов на запросы для модели поисковых образов ресурсов. Согласованность алгебры запросов и алгебры ответов позволяет любой ответ на запрос выражать на языке запросов.

4. Теоретически обосновано применение гипотезы Я-компактности для представления множества информационных ресурсов в признаковом пространстве ключевых слов. Разработан новый подход построения тематических разделов, основанный на применении итеративного метода кластеризации, который позволяет формировать «непохожие» тематические разделы с «близкими» по содержанию информационными ресурсами.

5. Обоснована необходимость использования промежуточных звеньев (тематических разделов, поисковых образов ресурсов) в классической технологии информационного обслуживания («запрос-ответ») применительно к предметной области исследования.

Практическая значимость исследования

1. Применение разработанного метода к моделированию ИПС позволяет любой пользовательский запрос представлять в нормальной канонической форме, что соответствует логической оптимизации множества запросов.

2. Предлагаемая модификация алгоритма кластеризации KRAB позволяет разбить множество информационных ресурсов на разделы по их смысловому содержанию, не используя числовой матрицы данных, и упеличить скорость сходимости алгоритма за счет разрыва нескольких «напряженных» ребер за один шаг кластеризации.

3. Предлагаемый способ формализации ресурсов информационного пространства вуза позволяет предоставлять доступ к ресурсам с различными свойствами (структурированным, неструктурированным, слабоструктурированным) из различных информационных источников и на различных носителях.

Основные положения, выносимые на защиту

1. Предлагаемый метод математического моделирования информационно-поисковой системы, основанный на алгебрах Халмоша, позволяет проектировать модели систем, для которых согласованы структуры хранимых и запрашиваемых данных.

2. Математическая модель ИПС обеспечения участников процесса обучения в вузе может быть представлена двумя алгебраическими системами (моделями): моделью тематических разделов (77,^,/) и моделью поисковых образов ресурсов (Д,Ф,/).

3. Предлагаемый способ кластеризации множества информационных ресурсов на основе алгоритма KRAB, позволяет формировать тематические разделы с близкими по смысловому содержанию ресурсами.

Апробация и внедрение в практику результатов исследования

Основные положения и отдельные результаты исследования докладывались и обсуждались на научно-практической конференции «Наука - городу Барнаулу» (Барнаул, 1999), международной научно-технической конференции «Информационные технологии и системы в образовании, науке и бизнесе» (Пенза, 1999), Всероссийской научной конференции «Организационно-управленческие инновации в системе педагогического образования» (Барнаул, 1999), Всероссийской научно-практической конференции «Информационные технологии в экономике, науке и образовании» (Бийск, 2000), краевой конференции «Математическое образование на Алтае» (Барнаул, 2001), Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2002), третьей, четвертой, пятой и шестой краевых конференциях по математике (Барнаул, 2000, 2001, 2002, 2003).

На основе построенной модели ИПС разработана и используется прикладная программа с web-интерфейсом для библиотечного электронного каталога Алтайского госуниверситета, реализующая модифицированный алгоритм KRAB, и информационно-справочный банк данных детских конкурсных работ регионального центра Федерации Интернет Образования.

Публикации. По теме диссертации опубликовано 14 печатных работ.

Во введении обосновывается актуальность исследования, определяются цель, объект, предмет, задачи, этапы и методы исследования, раскрывается научная новизна, теоретическая и практическая значимость работы, формулируются положения, выносимые на защиту.

В первой главе описывается предмет исследования. Приводится анализ возможных подходов к построению информационной системы обеспечения участников процесса обучения в вузе необходимыми информационными ресурсами. Рассматриваются особенности информационного обеспечения участников процесса обучения на следующем множестве факторов: необходимые для участников процесса обучения режимы информационного обслуживания, целевые функции, видовая структура информационного обслуживания. Кроме этого определяется математическая теория для формализации процессов ИПС обеспечения участников процесса обучения в вузе необходимыми информационными ресурсами.

Вторая глава посвящена разработке метода создания математических моделей ИПС, с возможностью логически оптимизировать пользовательские запросы, представляя их в конъюнктивной нормальной форме, и формировать ответы на запросы по структуре запроса. Кроме этого решается задача кластерного анализа для разбиения множества информационных ресурсов на тематические разделы согласно их информационному содержанию. Формируется критерий качества кластеризации.

В третьей главе строится математическая модель ИПС на основе алгебр Халмоша. Математическая модель ИПС представлена двумя алгебраическими системами: моделью тематических разделов, моделью поисковых образов ресурсов. Формируется математический аппарат для решения задачи построения ответа на запрос, согласно которому для каждого тематического раздела может быть определена степень соответствия этого раздела пользовательскому запросу. Кроме этого рассматриваются вопросы практической реализации алгоритма кластеризации KRAB на реальной БД электронного каталога библиотеки АГУ.

В заключении изложены основные теоретические выводы исследования, подведены итоги построения метода создания модели ИПС обеспечения участников процесса обучения в вузе необходимыми ресурсами.

Заключение диссертация на тему "Применение теории алгебр Халмоша для математического моделирования информационно-поисковых систем"

Основные выводы и результаты работы следующие:

1. Разработан метод создания математических моделей ИПС, основанный на использовании алгебр Халмоша, позволяющий проектировать модели систем с согласованными структурами хранимых и запрашивае мых данных. Любой запрос к данным ИПС может быть представлен в нормальной канонической форме, что соответствует логической оптимизации запросов.

2. Обоснована необходимость использования промежуточных звеньев (информационные ресурсы, поисковые образы ресурсов) в классической технологии информационного обслуживания («запрос-ответ») применительно к предметной области исследования.

3. Построены алгебры запросов W, U и алгебры ответов М(Р), M(D) для модели тематических разделов (Я,^,/) и модели информационных ресурсов (Д,Ф,/). Доказано, что построенное отображение между двумя алгебрами одинаковой структуры является гомоморфизмом, где /(g) : Р —» М(£>) отображает множество тематических разделов на множество ресурсов (поисковых образов ресурсов).

4. Проведен анализ методов кластеризации на предмет их использования к решению задачи разбиения множества информационных ресурсов, применяемых в процессе обучения, на тематические разделы. Теоретически обосновано применение гипотезы Л - компактности для представления множества информационных ресурсов в признаковом пространстве ключевых слов. Определена функция сходства (близости) двух ресурсов. Разработан критерий качества кластеризации информационных ресурсов на тематические разделы. Реализован и апробирован на данных библиотечного электронного каталога АлтГУ алгоритм кластеризации KRAB, разбивающий множество информационных ресурсов на тематические разделы по их смысловому содержанию.

5. Получен сравнительный анализ ИС по типам, режимам, видам обслуживания, способам формирования запросов применительно к информационному обеспечению участников процесса обучения в вузе.

6. Полученные результаты исследования используются в учебном процессе на математическом факультете АлтГУ при обучении студентов специальностей «Математика» и «Прикладная математика».

На основе построенной модели ИПС разработана и используется прикладная программа с web-интерфейсом для библиотечного электронного каталога Алтайского госуниверситета, реализующая модифицированный алгоритм KRAB, и информационно-справочный банк данных детских конкурсных работ регионального центра Федерации Интернет Образования. Получены результаты, подтверждающие справедливость построенной методологии.

Однако, разработанный для процесса обучения метод создания моделей ИПС не раскрывает всех проблем, связанных с информационным обеспечением участников процесса обучения в учебном заведении. Дальнейшей разработки требуют вопросы, связанные с реализацией планового режима информирования. Для функционального аппарата ИПС необходимо разработать подсистему по распространению информации среди участников процесса обучения. Создание такой подсистемы позволит предоставить пользователям композицию возможностей двух режимов информирования: справочного и планового. Кроме этого, необходимо разработать программное, техническое и эргономическое обеспечение ИПС.

ЗАКЛЮЧЕНИЕ

В работе предложен метод создания моделей ИПС, который позволяет повысить эффективность систем за счет согласованности структур хранимых и запрашиваемых данных, а также совместно использовать информационные ресурсы с различными свойствами. Используя разработанный метод, можно создавать аналитические математические модели ИПС с технологией информационного обслуживания «запрос - тематический раздел - поисковый образ - ответ». В результате применения разработанного метода к исследуемой предметной области построена модель информационного обеспечения участников процесса обучения в вузе, представленная алгебраическими автоматами

АкП = (F, W, М(Р)) и АНД = (F, U, M(D)). Множество состояний F рассматривается одновременно как множество состояний автомата; U и W - алгебры запросов; M(D), М{Р) - алгебры ответов на запросы. Разработан и апробирован метод построения тематических разделов с использованием приемов иерархического агломеративных методов аппарата кластерного анализа, записанных в терминах теории графов.

Библиография Половикова, Ольга Николаевна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Алгазин Г.И. Основы математической статистики // Учебно-методическое пособие для студентов факультета социологии АГУ. Барнаул, 2000.

2. Алгазин Г.И. Принципы и модели согласованного выбора уровней информационного взаимодействия в системах с неполной информацией // Известия АГУ. Барнаул: Изд-во Алт. ун-та, 1997. N3.

3. Арменский А.Е. Тензорные методы построения информационных систем. М.: Наука, 1989.

4. Артемьев В. И. Обзор способов и средств построения информационных приложений // Системы управления базами данных. М.: Открытые системы, 1996. № 5.

5. Ахметзянов А. Информационные ресурсы в образовании // Высшее образование в России. М.: Московская Государственная академия печати, 1996. № 2.

6. Ахтырченко К.В., Леонтьев В.В. Распределенные объектные технологии в информационных системах // Системы управления базами данных, 1997. №5

7. Ашхотов О., Здравомыслов М., Ашхотова И. Компьютерные технологии в образовании // Высшее образование в России. М.: Московская Государственная академия печати, 1996. № 3.

8. Большой энциклопедический словарь/ 2-е изд., перераб. и доп. М., «Большая Российская энциклопедия», 1998.

9. Бассараб И.А., Редько В.Н. Базы данных с логико-функциональной точки зрения // Программирование, 1984. № 2. С. 53-67.

10. Биркгоф Г., Барти Т. Современная прикладная алгебра. М.: Мир, 1976.

11. Блюменау Д.И. Информация и информационный сервис. Л: Наука, 1989.

12. Богословский В.И., Извозчиков В.А., Потемкин М.Н. Наука в педагогическом университете: Вопросы методологии, теории и практики. СПб., 2000.

13. Бойко В.В., Савинков В.М. Проектирование баз данных информационных систем. 2-е изд., перераб. и доп. - М.: Финансы и статистика, 1989.

14. Борщев В.Б. Логический подход к описанию реляционных баз данных // Семиотика и информатика. Вып. 16. С. 78-122.

15. Булгаков М.Б., Внотченко С.С., Гридина Е.Г. Принципы формирование каталога интернет-ресурсов Федерального портала «Российское образование» // Труды X конференции Телематика'2003. СПб., 2003. С. 177-179.

16. Бусленко Н.П. Моделирование сложных систем. М.: Наука, 1988.

17. Веников В.А., Веников Г.В. Теория подобия и моделирования. М.: Высшая школа, 1984.

18. Волков А.Е., Кульба В.В., Косяченко С.А. Синтез оптимальных модульных диалоговых систем обработки данных в автоматизированных банковских системах. Тольятти: Международная академия бизнеса и банковского дела, 1996.

19. Гаврилко Б.П., Загоруйко Н.Г. Универсальный алгоритм эмпирического предсказания // Вычислительные системы. Новосибирск, 1973. Вып. 55. С. 134-138.

20. Гайдамакин Н.А. автоматизированные информационные системы, базы и банки данных. М.: Гелиос АРВ, 2002.

21. Гилула М.М. Множественная модель данных в информационных системах. М.: Наука, 1992.

22. Глушков В.М., Летичевский А.А. Теория автоматов и программирование // Первая всесоюзная конференция по программированию. Киев, 1968. С. 3-9.

23. Горохов Ю.П., Жевнов И.И. и др. О главных направлениях и задачах информатизации высшей школы // Высшее образование в России. М.:

24. Московская Государственная академия печати, 1994. № 1.

25. ГОСТ Р 6.30-97 Унифицированная система организационно-распорядительной документации. Требования к оформлению документов. М.: Госстандарт России, 1997.

26. ГОСТ34.003-90. Информационная технология. Комплекс стандартов на автоматизированные системы. Термины и определения. М.: Изд-во1 стандартов, 1991.t 26. Дейт К. Введение в систему баз данных. М: Наука, 1980.I

27. Деревнина А.Ю., Семикин В.А. Об организации данных в Интернет-порталах // Труды X конференции Телематика'2003. СПб., 2003. С. 218-219.

28. Дрибас В.М. Реляционные модели баз данных. Минск: Изд. БГУ, 1982.

29. Дулин С.К., Родин С.Р. Методология проектирования информационныхмоделей на ПЭВМ. М.: Наука, 1990.

30. Дюран Б., Одель П. Кластерный анализ: Пер. с англ. М.: Статистика, 1977.

31. Дюран Б., Оделл П. Кластерный анализ. Пер. с анг. Е.З. Демиденко / Под ред. А.Я. Боярского. Предисловие А.Я. Боярского. М.: Статистика, 1997.

32. Елкина В.Н., Загоруйко Н.Г. Количественные критерии качества таксономии и их использование в процессе принятия решений // Вычислительные системы. Новосибирск, 1969. Вып. 36. С. 29-46.

33. Жаров А.И. Вычислительные сети. Текст лекций. Иваново: Ивановский госуниверситет, 1990.

34. Загоруйко Н.Г. Прикладные методы анализа данных и знаний.

35. Новосибирск: Изд-во Института математики, 1999.

36. Загоруйко Н.Г., Елкина В.Н., Емельянов С.В., Лбов Г.С. Пакет прикладных программ ОТЕКС. М.: Финансы и статистика, 1986.

37. Закон РФ «Об информации, информатизации и защите информации» от2002.1995 г. № 24-ФЗ.

38. Закон РФ «Об участии в международной информационном обмене» от0407.1996 г., № 85-ФЗ.

39. Закон РФ «Об участии в международном информационном обмене» от 04.07.1996 г., № 85-ФЗ.

40. Земсков И.А. Мониторинг информационного состояния единой образовательной информационной среды // Труды X конференции Телематика'2003. СПб., 2003. С. 198-199.

41. Извозчиков В.А., Богословский В.И. Введение в информологию: программа курса. СПб., 2000.

42. Извозчиков В.А., Лаптев В.В., Потемкин М.Н. Концепция педагогики информационного общества // Наука и школа, 1999. N1.

43. Игнатова И.Г. Резонтов К.В. Создание и использование в репозитарии карточек информационных ресурсов на основе стандарта метаданных // Труды X конференции Телематика'2003. Спб., 2003. С. 175-176.

44. Каплунов Д.А., Лисьих И.Г., Ловцкий К.Э. Использование схем данных при проектировании служб порталов // Труды X конференции Телематика'2003. Спб., 2003. С. 164-166.

45. Каракозов С.Д. Принципы построения информационных систем в области управления образованием // Педагог, 1998. №2. С.98-107.

46. Ким Дж.-О., Мьюллер Ч.У., Клекка У.Р. и др. Факторный, дискриминантный и кластерный анализ.: Пер. с англ. М.: Финансы и статистика, 1989.

47. Кокорева Л.В., Малашинин И.И. Проектирование банков данных. М.: Наука, 1984.

48. Концепция информатизации сферы образования Российской Федерации // Проблемы информатизации высшей школы. Бюллетень 3-4 (13-14), 1998.

49. Коровкин С. Д., Левенец И. А., Ратманова И. Д. Решение проблемы комплексного оперативного анализа информации хранилищ данных // СУБД, 1997. № 5-6. С. 47-51.

50. Кречетов Н., Иванов П. Продукты для интеллектуального анализа данных // ComputerWeek-Москва, 1997. № 14-15. С. 32-39.

51. Кривоногов А.И. Некоторые вопросы обоснования комитентах алгоритмов // Классификация и оптимизация в задачах управления. -Свердловск: УНЦ АН СССР, 1981. С 39-51.

52. Крон Г. Исследование сложных систем по частям: (Диакоптика). М.: Наука, 1972.

53. Кузнецов С.Д. Введение в информационные системы // Системы управления базами данных, Издательство «Открытые системы», 1997. № 2.

54. Кузнецов С.Д. Логическая оптимизация запросов в реляционных СУБД // Программирование, 1989. N6. С. 46-59.

55. Кузнецов С.Д. Методы оптимизации выполнения запросов в реляционных СУБД // Итоги науки и техники. Вычислительные науки.-СПб.: ВИНИТИ, 1989. Т.1. С. 76-153.

56. Лбов Г.С. Теория и методы построения решающих функций распознавания образов: Учеб. пособие. Новосибирск: Новосиб. гос. ун-т, 2000.

57. Лелюк В.А. Концептуальное проектирование систем с базами данных. -Харьков: Основа, 1990.

58. Лобанов B.C., Иванников А.Д., Богатырь Б.Н. Концепция информатизации высшего образования в России // Высшее образование в России. М.: Московская Государственная академия печати, 1994. № 1.

59. Логачев В. Система качества для образовательных услуг // Высшее образование в России. М.: Московская Государственная академия печати, 2001. № 1.

60. Мазуров В.Д. Методы комитетов в задачах оптимизации и классификации. М: Наука. Гл. ред. физ.-мат. лит., 1990.

61. Макаров В.М., Макарова Н.В. Синергетический подход к информатизации высшего образования // Высшее образование в России.-М.: Московская Государственная академия печати, 1993. № 3.

62. Максимов В.В., Михайлов С.С., Лыткин С.Д. Информационно-справочная система высшего образования Республики Саха // Труды X конференции Телематика'2003. Спб., 2003. С. 222.

63. Малых А.А., Манцивода А.В. Система «Мета»: Разработка метаописаний образовательных ресурсов // Труды X конференции Телематика'2003. Спб., 2003. С. 169-170.

64. Мартин Дж. Организация баз данных в вычислительных системах. М.: Мир, 1980.

65. Математические модели представления информации и задачи обработки данных / Под ред. Ю.П. Дробышева. Новосибирск: Ротапринт ВЦ СО АН СССР, 1986.

66. Математическое моделирование социальных процессов / Под ред. В.И. Добренькова, М. Матросова, 1998.

67. Мелюхин И.С. Информационное общество: истоки, проблемы, тенденции развития. М.: Изд-во Московского университета, 1999.

68. Моделирование и познание / Под ред. В.А. Штофф Мн., М.: Наука и техника, 1974.

69. Моисеев Н.Н. Математика в социальных науках // Математические методы в социологическом исследовании. М., 1981.

70. Моисеева С. В потоках информации // Высшее образование в России. -М.: Московская Государственная академия печати, 1999. № 3.

71. Овчинников В.Г. Автоматизированные системы информационного обеспечения, 1977.

72. Олле Т.В. Предложения КОДАСИЛ по управлению базами данных. М.: Финансы и статистика, 1981.

73. Паньшин Б.Н., Гриценко В.И. Информационная технология: вопросы развития и применения. Киев: Наукова Думка, 1988.

74. Плотинский Ю.М. Теоретические и эмпирические модели социальных процессов. -М.: Логос, 1998.

75. Плоткин Б.И. Алгебраическая модель базы данных автомата // Латв. мат. ежегодник. - Рига, 1983. Вып. 27. С. 216-232.

76. Плоткин Б.И. Модели и базы данных // Тр. ВЦ АН ГрССР, 1982. Т. 21, Вып.2. С. 50-78.

77. Плоткин Б.И. Универсальная алгебра, алгебраическая логика и базы данных. М.: Наука. Гл. ред. физ.-мат. лит., 1991.

78. Плотников Н.И. Информационная разведка: как создается закрытая информация из открытых источников. Новосибирск: Научно-издательский центр ОИГГМ СО РАН, 1998.

79. Полукеев О., Коваль Д. Моделирование бизнеса и архитектура информационной системы // Системы управления базами данных, 1995. № 4.

80. Пржиялковский В.В. Сложный анализ данных большого объема: новые перспективы компьютеризации // СУБД, 1996. № 4. С. 71-83.

81. Пржиялковский В.В. Модели, базы данных и СУБД в информационных системах // Биосистемы в экстремальных условиях. М.: Вычислительный центр РАН, 1996. С. 34 - 43.

82. Прицкер А. Введение в имитационное моделирование и язык СЛАМП. -М.: Мир, 1987.

83. Раден Н. Данные, данные и только данные // ComputerWeek-Москва, 1996. № 8. С. 28.

84. Ракитов А.И. Наш путь к информационному обществу // Теория и практика общественно-научной информации. -М.:ИНИОН, 1989.

85. Розенберг С.М. О многообразиях алгебр Халмоша // Латв. мат. ежегодник. Рига, 1988. Вып. 32. С. 85-89.

86. Сахаров А.А. Концепция построения и реализации информационных систем, ориентированных на анализ данных // СУБД, 1996. № 4. С. 55-70.

87. Сахаров А.А. Принципы проектирования и использования многомерных баз данных (на примере Oracle Express Server) // СУБД, 1996. № 3. С. 44-59.

88. Советов Б.Я. Информационные технологии. М.: Высш. шк., 1994.

89. Советов Б.Я., Яковлев С.А. Моделирование систем: Учеб. для вузов 3-е изд., переработ, и доп. - М.: Высш. шк., 2001.

90. Советский энциклопедический словарь / Под ред. A.M. Прохорова. М., 1984.

91. Степин B.C. Генезис теоретических моделей науки // Философия. Методология. М.: Наука, 1972.

92. Сцепинский Ю.Е. Программные средства организации данных в информационных системах. М: Наука, 1977.

93. Технология системного моделирования / Под ред. С.В. Емельянова. М.: Машиностроение, 1989.

94. Тихонов А., Лобанов В., Иванников А. Время информатизации // Высшее образование в России. М.: Московская Государственная академия печати, 1996. № 2.

95. Трофимова И.П. Системы обработки и хранения информации: Учеб. для вузов по спец. «Автоматизир. системы обработки информ. и упр.». М.: Высш. Шк., 1989.

96. Ту о Дж. Инструменты для анализа информации на настольных ПК // Computer Week-Москва, 1996. № 38. С 34-35, 46.

97. Туо Дж. Каждому пользователю свое представление данных // Computer Week-Москва, 1996. №38. С. 1,32-33.

98. Ульман Дж. Основы систем баз данных. М.: Финансы и статистика, 1983.

99. Философская энциклопедия / под ред. Ф.В. Константинова. М., 1970.

100. Хаббард Дж. Автоматизированное проектирование баз данных. М.: Мир, 1984.

101. Цаленко М.Ш. Моделирование семантики в базах данных. М.: Наука. Гл. ред. физ-мат. лит., 1989.

102. Цаленко М.Ш. Основные задачи теории баз данных // НТИ, 1983. сер. 2. №3. С 1-7.

103. Цаленко М.Ш. Реляционные модели баз данных // Алгоритмы и организация решения экономических задач, 1977. Вып. 9. С. 18-36.

104. Цикритзис Д., Лоховский Ф. Модели данных. М.: Финансы и статистика, 1985.

105. Чаудхари С. Методы оптимизации запросов в реляционных системах // СУБД, 1998. N3. С. 22-36.

106. Четвериков В.Н., Горбатов В.А. Логическое управление информационными процессами. -М.: Энергоатомиздат, 1984.

107. Чикин Г., Янц С. Обеспечение образовательных программ учебной и научной литературой И Высшее образование в России. М.: Московская Государственная академия печати, 1996. № 3.

108. Шеннон Р. Имитационное моделирование систем. Искусство и наука. -М.: Мир, 1978.

109. Шлеер С., Мейлор С. Объектно-ориентированный анализ: моделирование мира в состояниях. Киев: Диалектика, 1993.

110. Штофф В.А. Моделирование и философия. Москва-Ленинград: Наука, 1966.

111. Яблонский С.В. Введение в дискретную математику. М.: Наука, 1979.

112. Яковлев Б. Образовательное пространство // Высшее образование в России. М.: Московская Государственная академия печати, 1999. № 4.

113. Яковлев С.А. Эволюционные имитационные модели процессов и систем методологическая основа интеллектуальных технологий обучения // Тез. докл. Междунар. конф. «Современные технологии обучения» СПб., 1995.

114. Яновская С.А. Методологические проблемы науки. М.: Мысль, 1972.

115. Ясин Е.Г. Информационные языки и базы данных в планировании. М.: ЦЭМИ, 1980.

116. Codd E.F. Date Models in Database Management // SIGPLAN Notices, 1981.

117. Mood A. M. Introduction to the Theory of Statistics. New York: McGraw-Hill Book Co., 1950.

118. Дискретная математика Электронный ресурс.: сайт факультета КТиИС Сибирского Института Права Экономики и Управления. Режим доступа: http://antisipeu.narod.ru/discretka.htm. - Загл. с экрана.

119. Электронный учебник StatSoft Электронный ресурс.: учебник по математической статистике. Режим доступа: http://www.statsoft.ru/home/textbook/default.htm. - Загл. с экрана.

120. Общая характеристика выборочного метода Электронный ресурс. -Режим доступа: http://www.yartel.ru/stat/qvybor.html. Загл. с экрана.

121. Теоретические основы анализа данных. Выборочный метод Электронный ресурс. Режим доступа:http://www.statsoft.ru/home/portal/dataan/selection/selection.htm. -Загл. с экрана.