автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Тематическое разграничение доступа в информационно-поисковой системе на основе авторубрикации

кандидата технических наук
Баранов, Юрий Александрович
город
Санкт-Петербург
год
2009
специальность ВАК РФ
05.13.19
Диссертация по информатике, вычислительной технике и управлению на тему «Тематическое разграничение доступа в информационно-поисковой системе на основе авторубрикации»

Автореферат диссертации по теме "Тематическое разграничение доступа в информационно-поисковой системе на основе авторубрикации"

на праваХ^укописи

Баранов Юрий Александрович

ТЕМАТИЧЕСКОЕ РАЗГРАНИЧЕНИЕ ДОСТУПА В ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЕ НА ОСНОВЕ АВТОРУБРИКАЦИИ

Специальность 05 Л 3.19 Методы и системы защиты информации, информационная безопасность

8 0К1 2009

Автореферат диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 2009 год

003479019

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Санкт-Петербургский государственный политехнический университет», на кафедре «Информационная безопасность компьютерных систем».

Научный руководитель:

доктор технических наук, профессор Официальные оппоненты: доктор технических наук, профессор кандидат технических наук, доцент Ведущая организация:

Зегжда Дмитрий Петрович

Хомоненко Анатолий Дмитриевич Сычёв Артём Михайлович

ЗАО «МВП Свемел», г. Москва.

Защита состоится « 22» октября 2009г. в 2-L часов на заседании диссертационного совета Д212.229.27 при ГОУ ВПО «Санкт-Петербургский государственный политехнический университет» (по адресу 195251, Санкт-Петербург, ул.Политехническая, д.29/1 ауд. 175 главного здания.)

С диссертационной работой можно ознакомиться в Фундаментальной библиотеке ГОУ ВПО «Санкт-Петербургский государственный политехнический университет».

Автореферат разослан « сентября 2009г.

Общая характеристика работы

Актуальность. Существующие методы и средства управления доступом с использованием различных моделей политик безопасности весьма разнообразны, но все они основаны на присвоении объектам контроля доступа некоторых меток безопасности или атрибутов. Назначение данных меток и атрибутов представляет собой отдельную задачу, которая в настоящее время решается без технических средств, а исключительно организационными мерами. Однако пользователи заинтересованы в управлении доступом к информации представленной в документах, базах данных и т.д. на основе ее содержания. Для достижения данной цели существует тематическая политика доступа, которая имеет ограниченное распространение, прежде всего потому, что её реализация требует трудоёмкой предварительной работы по разбиению информации по рубрикам, а так же из-за отсутствия доказательных автоматизированных методов разделения контролируемой информации по тематическим классам.

Данная работа продолжает исследования как отечественных ученых: Гайдамакин Н.А, Поспелов Б.А., Девянин П.Н., Арапов М. В., Пиотровский Р. Г., так и зарубежных: Н. Кресси, Р. Рида, Д. Мак-Лин, Р. Сандху, Д. Клиффорд, Дж. Кэрри и других. Работа опирается на результаты этих исследований и развивает их отдельные положения применительно к задаче тематического управления доступом с автоматическим разделением информации по заданным темам.

Применение политики тематического разграничения доступа целесообразно для контроля доступной пользователю информации на предмет отнесения ее к сведениям, доступ к которым нежелателен к той или иной категории пользователей и при создании объединённых систем баз данных, используемых пользователями с различными полномочиями относительно семантического содержания. Особенно это актуально в отношении систем контроля доступа в сети Интернет, что востребовано, например, в образовательных учреждениях. Отличительной особенностью тематического управления доступом является необходимость

категорирования информации, что затрудняет реализацию подобных систем и требует разработки новых подходов. Однако, при условии автоматизации эффективного разбиения информации на классы, системы реализующие политику тематического разграничения доступа могут работать с неограниченным множеством объектов доступа (текстов).

Актуальность разработки подхода к автоматическому разбиению информации на тематические классы, также подчеркивается возможностью его использования в аналитических и информационных системах.

Целью диссертационной работы является разработка подхода к созданию систем тематического управления доступом в справочных и информационно-поисковых системах на основе автоматического отнесения текстов к заданным тематическим рубрикам с использованием статистических критериев.

Для достижения этой цели необходимо решить следующие задачи:

1. Предложить и обосновать подход к реализации систем тематического управления доступом, основанный на автоматической рубрикации текстов.

2. Разработать модель текста, позволяющую определить его принадлежность к тематическим рубрикам в автоматизированном режиме.

3. Разработать и обосновать критерий принадлежности текста к заданной тематической рубрике для использования его в тематическом разграничении доступа и исследовать оценку его достоверности при различных параметрах функционирования.

4. Предложить методику тематического управления доступом на основе автоматической рубрикации текстов.

5. Разработать архитектуру системы тематического управления доступом на основе предложенного подхода.

Методы исследования. Решение сформулированных задач проводилось с помощью аппарата теории вероятностей и математической статистики, теории математической лингвистики, теории систем и основ теории защиты

4

информации. Для решения сформулированных задач применялся анализ подходов к реализации систем, осуществляющих тематическое управление доступом, изучение современных алгоритмов разделения текстов.

Научная новизна диссертационной работы состоит в следующем:

1. Сформулирован подход к построению систем тематического управления доступом на основе автоматического разделения текстов по тематическим рубрикам с использованием статистических критериев.

2. Предложена и обоснована оригинальная модель текстовых данных, позволяющая разработать критерий отнесения текста к тематическим рубрикам.

3. Впервые предложен и математически обоснован критерий автоматического отнесения текста к заданным тематическим рубрикам на основе анализа распределения цепочек символов.

4. Разработана методика управления доступом по тематическому признаку, содержащая рекомендации по выбору параметров входных данных (объёмов текстов, количества рубрик, естественных языков), а также параметров подхода к авторубрикации.

5. Разработана архитектура системы тематического управления доступом на основе предложенного подхода.

Практическая ценность работы состоит в том, что её результаты позволяют:

1. Контролировать доступ к информации, полученной из открытых и общедоступных источников, (например, Интернет), исходя из ее тематического направления, для различных категорий пользователей в зависимости от различных факторов (например, возрастные ограничения).

2. Реализовать систему тематического разграничения доступа в архивных и библиотечных системах, с автоматическим разбиением добавляемой в них информации по тематическим рубрикам.

Практическая ценность и новизна работы подтверждаются актами об использовании: от Учреждения Российской академии наук ИЛИ РАН (результаты применены при реализации подсистемы назначения полномочий

5

сотрудников ведомственной компьютерной сети) и от ЗАО «МВП Свемел» (разработанная методика применена при создании системы документооборота).

Апробация работы. Основные теоретические и практические результаты работы обсуждались на XVII и XVIII общероссийских научно-технических конференциях «Методы и технические средства обеспечения безопасности информации» (2008,2009 Санкт-Петербург).

Публикации. По теме диссертации опубликовано 9 работ, в их числе 6 научных статей, из них в изданиях, входящих в перечень утвержденных ВАК РФ - 6, и 3 доклада на конференциях.

Основные положения, выносимые на защиту:

• Подход к тематическому разграничению доступа с использованием автоматического разделения информации по тематическим рубрикам.

• Модель текстовых данных, основанная на характеристиках распределения частот появления цепочек символов постоянной длины.

• Статистический критерий принадлежности текстовых данных к тематическим рубрикам в системах управления доступом на основе анализа распределения цепочек символов.

• Методика тематического разграничения доступа, основанная на статистическом подходе к авторубрикации текстов.

• Архитектура системы тематического управления доступом в информационно-поисковых системах, при обработке информации из общедоступного источника.

Структура работы. Диссертация состоит из введения, четырех глав, заключения и списка литературы из 63 наименований.

Содержание работы.

Первая глава содержит описание задачи разграничения доступа в ИПС к документальным текстовым сведениям ограниченного распространения по их смысловому наполнению. Задача заключается в обеспечении контроля доступа к информации, поступающей из источника документов, в соответствии с правилами доступа субъектов к тематическим рубрикам. Определение тематики поступающих документов происходит в автоматическом режиме по заранее сформированному перечню рубрик.

Математическая модель тематического разграничения доступа: S ДО) = {ThJi2 ,...,Tim je Т0 : V^ е Тd0Cm(S).

Субъект S - пользователь, объект О - текст в некотором преставлении (.html, .doc, .txt, и т. д.) на естественном языке, Т^ -множество тематик классификатора, f{0) - функция от О, относящая текст к заданным тематикам (результат - одна или несколько тематик), Тдост ~ подмножество тематик из Тм в таблице разграничения, помеченных для S как доступные. Основой политики тематического разграничения доступа является процедура f - классификации объектов доступа по тематическому признаку.

Предложенный подход к тематическому разграничению доступа заключается в уточнении процедуры f в виде авторубрикации текстов -автоматического, определения тематики (рубрики) поступающего текста.

Определение правил доступа при этом производится в терминах конечного пользователя: например, запретить доступ пользователя «Школьник» к документам, принадлежащим к рубрике «Психотропные вещества».

Обзор существующих подходов к авторубрикации текстов позволяет выделить три различных класса: статистический, нейросетевой и лингвистический. Предложенный статистический подход к авторубрикации текстов имеет положительное отличие от подходов других классов в виде сформированной и обоснованной теоретической базы, простоты и времени

обучения (автоматическое, на примерах). Подход основан на разбиении текстов на цепочки постоянной длины s (s-цепочки) и подсчете частот появления. Разбиение осуществляется сдвигом окна длиной s символов по тексту на один символ. При проверке принадлежности текста к рубрике, учитываются только старшие s-цепочки, то есть те s-цепочки, количество появлений которых в тексте больше некоторого целого vmin. Данный отсев улучшает достоверность работы авторубрикатора, поскольку отбрасывает редкие, неспецифичные рубрике s-цепочки, а также ошибочно распознанные символы. При поступлении текст проходит обработку: символы приводятся к единому формату, убираются лишние или служебные символы и слова. Подход позволяет обрабатывать различные представления текстов (html, doc, txt, rtf, pdf, и т. д.).

Рубрикация поступающего текста построена на вычислении близости распределения вероятностей его старших s-цепочек к распределению этих же s-цепочек в обучающем массиве рубрики. Тексты в рамках подхода моделируются параметрами полиномиальной схемы (вектором вероятностей появления старших s-цепочек и объёмом текста), а рубрика - эталонным для нее распределением вероятностей появления s-цепочек и объёмом обучающего массива. Обучение происходит автоматически на примерах из обучающей выборки текстов. Предложенная модель является основой для построения критерия принадлежности анализируемого текста к заданным тематикам.

Вторая глава содержит результаты исследований, касающихся теоретического обоснования предложенного подхода к созданию систем тематического управления доступом.

Применение полиномиальных схем возможно только при условии независимости появления старших s-цепочек в тексте, для чего последние моделируются независимой случайной величиной. С целью доказательства их независимости разработан и обоснован критерий, основанный на статистике степени рассеивания, введенной Н. Кресси и Р. Ридом и зависящей от частот парного исхода случайной величины - vd ■, для текста

объёма п символов и количества старших Б-цепочек - Л^. Статистика (функция от наблюдений) имеет вид:

/ \_1 I? п V 1

где Л Ф 0,-1 - действительный параметр чувствительности статистики, а ЛГ, ЛГ,

= у , = К^ у. При разработке критерия независимости для ' <¿=1

гипотез независимых случайных величин (Н0) и зависимых случайных величин (//]) доказываются теоремы о сходимости к нормальному закону величины 1п (Л).

ЛГ, Л',

Приняты следующие обозначения: = р^^ , р= .

7=1 ' ¿=1

Теорема 1. Пусть для вероятностей р^ ^ - появления пары э-цепочек с номерами б и j при п -> со Зс^ : 0 < ^ < р^^ < 1, и удовлетворяют равенствам Ра,] = Р<1+Р+]> 7 = (гипотеза Я0), тогда /„(Л.)

имеет при л —> оо асимптотическое распределение хи-квадрат с (Л^ — I)2 степенями свободы.

Для оценки математического ожидания и дисперсии /„(Я) доказана следующая теорема.

Теорема 2. Если : 0 < < < 1 при п оо, и ^ Ф ра+р+]

при каких либо с/,у = (то есть принята гипотеза Нх), тогда

распределение 1п (Л) обладает следующими свойствами:

• отличается от распределения при гипотезе Н0, и среднее в этом случае превосходит среднее в гипотезе Н0 на величину пропорциональную п;

• при условии центрирования и нормировки сходится к нормальному закону.

В результате предложен критерий для определения независимости Л^

Экспериментально установлено, что появление определенного числа старших б-цепочек можно считать независимым на некотором расстоянии друг от друга. Например, 20 старших 3-цепочек появляются независимо друг от друга на расстоянии 17 символов, при условии большого объёма текста.

Использование полиномиальных схем для моделирования текста позволяет использовать статистику степени рассеивания в качестве меры близости текстов, представленную в виде:

где = - номера старших 8-цепочек, Рр ^, ^ - оценки

вероятностей появления ]-ой э-цепочки в обучающем массиве рубрики, принадлежность к которой проверяется, и в рубрицируемом тексте.

Теоретическое обоснование данной статистики в качестве меры близости текстов построено на доказанной сходимости предельного распределения /(Л) к нормальному закону при различных условиях отношений векторов вероятностей появления в-цепочек, и при растущем суммарном объёме обучающего массива и анализируемого текста. В одном случае (векторы вероятностей не обладают близостью), распределение, соответствующим образом центрированное и нормированное, сходится к нормальному закону. В другом (векторы вероятностей близки друг к другу) -предельным распределением является нецентральный хи-квадрат.

Данные рассуждения обосновывают следующее свойство меры: значение 1(Я) будет отклоняться от некоторого среднего значения, если текст не соответствует по смыслу рубрике и, наоборот, значения меры будут в области этого среднего, когда тексты соответствует направлению рубрики.

2

старших Б-цепочек, описываемый неравенством: -1) <3(Л^ -1).

Приведенный теоретический результат экспериментально подтвержден исследованиями на текстах информационных агентств для двух языков: русского и английского.

Третья глава посвящена разработке критерия принадлежности текста к обучающему массиву, описанию методики тематического разграничения доступа на основе предложенного подхода и описанию теоретических оценок работоспособности системы.

Статистический критерий принадлежности текста базируется на подсчете величин характеризующих рубрику: Е1(Л) математического ожидания меры близости текстов той же тематики что и рубрика и 1)/(Я) среднего отклонения меры:

где ¿ = 1 ..г, - номера текстов из обучающей выборки рубрики, а 1Х(Л) -значение меры близости текста с номером t относительно обучающей выборки рубрики.

Определение принадлежности поступающего текста к рубрике

где К - экспериментально устанавливаемая граница критерия, определенная в границах от 2.5 до 3.5. Данное неравенство обосновано в силу доказанной во второй главе асимптотической нормальности распределения величины Ь(Л) со средним 0 и дисперсией 1. Если тексту приписано несколько тематик, приоритетность определяется в порядке увеличения меры близости.

Критерий смысловой принадлежности текстов не обеспечивает абсолютную выполнимость тематического разграничения доступа (ошибка первого рода) или от возможности запрета доступа к разрешенным объектам (ошибка второго рода), поэтому требуется оценка достоверности критерия относительно различных параметров функционирования. Авторубриктор предназначен для решения двух типов задач: обнаружения «чужих» текстов, и определение рубрики «своих» текстов. «Чужими» текстами называются

производится по формуле: \Ь(Л)\ < К, Ь(Л) = • ^_0/(Я)

О ЩЛ) = О

тексты, не принадлежащие ни одной из рубрик рубрикатора, а «своими» -тексты, которые по смысловой направленности похожи хотя бы на одну из рубрик рубрикатора. Тогда вводятся оценки: Рсв - вероятность правильного распознавания «своих» текстов, Рчуж — вероятность правильного

определения «чужих» текстов.

Величины Рсв и Рчуж представляют самостоятельный интерес как,

характеризующие возможности контроля по допуску (или запрету доступа), к разрешенным (или запрещенным) документам, поскольку отвечают на вопрос о вероятностях ошибки первого и второго рода и имеют одинаковую важность при описании работы тематического разграничения доступа.

Предложена методика тематического разграничения доступа, основанная на авторубрикации. Объектами доступа являются документы на русском или английском языках. Начальная настройка авторубрикатора заключается в установке набора оптимальных значений внутренних параметров, полученных в ходе экспериментальных исследований. Порядок действий при работе с системой тематического разграничения доступа.

1. Создать рубрикатор с количеством рубрик достаточным для достижения необходимых оценок функционирования, отражающий тематические направления, по которым будет вестись контроль доступа.

2. Набрать для рубрикатора обучающую выборку текстов. Вероятность ошибок принимается исходя из результатов экспериментальных исследований авторубрикатора относительно объёма обучающего массива для каждой рубрики, который должен превышать определенного значения.

3. Для каждого пользователя внести записи в таблицу разграничения доступа с тематиками закрытыми для доступа.

4. Документы, полученные в результате поискового запроса пользователя в ИПС, направляются в авторубрикатор, для определения тематической принадлежности.

5. Пары «Документ-Набор присвоенных тематик» поступают для проверки доступа. В результате, исходя из таблицы доступа к тематикам, пользователю выдаются только те документы, тематики которых разрешены.

Четвертая глава посвящена экспериментальным исследованиям оценки вероятностей ошибок первого рода (запрет доступа к документам

допустимых тематик) и второго рода (допуск к документам запрещенных тематик) в работе системы. Проведено сравнение разработанного подхода к авторубрикации текстов с известным аналогом. Предложена архитектура системы тематического разграничения доступа.

Экспериментальные исследования производились с целью отыскания наилучших, с точки зрения наиболее высоких оценок Гсв и Рчуж, значений

внутренних параметров подхода к авторубрикации:

• Я - чувствительность статистики;

• К - граница критерия принадлежности текста к рубрике;

к списку старших; • 5 - длина Б-цепочек в символах. В результате исследования установлены значения, позволяющие обеспечить минимизацию ошибок перового и второго рода:

Объём_рубрицируемого _ текста/

5=3, Д = 0.3, £=2.5, =

5000

Вторая серия экспериментальных исследований определяет возможности функционирования тематического разграничения доступа в зависимости от различных входных данных: естественный язык текстов, суммарный объём обучающих массивов текстов для рубрики, объём

обрабатываемых текстов, количество рубрик рубрикатора. %._

Оценки Рсе и Рчуж характеризуют вероятности ошибок первого рода

2500 5000 10000 25000 (1 - Т7^) и второго рода (\-Гчуж).

объём входного текста (симв.)

Рисунок 1. Значения оценок достоверности работы авторубрикатора для различных объёмов входных текстов при объёмах обучающих массивов

250000 символов.

Экспериментальными исследованиями установлено, что при количестве рубрик рубрикатора до 80, подход сохраняет высокие оценки достоверности - более 0.9. Также установлено, что для документов русского и английского языков авторубрикатор работает с одинаковой достоверностью. При объёмах обучающих массивов более 250000, вероятность правильной работы тематического разграничения доступа стремится к 1, при увеличении объёмов анализируемых текстов

Произведено сравнение разработанного подхода к авторубрикации с аналогом, реализованным в аналитической системе «Астарта» (20 рубрик).

Объём анализируемого текста

3000 5000 10000

Подсистема авторубрикации в ИАС «Астарта» Рчуж = Рсв= 0.83 .Р =0 93 -1 чуж ^св = 0.90 F =0 94 * чуж Рсв =0.92

Разработанная подсистема авторубрикации рчуж= 0.79 ^=0.77 Рчуж= 0.90 ^=0.94 0.98 Рсв=0.97

Таблица 1. Сравнение достоверности работы подходов к авторубрикации текстов, основанных на статистических характеристиках текстов. Разработанный подход позволил предложить архитектуру системы тематического разграничения доступа в ИПС. 1

О

Система авторизации

Пользователь

Запрос

Поисковая

6 ___ Результат Г°

Система авторубрикации Рубрикатор

Общедоступный источник документов

<3

Обучение

Обучающий массив текстов

Система проверки доступа к рубрикам

Таблица доступа к тематикам

<3

Заполнение

О

Администратор безопасности

Рисунок 2. Архитектура системы тематического разграничения доступа.

В результате диссертационных исследований:

1. Проанализированы существующие подходы к реализации систем тематического управления доступом и к системам авторубрикации текстов.

2. Предложен и обоснован оригинальный подход к авторубрикации текстов для использования в системе тематического разграничения доступа. В рамках теоретического обоснования подхода:

- Предложена статистическая модель текста, основанная на разбиении текста на цепочки символов текста.

- Введена мера близости текстов, основанная на вычислении статистики степени рассеивания.

- Построен статистический критерий определения принадлежности текста к заданной тематической рубрике.

3. Проведены оценки достоверности авторубрикации для различных параметров функционирования.

4. Разработана методика тематического управления доступом на основе автоматической рубрикации текстов.

5. Разработана архитектура системы тематического управления доступом на основе предложенного подхода.

Основные результаты диссертации изложены в 9 печатных работах:

1. Баранов Ю.А., Баранов А.П. Аппроксимация моментов произвольных целых порядков обобщением факториальными степенями. // Дискретная математика. - М., 2005. - Т. 17, вып. 1. -С. 50-67 (из перечня ВАК РФ)

2. Баранов Ю.А., Баранов А.П. Критерий степени рассеивания в задаче однородности выборок при большом числе исходов и испытаний. // Дискретная математика. - М., 2005. - Т. 17, вып. 2. -С. 19-48 (из перечня ВАК РФ)

3. Баранов Ю.А., Баранов А.П. Распределение степени рассеивания с растущим числом исходов в критерии принадлежности. // Труды по дискретной математике. - М., 2005. - Т.8. - С. 34-51 (из перечня ВАК РФ)

4. Баранов Ю.А. Авторубрикация текстов на основе неоднородных полиномиальных схем. // Проблемы информационной безопасности. Компьютерные системы. - СПб., 2008. - № 4. - С. 3753 (из перечня ВАК РФ)

5. Баранов Ю.А. Разработка тематической политики доступа в информационно-поисковых системах на основе авторубрикации текстов. // Проблемы информационной безопасности. Компьютерные системы. - СПб., 2009. - № 1. - С. 43-48 (из перечня ВАК РФ)

6. Баранов Ю.А. Статистическая независимость в моделях текстов, обрабатываемых в АИС. II Проблемы информационной безопасности. Компьютерные системы. - СПб., 2008. - № 1. - С. 104-111 (из перечня ВАК РФ)

7. Баранов Ю.А. Статистическая независимость в моделях текстов, обрабатываемых в АИС // Материалы XVII общероссийской научно-технической конференции «Методы и технические средства обеспечения безопасности информации». - СПб., 2008. с. 8

8. Баранов Ю.А. Неоднородные полиномиальные схемы и их применение для авторубрикации // Материалы XVII общероссийской научно-технической конференции «Методы и технические средства обеспечения безопасности информации». - СПб., 2008. с. 9

9. Баранов Ю.А. Использование статистического метода авторубрикации текстов при реализации механизма тематического разграничения доступа к текстовым документам // Материалы XVIII общероссийской научно-технической конференции «Методы и технические средства обеспечения безопасности информации». - СПб., 2009. с. 7

Подписано в печать: 24.09.2009

Заказ № 2585 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Оглавление автор диссертации — кандидата технических наук Баранов, Юрий Александрович

ВВЕДЕНИЕ.

ГЛАВА 1. ПРОБЛЕМА РЕАЛИЗАЦИИ ТЕМАТИЧЕСКОГО РАЗГРАНИЧЕНИЯ ДОСТУПА В ИПС.

1.1. отличие тематического разграничения доступа от других методов, регулирующих доступ. существующие подходы к тематическому разграничению доступа.

1.2. анализ существующих подходов к авторубрикации текстов.

1.3. авторубрикация на основе статистических критериев.

1.4. моделирование связи тематики и статистических характеристик текстов

1.5. выводы.

ГЛАВА 2. ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ ПОДХОДА К АВТОРУБРИКАЦИИ, ИСПОЛЬЗУЕМОГО В ТЕМАТИЧЕСКОМ РАЗГРАНИЧЕНИИ ДОСТУПА.

2.1. моделирование s-цепочек символов в тексте последовательностью независимых случайных величин.

2.1.1. использование статистики степени рассеивания для построения критерия независимости.

2.1.2. теоретическое обоснование критерия независимости появления s-цепочек в тексте.б

2.1.3. экспериментальные исследования независимости s-цепочек в тексте.

2.2. мера тематической близости текстов, моделируемых параметрами полиномиальных схем.

2.2.1. теоретическое обоснование области применения меры близости для различных входных данных.

2.3. выводы.

ГЛАВА 3. РАЗГРАНИЧЕНИЕ ДОСТУПА В ИПС НА ОСНОВЕ АВТОРУБРИКАЦИИ.

3.1. использование статистической меры близости текстов в подходе к тематическому разграничению доступа.

3.1.1. статистический критерий принадлежности текста к заданной области знаний.

3.1.2. методика тематического разграничения доступа в ипс.

3.2. теоретические оценки достоверности разграничения доступа.

3.3. выводы.

ГЛАВА 4. РАЗРАБОТКА И РЕАЛИЗАЦИЯ СИСТЕМЫ ТЕМАТИЧЕСКОГО РАЗГРАНИЧЕНИЯ ДОСТУПА.

4.1. экспериментальная оценка работы подхода к тематическому разграничению доступа на основе авторубрикации.

4.1.1. измерение оценок достоверности подхода к авторубрикации текстов относительно внутренних параметров.

4.1.2. измерение оценок работы подхода к тематическому разграничению доступа относительно входных данных.

4.1.3. сравнение описываемого подхода к авторубрикации с существующими аналогами.

4.2. функционирование тематического разграничения доступа в ипс.

4.2.1. архитектура системы тематического разграничения доступа в ипс.

4.3. применение разработанного подхода к авторубрикации для других задач

4.4. выводы.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Баранов, Юрий Александрович

Существующие методы и средства управления доступом с использованием различных моделей политик безопасности весьма разнообразны, но все они основаны на присвоении объектам контроля доступа некоторых меток безопасности или атрибутов. Назначение данных меток и атрибутов представляет собой отдельную задачу, которая в настоящее время решается без технических средств, а исключительно организационными мерами. Вместе с тем в значительном количестве случаев пользователь заинтересован в управлении доступом исходя из содержания текстовой информации, представленной в документах [60], базах данных[46] и т.д.

Подобная модель политики безопасности называется тематической политикой доступа и имеет ограниченное распространение, прежде всего потому, что её реализация требует трудоёмкой предварительной работы по разбиению исходной информации по рубрикам, которая, как правило, осуществляется экспертами с применением различных средств, не обеспечивающих эффективную автоматизацию разделения текстов на тематические классы.

Данная работа продолжает исследования как отечественных ученых: Гайдамакин Н.А, Поспелов Б.А., Девянин П.Н., Арапов М. В., Пиотровский Р. Г., так и зарубежных: Н. Кресси, Р. Рида, Д. Мак-Лин, Р. Сандху, Д. Клиффорд, Дж. Кэрри и других. Работа опирается на результаты этих исследований и развивает их отдельные положения применительно к задаче тематического управления доступом с автоматическим разделением информации по заданным темам.

Применение политики тематического разграничения доступа целесообразно для контроля доступной пользователю информации на предмет отнесения ее к сведениям, доступ к которым нежелателен[18] той или иной категории пользователей, а также при создании объединённых систем баз данных, используемых пользователями с различными полномочиями относительно семантического содержания. Особенно это актуально в отношении систем контроля доступа в сети Интернет, что востребовано, например, в образовательных учреждениях. Отличительной особенностью тематического управления доступом является необходимость категорирования информации, что затрудняет реализацию подобных систем и требует разработки новых подходов. Однако, при условии автоматизации эффективного разбиения информации на классы, системы реализующие политику тематического разграничения доступа, могут работать с неограниченным множеством объектов доступа (текстов).

Актуальность разработки подхода к автоматическому разбиению информации на тематические классы также подчеркивается возможностью его использования в аналитических и информационных системах.

Представленная работа посвящена исследованию создания систем управления доступом, основанных на применении решения о доступе к информационному объекту на основе автоматизации разбиения текстовых данных по тематическому признаку (автоматической рубрикации текстов).

Необходимо также отметить отдельно, что разрабатываемый подход к управлению доступом инвариантен относительно естественных языков, на которых написаны документы. Положительным отличием предлагаемого подхода от большинства других алгоритмов автоматического определения тематики текстов состоит в том, что для текстов на различных языках при обучении системы требуется только умение определить тематику текста, тогда как во многих других системах необходимо более глубокое знание естественных языков.

Целью диссертационной работы является разработка подхода к созданию систем тематического управления доступом в справочных и информационно-поисковых системах на основе автоматического отнесения текстов к заданным тематическим рубрикам с использованием статистических критериев.

Для достижения этой цели необходимо решить следующие задачи:

1. Предложить и обосновать подход к реализации систем тематического управления доступом, основанный на автоматической рубрикации текстов.

2. Разработать модель текста, позволяющую определить его принадлежность к тематическим рубрикам в автоматизированном режиме.

3. Разработать и обосновать критерий принадлежности текста к заданной тематической рубрике для использования его в тематическом разграничении доступа и исследовать оценку его достоверности при различных параметрах функционирования.

4. Предложить методику тематического управления доступом на основе автоматической рубрикации текстов.

5. Разработать архитектуру системы тематического управления доступом на основе предложенного подхода.

Решение сформулированных задач проводилось с помощью аппарата теории вероятностей и математической статистики, теории математической лингвистики, теории систем и основ теории защиты информации. Для решения сформулированных задач применялся анализ подходов к реализации систем, осуществляющих тематическое управление доступом, изучение современных алгоритмов разделения текстов.

Научная новизна диссертационной работы состоит в следующем:

1. Сформулирован подход к построению систем тематического управления доступом на основе автоматического разделения текстов по тематическим рубрикам с использованием статистических критериев.

2. Предложена и обоснована оригинальная модель текстовых данных, позволяющая разработать критерий отнесения текста к тематическим рубрикам.

3. Впервые предложен и математически обоснован критерий автоматического отнесения текста к заданным тематическим рубрикам на основе анализа распределения цепочек символов.

4. Разработана методика управления доступом по тематическому признаку, содержащая рекомендации по выбору параметров входных данных (объёмов текстов, количества рубрик, естественных языков), а также параметров подхода к авторубрикации.

5. Разработана архитектура системы тематического управления доступом на основе предложенного подхода.

Практическая ценность работы состоит в том, что её результаты позволяют:

1. Контролировать доступ к информации,' полученной из открытых и общедоступных источников (например, Интернет), исходя из ее тематического направления, для различных категорий пользователей в зависимости от различных факторов (например, возрастные ограничения).

2. Реализовать систему тематического разграничения доступа в архивных и библиотечных системах, с автоматическим разбиением добавляемой в них информации по тематическим рубрикам.

Практическая ценность и новизна работы подтверждаются актами об использовании: от Учреждения Российской академии наук ИЛИ РАН (результаты применены при реализации подсистемы назначения полномочий сотрудников ведомственной компьютерной сети) и от ЗАО «МВП Свемел» (разработанная методика применена при создании системы документооборота).

Основные теоретические и практические результаты работы обсуждались на XVII и XVIII общероссийских научно-технических конференциях «Методы и технические средства обеспечения безопасности информации» (2008, 2009 Санкт-Петербург).

По теме диссертации опубликовано 9 работ, в их числе 6 научных статей, из них в изданиях, входящих в перечень утвержденных ВАК РФ - 6, и 3 доклада на конференциях.

Основные положения, выносимые на защиту: • Подход к тематическому разграничению доступа с использованием автоматического разделения информации по тематическим рубрикам.

• Модель текстовых данных, основанная на характеристиках распределения частот появления цепочек символов постоянной длины.

• Статистический критерий принадлежности текстовых данных к тематическим рубрикам в системах управления доступом на основе анализа распределения цепочек символов.

• Методика тематического разграничения доступа, основанная на статистическом подходе к авторубрикации текстов.

• Архитектура системы тематического управления доступом в информационно-поисковых системах, при обработке информации из общедоступного источника.

Диссертация состоит из введения, четырех глав, заключения и списка литературы из 63 наименований.

Заключение диссертация на тему "Тематическое разграничение доступа в информационно-поисковой системе на основе авторубрикации"

4.4. Выводы

Таким образом, в данной главе превалируют следующие задачи практического смысла:

• Исследование значений оценок достоверности предложенного статистического подхода к авторубрикации текстов при работе с реальными текстовыми массивами.

• Выявление оптимальных значений внутренних параметров подхода.

• Получение оценок работы подхода тематического разграничения доступа при различных входных данных.

• Сравнение разработанного подхода к авторубрикации с существующим аналогом.

• Описание архитектуры систем с применением политики тематического разграничения доступа, основанного на предлагаемом подходе к авторубрикации текстов.

Заключение

В результате диссертационных исследований:

1. Проанализированы существующие подходы к реализации систем тематического управления доступом и к системам авторубрикации текстов.

2. Предложен и обоснован оригинальный подход к авторубрикации текстов для использования в системе тематического разграничения доступа. В рамках теоретического обоснования подхода:

- Предложена статистическая модель текста, основанная на разбиении текста на цепочки символов текста.

- Введена мера близости текстов, основанная на вычислении статистики степени рассеивания.

- Построен статистический критерий определения принадлежности текста к заданной тематической рубрике.

3. Проведены оценки достоверности авторубрикации для различных параметров функционирования.

4. Разработана методика тематического управления доступом на основе автоматической рубрикации текстов.

5. Разработана архитектура системы тематического управления доступом на основе предложенного подхода.

Библиография Баранов, Юрий Александрович, диссертация по теме Методы и системы защиты информации, информационная безопасность

1. Агеев М.С., Кураленок И.Е. Приложение А. Официальные метрики РОМИП'2004. // Труды второго российского семинара по оценке методов информационного поиска. Под ред. И. С. Некрестьянова. СПб.: НИИ Химии СПбГУ. - 2004. - С. 142-150.

2. Александров А.Н. Аналитика по-русски. Электронный ресурс. // Открытые системы. 2007. — №8. URL: http://www.info-system.ru/olap/olap analytics rus.html (дата обращения: 15.06.2009) свободный. - Загл. с экрана.

3. Антонов А.В. Методы классификации и технология Галактика-Zoom // сб. Международный форум по информации. М.: ВИНИТИ. 2003. Т.28. №4. - С. 27-32.

4. Арапов М.В. Квантитативная лингвистика. М.: Наука, 1988. 183 с.

5. Арапов М.В. Классификация и распределения в лингвистике. Семиотика и информатика. Вып.17. М.: ВИНИТИ, 1981. 261 с.

6. Баранов А.П., Баранов Ю.А. Аппроксимация моментов произвольных целых порядков обобщением факториальными степенями. // М.: Дискретная математика. 2005. - т. 17. вып. 1. - С. 50-67.

7. Баранов А.П., Баранов Ю.А. Критерий степени рассеивания в задаче однородности выборок при большом числе исходов и испытаний. // М.: Дискретная математика. 2005. - т. 17. вып. 2. - С. 19-48.

8. Баранов А.П., Баранов Ю.А. Распределение степени рассеивания с растущим числом исходов в критерии принадлежности. // М.: Труды по дискретной математике. 2005. - т. 8. - С. 34-51.

9. Баранов П.А. О применении критерия степени рассеивания для обнаружения аномалий. // СПб.: Сб.Материалов XV общероссийской научно-технической конференции «Методы и технические средства обеспечения безопасности информации». СПбГПУ. 2006. - С. 96-97.

10. Баранов ПА. Проблемы реализации мандатного доступа (модель Белла ЛаПадулы) к ресурсам вычислительных систем. // СПб.: Проблемы информационной безопасности. - 2005. — № 1. — С. 7-15.

11. Баранов Ю.А. Авторубрикация текстов на основе неоднородных полиномиальных схем. // СПб.: Проблемы информационной безопасности. Компьютерные системы. 2008. - № 4. - С. 37-53.

12. Баранов Ю.А. Разработка тематической политики доступа в информационно-поисковых системах на основе авторубрикации текстов. // СПб.: Проблемы информационной безопасности. Компьютерные системы. 2009. - № 1. - С. 43-48.

13. Баранов Ю.А. Статистическая независимость в моделях текстов, обрабатываемых в АИС. // СПб.: Проблемы информационной безопасности. Компьютерные системы. — 2008. — № 1. С. 104-111.

14. Баранов Ю.А. Статистическая независимость в моделях текстов, обрабатываемых в АИС. // Материалы XVII общероссийской научно-технической конференции «Методы и технические средства обеспечения безопасности информации». СПбГПУ. 2008. - С. 8

15. Баранов Ю.А. Неоднородные полиномиальные схемы и их применение для авторубрикации. // Материалы XVII общероссийской научно-технической конференции «Методы и технические средства обеспечения безопасности информации». 2008. - С. 9

16. Белоногов Г. Г., Котов Р. Г. Автоматизированные информационно-поисковые системы. М.: Советское Радио. 1968. 184 с.

17. Бернштейн С. Н. Распространение предельной теоремы теории вероятности на суммы зависимых величин. // М.: Успехи математических наук. 1944. - вып. 10. - С. 65-114.

18. Богданов В.В. Статистические концепции языка и речи. // Статистика речи и автоматический анализ текста 1972, Л.: Наука. 1973. - С. 9-19.

19. Гайдамакин Н. А. Разграничение доступа к информации в компьютерных системах. Екатеринбург: Издательство Уральского Университета. 2003. 328 с.

20. Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учебное пособие. М.: Гелиос АРВ. 2002. 368 с.

21. Гареев А. Ф., Дягилева А. В., Киселев С. Л. Автоматическое тематическое рубрицирование сообщений средств массовой информации на основе применения технологии нейронных сетей. // Информационные технологии. 1999. - № 5 - С. 26-33.

22. Гендина Н.И. Лингвистические средства автоматизации документального поиска. СПб.: Б АН. 1992. 188 с.

23. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии. -2002.-№7.-С. 30-34.

24. Девянин П.Н. Модели безопасности компьютерных систем. М.: Academia. 2005. 144 с.

25. Денисов П.Н. Принципы моделирования языка. М.: МГУ. 1965. 151 с.

26. Зегжда Д.П., Ивашко A.M. Как построить защищенную информационную систему. СПб.: НПО «Мир и Семья-95». 1998. 256 с.

27. Зегжда Д.П., Ивашко A.M. Основы безопасности информационных систем. М.: Горячая Линия Телеком. 2000. 452 с.

28. Калинин В. М., Шалаевский О. В. Хи-квадрат как критерий независимости признаков в таблице сопряженности признаков. // Наука, Ленинград, Исследования по классическим проблемам теории вероятности и математической статистики. 1984. — т. 26. - С. 88-117.

29. Базы данных. Интеллектуальная обработка информации. /В.В. Корнеев и др.. М.: Нолидж. 2000. 352 с. ISBN 5-89251-089-1

30. Корт С.С. Теоретические основы защиты информации. М.: Гелиос АРВ. 2004. 240 с. ISBN 5-85438-010-2.

31. Крамер Г. Математические методы статистики. М.: Мир. 1975. 648 с.

32. Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. 2001. - Т. 37. Вып. 2.-С. 96-108.

33. Кураленок И. Е., Некрестьянов И. С. Оценка систем текстового поиска. // Программирование. 2002. - т. 28. № 4. - С. 226-242.

34. Марков А.А. Об одном применении статистического метода. // Известия Имп.Акад.наук, серия VI. 1916. - Т. 10. № 4. - С. 239.

35. Марчук Ю.Н. Компьютерная лингвистика: учебное пособие. М.: ACT: Восток-Запад. 2007. 317 с.

36. Мельников В.В. Безопасность информации в автоматизированных системах. М.: Финансы и статистика. 2003. 368 с.

37. Москальчук Г.Г. Структура текста как синергетический процесс. М.: Едиториал УРСС. 2003. 296 с.

38. Опарин А.А. Системы мониторинга и анализа СМИ. Электронный ресурс. // PC Week. 2003. - №47.

39. URL: http://www.pcweek.ru/themes/detail.php?ID-66333 (дата обращения: 15.06.2009).

40. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: Высшая школа, 1977. 183 с.

41. Рао С. Р. Линейные статистические методы и их применения. М.: Наука. 1968. 547 с.

42. Селиванов Б. И. О статистике хи-квадрат для проверки однородности полиномиальных выборок. // М.: Обозрение прикладной и промышленной математики. -2006. — т.13. вып. 3 С. 542-543.

43. Смирнов С.Н. Безопасность систем баз данных. М.: Гелиос АРВ. 2007. 352 с.

44. Хмелев Д.В. Распознавание автора текста с использованием цепей А.А. Маркова. // М.: Вестник МГУ, сер.9: Филология. 2000. - № 2. -С. 115-126.

45. Хоффман JI. Дж. Современные методы защиты информации. М.: Сов. Радио. 1980.264 с.

46. Кто написал «Тихий Дон»?: (Проблема авторства «Тихого Дона») / Г. Хьетсо и др.. М.: Книга. 1989. 186 с.

47. Чипига А. Ф., Ерещенко А. А. Разграничения доступа в объектно-ориентированных системах на основе структуры классов. // Вестник СевКавГТУ. 2006. - № 1. - С. 23-28.

48. Шабанов В.И. Модели и методы автоматической классификации текстовых документов: автореф. дис.канд.техн.наук : 05.13.11 / Шабанов Владислав Игоревич. Москва, 2003. - 18 с.

49. Шрейдер Ю. А. Равенство, сходство, порядок. М.: Наука. 1971. 256 с.

50. Щеглов А.Ю. Защита компьютерной информации от несанкционированного доступа. М.: Наука и техника, 2004. 384 с.

51. Анализ текстов. Электронный ресурс.

52. URL: http://www.statsoft.ru/home/portal/exchange/textanalysis.htm. (дата обращения: 15.06.2009).

53. Berger Н.А, Merkl D. Comparison of Text-Categorization Methods applied to iV-Gram Frequency Statistics. // Australian Conference on Artificial Intelligence. 2004. - P. 998-1003.

54. Cavnar W. В., Trenkle J. M. N-gram based text categorization. // Proceedings of 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas 11-13 April. 1994.-P. 161-175.

55. Cressie N., Read Т. Статистики однородности для дискретных многомерных данных = Goodness-of-fit statistics for discrete multivariate data. New York, Springer. 1988. 211 p. Язык: англ.

56. Gladney H.M. Access control for large collections // ACM Transactions on Information Systems (TOIS). 1997. - Vol. 15. № 2. - P. 154-194.

57. Gladney H.M. Охрана содержимого и пользователей цифровой библиотеки: Контроль доступа к документам = Safeguarding Digital Library Contents and Users: Document Access Control. Электронный ресурс. // D-lib Magazine June 1997, 1997.

58. URL: http://www.dlib.org/dlib/iune97/ibm/06gladney.html (дата обращения: 15.06.2009).

59. Harris S. Mike Meyers' CISSP(R) Certification Passport. McGraw-Hill Osborne Media. 2002. 422p. ISBN 0-07222-578-5.

60. Pederson J., Yang Y. Feature selection in statistical learning of text categorization. //Proceedings of the ICML'97. 1997. P. 412-420.

61. Yang Y. An Evaluation of Statistical Approaches to Text Categorization. // Journal of Information Retrieval. 1999. - Vol. 1. № 2 - P. 69-90.